Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)






Интервальные оценки. Доверительная вероятность, доверительный интервал



Интервальной называют оценку, которая определяется 2 числами – границами интервала. Она позволяет ответить на вопрос: внутри какого интервала и с какой вероятностью находится неизвестное значение оцениваемого параметра генеральной совокупности. Пусть θ точечная оценка параметра θ.Чем меньше разность θ - θ, тем точнее и лучше оценка. Обычно говорят о доверительной вероятности p = 1-α, с которой θбудет находиться в интервале θ-Δ < θ< θ+Δ, где: Δ (Δ > 0) – предельная ошибка выборки, которая может быть либо задана наперед, либо вычислена; a - риск или уровень значимости (вероятность того, что неравенство будет неверным). В качестве 1-a принимают значения 0,90;0,95;0,99;0,999. Доверительная вероятность показывает, что в (1-a) 100% случаев оценка будет накрываться указанным интервалом. Для построения доверительного интервала параметра а – математического ожидания нормального распределения, составляют выборочную характеристику (статистику), функционально зависимую от наблюдений и связанную с а, например, для повторного отбора:

u = `х -a
s
  Ön

Статистика u распределена по нормальному закону распределения с математическим ожиданием а = 0 и средним квадратическим отклонением s = 1. Отсюда

P(|u|<u a/2)= 1-s или 2Ф(ua/2)=1-s, где Ф-функция Лапласа, ua/2 – квантиль нормального закона распределения, соответствующая уровню значимости a. Доверительный интервал для параметра а:

`х - ua/2 s < a < `x + ua/2 s
Ön Ön

 

.Определение доверительного интервала для средней и доли при случайном обороте; . Определение доверительного интервала для средней и доли при типическом обороте;. Определение необходимой численности выборки. Распространение данных выборки на генеральную совокупность).

Где:

1) t— квантиль распределения соответствующая уровню значимости :

а) при n 30 t= - квантиль нормального закона распре деления,

б) при n<30t - квантиль распределения Стьюдента с v=n-1 степенями свободы для двусторонней области;

2) - выборочная дисперсия:

а) при n 30 можно считать, что

б) при n<30 вместо берут исправленную выборочную дисперсию S2 ( ) далее везде рассматривается исправленная выборочная дисперсия S2;

З) рq — дисперсия относительной частоты в схеме повторных независимых испытаний;



4) N — объем генеральной совокупности;

5) n — объем выборки;

6) — средняя арифметическая групповых дисперсий (внутригрупповая дисперсия);

7) — средняя арифметическая дисперсий групповых долей,

8) — межсерийная дисперсия,

9) pqм.с. — межсерийная дисперсия доли;

10) Nc — число серий в генеральной совокупности;

11) nc — число отобранных серий (объем выборки);

12) — предельная ошибка выборки

42. Статистические критерии проверки гипотез, уровень значимости и мощность критерия.Выбор м/у гипотезами Н0 и Н1 может сопровождаться ошибками 2 родов. Ошибка первого рода a означает вероятность принятия Н1, если верна гипотеза Н0: a=Р(Н10). Ошибка второго рода b означает вероятность принятия Н0 если верна гипотеза Н1: b=Р(Н01). Существует правильное решение двух видов Р(Н00) = 1-a и Р(Н11)=1-b. Правило, по которому принимается решение о том, что верна или неверна гипотеза Н0 называется критерием, где: a=Р(Н10) – уровень значимости критерия; М= Р(Н11)=1-b - мощность критерия. Статистический критерий К – случайная величина, с помощью которой принимают решение о принятии или отклонении Н0.

 

Концепция Data Mining.

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных. Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP). В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.




Эта страница нарушает авторские права

allrefrs.ru - 2018 год. Все права принадлежат их авторам!