Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)






Точечные оценки и их свойства



В предыдущей теме мы рассматривали выборочную среднюю, выборочную дисперсию и выборочное среднее квадратическое отклонение, как приближенные значения соответствующих генеральных характеристик.

Выборочная характеристика, используемая в качестве приближенного значения неизвестной генеральной характеристики, называется ее точечной статистической оценкой.

«Точечная»- означает, что оценка представляет собой точку на числовой оси.

«Статистическая»- что оценка рассчитывается по результатам статистических наблюдений.

Обозначим через некоторую генеральную характеристику. Ее приближенное числовое значение можно вычислить, используя некоторый алгоритм или формулу по результатам выборочных данных.

любого >0 lim P( I n - I < ) =1.

n

 

Таким образом, чем больше объем выборки, тем оценка более состоятельна.

Оценка n генеральной характеристики называется несмещенной, если для любого n = f(x1,x2,...,xn)

Возникает вопрос: «Как хорошо выбрано приближение?»

Так как x1,...,xn – случайные величины, то и точечные оценки – величины случайные. Чтобы точечную оценку можно было считать хорошим приближением, сформулируем свойства, которыми она должна обладать: состоятельности, несмещенности и эффективности.

Оценка n генеральной характеристики называется состоятельной, если для фиксированного числа наблюдений выполняется равенство M( n)= .

Несмещенная оценка генеральной характеристики называется эффективной, если она среди всех прочих несмещенных оценок обладает наименьшей дисперсией.

Чтобы выяснить, является ли оценка эффективной, необходимо иметь минимум, с которым можно сравнивать. Часто этот минимум хорошо известен:

Нормальный закон распределения: minM= 2/n, min =2 4/n

Задача 1.3.

 

Пусть генеральную совокупность образуют 5 чисел: -2;-1;0; 6; 2.

Требуется:

Вычислить генеральное среднее и генеральную дисперсию;

Составить все возможные выборки с возвратом объема n=2;

Для каждой из них вычислить значение выборочной средней и выборочной дисперсии;

Установить свойства выборочных характеристик.

Решение:

Построим ряд распределения СВ:

 

 

Х -2 -1 0 2 6
Р 1/5 1/5 1/5 1/5 1/5

МХ=1

ДХ=8

 


Выборка х1 х2 Р(х1х2) = ( )2 = = 2- ( )2
-2 -2 1/25 -2 4 4 0
-2 -1 1/25 -1,5 2,25 2,5 0,25
-2 0 1/25 -1 1 2 1
-2 2 1/25 0 0 4 4
-2 6 1/25 2 4 20 16
-1 -2 1/25 -1,5 2,25 2,5 0,25
-1 -1 1/25 -1 1 1 0
-1 0 1/25 -0,5 0,25 0,5 0,25
-1 2 1/25 0,5 0,25 2,5 2,25
-1 6 1/25 2,5 6,25 18,5 12,25
0 -2 1/25 -1 1 2 1
1/25 -0,5 0,25 0,5 0,25
0 0 1/25 0 0 0 0
0 2 1/25 1 1 2 1
0 6 1/25 3 9 18 9
2 -2 1/25 0 0 4 4
0 -1 1/25 0,5 0,25 2,5 2,25
2 0 1/25 1 1 2 1
2 2 1/25 2 4 4 0
2 6 1/25 4 16 20 4
6 -2 1/25 2 4 20 16
6 -1 1/25 2,5 6,25 18,5 12,25
6 0 1/25 3 9 18 9
6 2 1/25 4 16 20 4
6 6 1/25 6 36 36 0

 



 

Построим ряд распределения выборочной средней:

 

-2 -1,5 -1 -0,5 0 0,5 1 2 2,5 3 4 6
Р 1/25 2/25 3/25 2/25 3/25 2/25 2/25 3/25 2/25 2/25 2/25 1/25

 

 

М = 1,так как генеральная средняя МХ=1,то значит - несмещенная оценка математического ожидания.

 

Построить ряд распределения выборочной дисперсии:

 

 

D 0 0.25 2.25 1 4 12.25 9 16
Р 5/25 4/25 2/25 4/25 4/25 2/25 2/25 2/25

 



 

М( D ) = 4, а генеральная дисперсия DХ = 8 , то значит D - смещенная оценка дисперсии.

 

Доказано, что выборочное среднее является несмещенной и состоятельной оценкой математического ожидания генеральной совокупности, а выборочная дисперсия является смещенной оценкой дисперсии. Иными словами , выборочная дисперсия оценивает генеральную дисперсию с недостатком, поэтому в качестве оценки генеральной дисперсии удобнее брать исправленную дисперсию:

S2 =

Исправленная дисперсия является несмещенной и состоятельной оценкой генеральной дисперсии случайной величины Х.

 

Интервальные оценки числовой характеристики случайной величины.

 

После получения точечной оценки желательно иметь данные о надёжности такой оценки. Особенно важно иметь сведения о точности оценок для небольших выборок (поскольку с возрастанием объёма выборки состоятельность и несмещенность основных оценок гарантируется утверждениями математической статистики). Поэтому точечная оценка может быть дополнена интервальной оценкой – интервалом ( ; ), где = - , = + , внутри которого с наперед заданной вероятностью находится точное значение оцениваемого параметра .Задачу определения такого интервала называют интервальным оцениванием, а сам интервал – доверительным интервалом. При этом называют доверительной вероятностью, с которой оцениваемый параметр попадает в интервал ( ; ).

Зачастую для определения доверительного интервала заранее выбирают число < , называемое уровнем значимости, и находят два числа и такие, что Р( < < ) = 1- .

В этом случае говорят, что интервал ( ; ) накрывает неизвестный параметр с вероятностью (1- ). Границы интервала называются доверительными.

Выбор определяется конкретными условиями. Обычно используется , что соответствует 90, 95, 99%-м доверительным интервалам.

Общая схема построения доверительного интервала:

1. По сделанной выборке находится точечная оценка неизвестного параметра .

2. Задаются надёжностью .

3. По определённым правилам находят такое число >0 (ошибка выборки), чтобы выполнялось соотношение Р ( 1< < ) = .

Поскольку выборочная совокупность представляет собой лишь часть генеральной совокупности, то выборочные характеристики не будут точно совпадать с генеральными.

 

Формулы расчета ошибки выборки случайного отбора

 

Выборка с повтором Бесповторная выборка
Для средней U
Для доли U U

 

 

где - выборочная дисперсия; - доля значения признака; n –объём выборки;N –объём генеральной совокупности;

Если объём выборки более 30 , то U находят по функции Лапласа, а если не более 30 – то по распределению Стьюдента (см. приложения).

Задача 1.4.

 

С помощью случайного повторного отбора руководство фирмы провело выборочное обследование 900 своих служащих. Средний стаж работы в фирмы- 8,7 года, среднее квадратическое отклонение- 2,7 года. Среди обследованных оказалось 270 женщин. Считая стаж работы распределенным по нормальному закону определить:

а) С вероятностью 0,95 доверительный интервал, в котором окажется средний стаж работы всех служащих в фирме;

б) С вероятностью 0,9 доверительный интервал, накрывающий неизвестную долю женщин в коллективе.

Решение:

а) N=900 > 30; = 8,7; =2,7; .

U = 1,64; ;

Доверительный интервал среднего стажа работы ( 8,7 – 0,1476; 8,7 + 0,1476) или ( 8,5524; 8,8476).

б) N = 900; n = 270 ; ;

U =1.28; 0.0196;

Доверительный интервал доли женщин в коллективе (0,3-0,0196;0,3+0,0196) или (0,2904;0,3196).

 

Задача 1.5.

Владелец автостоянки опасается обмана со стороны своих служащих.В течение года (365 дней) им проведено 40 проверок. По данным проверок в среднем число автомобилей на стоянке составило 400 единиц, а среднеквадратическое отклонение 10 единиц. Считая отбор случайным, с вероятностью 0,99 оценить с помощью доверительного интервала истинное среднее число автомобилей, оставленных на стоянке. Обоснованы ли опасения владельца стоянки, если по отчетности охранников число автомобилей, оставленных под охрану в среднем составляет 395 единиц.

Решение:

Произведена выборка без повторения, так как нет смысла в течение одних суток делать повторную выборку.

n=40<30; N=365; =400;

U = 2.32; =4.058;

Доверительный интервал среднего числа автомобилей оставленных на стоянке (395,942;404,058).

Так как данные отчетности охранников ( 395 единиц ) не входят в данный интервал, то с уверенностью 99% можно ожидать, что работники автостоянки обманывают владельца.

 

Задача 1.6.

Служба контроля Энергосбыта провела выборочную проверку расхода электроэнергии жителями одного из многоквартирных домов. Было выбрано 10 квартир (таблица случайных чисел) и определен расход электроэнергии в течении одного из летних месяцев (кВт.ч.):

125;78;102;140;90;45;50;125;115;112.

Свероятностью0,95 определить доверительный интервал для оценки среднего расхода электроэнергии на одну квартиру в доме, при условии, что в доме 70 квартир. Отбор бесповторный.

 

 

Решение:

n=10>30; = ; S2= = 1033.

, k= n-1= 9, = 2,26; = 2,26* =21.27.

Доверительный 95%-ный интервал среднего расхода электроэнергии ( 76,93; 119,47).

 

Упражнения и задачи.

1. Приведена статистика по годовым темпам (%) инфляции в стране за последние 10 лет:

2.8; 3,2; 5,1; 1,8; -0,6; 0,7; 2,1; 2,7; 4,1; 3,5.

Найти несмещенные оценки среднего темпа инфляции, дисперсии и среднего квадратического отклонения .

2. На основании наблюдений за работой 25 кандидатов на должность секретаря-референта установлено, что в среднем они тратили 7 минут на набор одной страницы сложного текста на компьютере при выборочном стандартном отклонении 2 минуты. Определите 95%-ный доверительный интервал для среднего времени набора.

 

1.5. Статистическая гипотеза и этапы её проверки.

Под статистической гипотезой понимают всякое предположение о генеральной совокупности, проверяемое по выборке.

Не располагая сведениями о всей генеральной совокупности высказанную гипотезу сопоставляют, по определенным правилам, с выборочными сведениями и делают вывод о том, можно её принять или нет. Процедура сопоставления высказанной гипотезы с выборочными данными называется проверкой статистической гипотезы.

Этапы проверки гипотезы:

Этап 1. Располагая выборочными данными х1 2,...,хn и руководствуясь конкретными условиями задачи, формулируют основную (нулевую) гипотезу Ho и альтернативную ей гипотезу H1.

Например, если проверяется гипотеза о равенстве параметра некоторому значению 0, т.е. H0: 0, то в качестве альтернативной могут рассматриваться следующие гипотезы:

H : ; H : ; H : .

Этап 2.Так как проверка гипотез осуществляется на основании выборочных данных, то принятие основной гипотезы носит вероятностный характер, т.е. решение о принятии H сопровождается возможной ошибкой.

Ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза.

Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, в то время как в действительности верна альтернативная.

Возможные результаты статистических выводов представлены следующей таблицей:

Результаты проверки гипотезы Возможные состояния гипотезы
Верна Н Верна Н
Гипотеза Н отклоняется Ошибка первого рода Правильный вывод
Гипотеза Н принимается Правильный вывод Ошибка второго рода

 

Критическая область (- ) (k ;+ ) называется двусторонней критической областью. Она определяется в случае, когда альтернативная гипотеза имеет вид:

Н1: .

Критическая область (k ;+ ) называют правосторонней критической областью.

Она определяется, когда альтернативная гипотеза имеет вид: Н :

Критическая область ( ) – критическая левосторонняя область, когда Н : Последствия указанных ошибок неравнозначны. Первая при водит к более осторожному, консервативному решению, вторая – к неоправданному риску.

Например, если Н состоит в признании продукции предприятия качественной и допущена ошибка первого рода, то будет забракована годная продукция, а допустив ошибку второго рода , мы отправим потребителю брак. Очевидно, последствия второй ошибки более серьёзны с точки зрения имиджа фирмы и её долгосрочных перспектив.

Вероятность совершить ошибку первого рода принято обозначать буквой , и ее называют уровнем значимости. Вероятность совершить ошибку второго рода обозначают . Тогда вероятность не совершить ошибку второго рода (1- ) называется мощностью критерия.

Обычно значения задают заранее «круглыми» числами ( 0,1; 0,05; 0,01 и т.п.).

Этап 3. Вычисление соответствующего критерия К для проверки основной гипотезы.

Критерий К выражается формулой, по которой определяется мера расхождения результатов выборочных наблюдений с высказанной гипотезой.

Этап 4. Нахождение критической области. Для этого используют специально подобранную СВ (статистику), точное или приближенное значение которой известно. Эту величину обозначают:

U - если величина распределена по нормальному закону;

Т - если она распределена по закону Стьюдента;

- если она распределена по закону ;

F - если она имеет распределение Фишера.

В общем виде эту величину будем обозначать К - статистический критерий.

Совокупность значений статистического критерия , при которых нулевую гипотезу отклоняют, называют критической областью. .Совокупность значений критерия, при которых нулевую гипотезу принимают, называют областью принятия гипотезы.

Точки k1- ,k1- ,k ,k разделяющие критическую область и область принятия гипотезы, называют критическими.

.

Обозначим двустороннюю критическую область Р , правостороннюю - Р , левостороннюю - Р .

Этап 5. Принятие статистического решения.

Если К Р, то Н отвергается в пользу Н , а если К Р, то Н принимается.

 


Эта страница нарушает авторские права

allrefrs.ru - 2019 год. Все права принадлежат их авторам!