Выдержка из текста работы
Теория вероятностей — это раздел математики, изучающий модели случайных явлений. Случайными явлениями называются явления с неопределенным исходом, происходящие при неоднократном воспроизведении определенного комплекса условий. Становление и развитие теории вероятностей связано с именами таких великих ученых, как: Кардано, Паскаль, Ферма, Бернулли, Гаусса, Чебышева, Калмогорова и многих других. Закономерности случайных явлений впервые были обнаружены в16 — 17 вв. на примере азартных игр, подобных игре в кости. Очень давно известны так же закономерности рождения и смерти. Например, известно, что вероятность новорожденному быть мальчиком ? 0,515. В 19-20 вв. было открыто большое число закономерностей в физике, химии, биологии и т. д. В настоящее время методы теории вероятностей широко применяются в различных отраслях естествознания и техники: в теории надежности, теории массового обслуживания, в теоретической физике, геодезии, астрономии, теории стрельбы, теории ошибок наблюдений, теории автоматического управления, общей теории связи и во многих других теоретических и прикладных науках. Теория вероятностей служит также для обоснования математической и прикладной статистики, которая в свою очередь используется при планировании и организации производства, при анализе технологических процессов, предупредительном и приемочном контроле качества продукции и для многих других целей. В последние годы методы теории вероятностей все шире и шире проникают в различные области науки и техники, способствуя их прогрессу.
2. Испытание. Событие. Классификация событий
Испытание — это многократное воспроизведение одного и того же комплекса условий, при котором производится наблюдение. Качественный результат испытания — событие. Пример 1: В урне имеются цветные шары. Из урны на удачу берут один шар. Испытание — извлечение шара из урны; Событие — появление шара определенного цвета. О. 2: Множество взаимоисключающих исходов одного испытания называется множеством элементарных событий или элементарных исходов. Пример 2: Игральная кость подбрасывается один раз. Испытание — подбрасывание кости; Событие — выпадение определенного числа очков. Множество элементарных исходов — {1,2,3,4,5,6}. События обозначаются заглавными буквами латинского алфавита: А1,А2,…,А,В,С,… Наблюдаемые события (явления) можно подразделить на следующие три вида: достоверные, невозможные, случайные. О. 3: Событие называется достоверным, если в результате испытания оно обязательно произойдет. О. 4: Событие называется невозможным, если в результате испытания оно никогда не произойдет. О. 5: Событие называется случайным, если в результате испытания оно может либо произойти, либо не произойти. Пример 3: Испытание — мяч подбрасывается вверх. Событие A ={мяч упадет} — достоверное; Событие B={мяч зависнет в воздухе} — невозможное; Событие C={мяч упадет на голову бросавшему} — случайное. Случайные события (явления) можно подразделить на следующие виды: совместные, несовместные, противоположные, равновозможные. О. 6: Два события называются совместными, если при одном испытании, появление одного из них не исключает появление другого. О. 7: Два события называются несовместными, если при одном испытании, появление одного из них исключает появление другого. Пример 4: Монета подбрасывается два раза. Событие A — {Первый раз выпал герб}; Событие B — {Второй раз выпал герб}; Событие C — {Первый раз выпал орел}. События A и B — совместные, A и C — несовместные. О. 8: Несколько событий образуют полную группу в данном испытании, если они попарно несовместны и в результате испытания одно из этих событий обязательно появится. Пример 5: Мальчик бросает монетку в игральный автомат. Событие A ={мальчик выиграет}; Событие B={мальчик не выиграет}; A и B — образуют полную группу событий. О. 9: Два несовместных события, образующих полную группу называются противоположными. Событие противоположное событию A обозначается . Пример 6. Делается один выстрел по мишени. Событие A — попадание; Событие — промах.
О. 10: События называются равновозможными, если есть основания считать, что одно из них не является более возможным, чем другое. Пример 7: В урне содержится 10 шаров: 5 синих и 5 красных. Наудачу извлекается один шар. Событие A ={извлеченный шар красный}; Событие B={извлеченный шар синий}; A и B — равновозможные события.
3. Понятие вероятности события. Классическое определение вероятности
1. Понятие вероятности события О. 1. Вероятностью события называется численная мера степени объективной возможности наступления события в данном испытании. Выбор числового значения вероятности в конкретной задаче осуществляется либо при обработке результатов большого количества испытаний, либо предполагается теоретически (например по свойству симметрии).2. Классическое определение вероятности и его свойства Пусть в результате испытания может наступить конечное число n равновозможных элементарных событий (исходов), причем среди них имеются m таких исходов, которые ведут к появлению события A. Эти m событий называются благоприятствующими событию A.О. 2. (классическое определение) Вероятностью P(A) события A называется отношение числа элементарных событий благоприятствующих событию A к числу всех элементарных событий:
где n — общее число элементарных событий, — число элементарных событий благоприятствующих событиюA. Пример 1. Даны числа от 1 до 30. Наудачу выбирается одно число. Найти вероятность того, что это число является делителем 30.Решение: n=30, А={1,2,3,5,6,10,15,30}, m=8, . Свойства вероятности. Вероятность достоверного события A равна единице, т. к; Вероятность невозможного событияA равна нулю, т. к. ; Вероятность случайного событияA есть положительное число, заключенное между нулем и единицей, т. к. 0<m<n, то . Недостатки классического определения. 1. Определение не применимо, если число элементарных исходов испытания бесконечно.
4. Относительная частота события. Статистическое определение вероятности
Часто не возможно представить результат испытания в виде совокупности элементарных событий. 3. Трудно указать основания, позволяющие считать события равновозможными. О равновозможности исходов опыта заключают из соображений симметрии. Для преодоления 3 недостатка вводятся статистические вероятности, а для преодоления 1 недостатка — геометрические (вероятности попадания точки в область). Рассмотрим более подробно понятие статистической вероятности. 3. Статистическое определение вероятности. Относительная частота события
Пусть произошло n испытаний, причем в этих испытаниях событие A появилось m раз. Число m называют абсолютной частотой события A. О. 3. Относительной частотой P*(A) события A называется отношение числа испытаний, в которых событие A появилось к общему числу проведенных испытаний
где n — общее число испытаний, m — число появлений событияA. Пример 2. Среди 1000 новорожденных оказалось 515. Чему равна частота рождения мальчиков. Событие A — родился мальчик. Относительная частота события A: .
Вероятность события может быть посчитана без проведения испытания, а относительная частота считается только в том случае, если испытание проведено фактически. Если в одинаковых условиях проводят опыты, в каждом из которых число испытаний достаточно велико, то относительная частота обнаруживает следующее свойство: в различных опытах относительная частота изменяется мало (тем меньше, чем больше произведено испытаний), колеблясь около некоторого постоянного числа. О. 4. (статистическое определение) Вероятностью события A в данном испытании называется число P(A), около которого группируется значения относительной частоты P*(A) при больших n Р(А)?Р*(А) прип>?. Недостатки статистического определения. Неоднозначность статистической вероятности.
5. Понятие комбинаторики. Основные правила комбинаторики
Комбинаторика изучает количества комбинаций, подчиненных определенным условиям, которые можно составить из элементов заданного конечного множества.
Использование формул комбинаторики значительно облегчает проведение расчетов в теории вероятностей. 2. Основные правила комбинаторики Пусть А1,А2,…,Аk — это элементы заданного конечного множества. Правило суммы: Если элемент A1 можно выбрать n1 способами, A2 можно выбрать n2 способами, An можно выбрать nk способами отличными от всех предыдущих, то выбор 1-го из элементов А1,А2,…,Аk может быть осуществлен n1+n2+…+nk способами. Пример 1. В коробке 20 шаров, причем 5 из них красные, 6 синие, а остальные зеленые. Сколько существует способов извлечь из ящика 1 шар или красного или синего цвета. Решение: n1+n2=5+6=11. Правило произведения: Пусть элемент A1 можно выбрать n1 способами, после каждого такого выбора элемент A2 можно выбрать n2 способами, после (k-1) — го выбора элемент Anможно выбрать nk способами, тогда выбор всех элементов в указанном порядке может быть осуществлен n1•n2•…•nk способами. Пример 2. В конкурсе участвуют 10 человек. Для определения порядка выступления конкурсантов проводят жеребьевку. Сколькими способами можно выбрать трех человек для выступления под номерами 1,2,3. Решение: n1•n2•n3 = 10•9•8=720
6. Основные комбинаторные соединения
Пусть дано множество из n элементов. Из этого множества могут быть составлены подмножества (комбинации) по m элементов трех основных видов: 1. перестановки; 2. размещения; 3. сочетания. Перестановки (m=n) О. 1. Перестановками без повторений называют комбинации, состоящие из одних и тех же n различных элементов и отличающиеся только порядком их следования. Число всевозможных перестановок без повторений Pn=n! Пример 3. Сколько пятизначных чисел можно составить из цифр: числа 12345. Решение: О. 2. Перестановками с повторениями называются перестановки, в которых из общего числа n элементов имеется только k различных элементов, причем 1-й элемент повторяется n1 раз, 2-й элемент повторяется n2 раз, k-й элемент повторяется nk раз ().
Число всевозможных перестановок с повторениями
Пример 4. Сколько пятизначных чисел можно составить из цифр числа 12213. Решение: . Размещения и сочетания О. 3. Размещениями без повторений называют комбинации, составленные из n различных элементов по m элементов, которые отличаются либо составом элементов, либо порядком следования. Число всевозможных размещений без повторений
Пример 5. Десять студентов участвуют в конкурсе на назначение трех стипендий: президентской, губернаторской и потанинской. Причем, один человек может получить только одну стипендию. Сколько существует вариантов распределения стипендий. Решение:
О. 4. Размещениями с повторениями называются размещения, некоторые элементы (или все) которых могут оказаться одинаковыми. Число всевозможных размещений с повторениями
Пример 6. Десять студентов участвуют в конкурсе на назначение трех стипендий: президентской, губернаторской и потанинской. Причем, так как конкурс серьезный и победить в нем могут только настоящие вундеркинды, то для большего поощрения решено, что один человек может получить несколько стипендий одновременно. Сколько существует вариантов распределения стипендий. Решение: . O. 5. Сочетаниями без повторений называются комбинации, составленные из n различных элементов по m элементов, которые отличаются только составом. Число сочетаний без повторении
Пример 7. Десять студентов участвуют в конкурсе на назначение трех губернаторских стипендий. Причем один человек может получить только одну стипендию. Сколько существует вариантов распределения стипендий. Решение: . О. 6. Сочетаниями с повторениями называются сочетания некоторые элементы (или все) которых могут оказаться одинаковыми. Число всевозможных сочетаний с повторениями Пример 8. Десять студентов участвуют в конкурсе на назначение трех губернаторских стипендий. Причем, так как конкурс серьезный и победить в нем могут только настоящие вундеркинды, то для большего поощрения решено, что один человек может получить несколько стипендий одновременно. Сколько существует вариантов распределения стипендий. Решение: . Свойства сочетаний 1. ; 2. ; 3. ; 4. . Число размещений, перестановок и сочетаний связаны между собой равенством .
7. Алгебра событий
О.1: Суммой двух событий Aи B называется событие C=A+B, состоящее в появлении хотя бы одного из событий A или B. Если события Aи B совместные, то их сумма означает наступление или события A, или события B, или обоих событий Aи B. Если события Aи Bнесовместные, то их сумма означает наступление или события A, или события B. О. 2: Произведением двух событий Aи B называется событие C=AB, состоящее в одновременном появлении A и B.
Аналогично определяются сумма и произведение n событий. Свойства суммы и произведения событий: Пусть даны следующие события: 1)D — достоверное; 2) H — невозможное;
3) A — случайное; 4) — противоположное A. Тогда справедливы следующие соотношения: 1) ; 2) ; 3) ; 4) ;
5) ; 6) . Пример 8: Произведено два выстрела по мишени. Событие А={попадание при первом выстреле}; Событие В={попадание при втором выстреле}; Событие; Событие А•В={попадание ил при обоих выстрелах}
8. Условная вероятность. Теоремы умножения вероятностей
О. 1. Два события Aи B называются зависимыми, если вероятность появления каждого из них зависит от того, появилось ли другое событие или нет. О. 2. Два события Aи B называются независимыми, если вероятность появления каждого из них не зависит от того, появилось ли другое событие или нет. О. 3. Вероятности независимых событий называются безусловными. Пусть Aи B зависимые события. О.4. Условной вероятностью события B называется вероятность этого события, вычисленная в предположении, что событие A уже произошло. Обозначается или PA(B). Условная вероятность события A определяется аналогично. Теорема 1. Если Aи B независимые события, то их условные вероятности совпадают с обычными вероятностями, т. е , . Пример 1. В ящике находятся 10 красных шаров и 5 синих. Последовательно извлекают два шара. Найти вероятность того, что второй извлеченный шар синий, если: выборка осуществляется без возвращения; выборка осуществляется с возвращением. Решение: Событие A — {1-й извлеченный шар красный}; Событие B — {2-й извлеченный шар синий}.
В первом случае события Aи B зависимые, а во втором не зависимые. 1) ; 2) . Пусть даны два события Aи B и требуется найти вероятность их совместного появления. Теорема 2. Если Aи B зависимые события, то вероятность их совместного появления (произведения) равна произведению вероятности одного из этих событий на условную вероятность другого, вычисленную при условии, что первое событие произошло, т. е. , .
Следствие: Вероятность совместного появления (произведения) нескольких зависимых событий равна произведению вероятности одного из этих событий на условные вероятности всех остальных, причем вероятность каждого последующего события вычисляется в предположении, что все предыдущие уже произошли, т. е.
Пример 2. В урне 10 красных, 5 синих и 3 зеленых шара. Каждое испытание состоит в том, что наудачу извлекают один шар, не возвращая его обратно. Найти вероятность того, что при первом испытании появится синий шар, при втором — красный и при третьем — зеленый шар. Решение: События зависимые. Событие A -;{1-й извлеченный шар синий} Событие B -{2-й извлеченный шар красный}; Событие C — {3-й извлеченный шар зеленый} Теорема 3. Если события Aи B независимые, то вероятность их совместного появления (произведения) равна произведению их вероятностей, т. е. . Следствие: Вероятность совместного появления (произведения) нескольких независимых событий равна произведению вероятностей данных событий, т. е.
Пример 3. В примере 2 выборка осуществляется с возвращением. Решение. События независимые
9. Теоремы сложения вероятностей. Вероятность появления хотя бы одного события
1.Теоремы сложения вероятностей Пусть даны два события Aи B требуется определить вероятность появления хотя бы одного из этих событий. Теорема 4. Если события A и B несовместные, то вероятность появления одного из этих событий (сумма) равна сумме вероятностей данных событий, т.е. Р(А+В)=Р(А)+Р(В). Следствия: Вероятность суммы нескольких несовместных событий равна сумме вероятностей этих событий, . Если события образуют полную группу событий, то сумма их вероятностей равна единице. Сумма вероятностей двух противоположных событий равна единице. Пример 4. В урне 10 красных, 5 синих и 3 зеленых шара. Наудачу извлекают один шар. Найти вероятность того, что он окажется или красным или синим. Решение: События A и B несовместные Событие A -{извлеченный шар синий}; Событие B — {извлеченный шар красный}; . Теорема 5. Если события A и B совместные, то вероятность появления хотя бы одного из этих событий (сумма) равна сумме вероятностей этих событий без вероятности их совместного появления, т. е. Р(А+В)=Р(А)+Р(В)-Р(АВ). Пример 6. Вероятность попадания в цель первого и второго стрелка соответственно равны 0,4 и 0,5. Найти вероятность попадания при одном выстреле хотя бы одного из стрелков (стрелки делают выстрел одновременно). Решение: Событие A — {1-й стрелок попал}; Событие B — {2-й стрелок попал}; . Замечание 1: При использовании этой формулы следует иметь в виду, что А и В могут быть зависимыми, так и независимыми. Для независимых событий: Р(А+В)=Р(А)+Р(В)-Р(А)Р(В). Для зависимых: Р(А+В)=Р(А)+Р(В)-Р(А)РА(В). Замечание 2: Если А и В несовместны, то их совмещение есть невозможное событие и следовательно Р(АВ)=0 и Р(А+В)=Р(А)+Р(В) и следовательно вновь получили теорему о несовместных событиях. 2. Вероятность появления хотя бы одного события В некоторых случаях вероятность события удобнее подсчитывать как вероятность противоположного другому событию. О.1 Несколько событий называются попарно независимыми, если каждые два из них независимы. Пусть события попарно независимы и их вероятности известны и равны соответственно , тогда вероятности противоположных им событий будут равны . О.2 Несколько событий называются независимыми в совокупности (или просто независимыми), если независимы каждые 2 из них и независимы каждое событие и все возможные произведения остальных. Пусть в результате испытания могут появиться n событий независимых в совокупности, причем вероятность каждого известна. Как найти вероятность того, что наступит хотя бы одно из этих событий. Теорема 6. Вероятность появления хотя бы одного из событий независимых в совокупности равна разности между единицей и произведением вероятностей противоположных событий, т.е. . Доказательство: Обозначим через А событие, состоящее в появлении хотя бы одного из событий .
События А и (ни одно из событий не наступило) противоположны, следовательно сумма их вероятностей равна 1.
Частный случай: Если события имеют одинаковую вероятность р, то вероятность появления хотя бы одного из этих событий Пример 7. Вероятность попадания в цель при стрельбе из трех орудий 0,8; 0,7; 0,9. Найти вероятность хотя бы одного попадания (событие А) при одном залпе из всех орудий. Решение: Вероятность попадания в цель каждого из орудий не зависит от результата стрельбы из других орудий, поэтому рассмотрим событие А1 (попадание первого орудия), А2 (попадание второго орудия) и А3 (попадание третьего орудия) независимы в совокупности. Если , тогда — вероятности событий противоположным событиям А1, А2, А3 (т.е. вероятности промахов). q1 = 1- 0,8 = 0,2 q2= 1- 0,7 = 0,3 q3 = 1- 0,9 = 0,1
Искомая вероятность Р(А) = 1 — q1q2q3 Р(А) = 1 — 0,2*0,3*0,1 = 0,994
10. Формула полной вероятности
Теорема. Если событие A может наступить только при условии появления одного из несовместных событий , которые образуют полную группу, то вероятность события A равна сумме произведений каждого из этих событий на соответствующие условные вероятности события A, т. е. .Док-во: по условию, событие А может наступить, если наступит одно из несовместных событий . Другими словами, появление события А означает осуществление одного, безразлично какого, из несовместных событий В1А, В2А, …, ВnА. Пользуясь теоремой сложения, получаем:
(*) по теореме умножения зависимых событий имеем:
Подставив эти формулы в (*), получим: Поскольку заранее не известно, какие з событий наступят, то их называют гипотезами. Пример. Имеется два набора деталей. Вероятность того, что деталь первого набора стандартная 0,8, а второго — 0,9. Найти вероятность того, что взятая наудачу деталь (из наудачу взятого набора)- стандартная. Решение. Событие А- извлеченная деталь стандартная. Деталь может быть извлечена из первого набора (событие В1), либо из второго (событие В2). Условная вероятность того, что из первого набора деталь стандартная , Что из второго набора стандартная Р(А)=0,5*0,8+0,5*0,9=)=0,85
11. Вероятность гипотез. Формула Байеса
Часто, приступая к анализу вероятностей, мы имеем предварительные значения вероятностей, интересующих нас событий. После проведения испытания эти вероятности могут несколько уточняться. Пусть произведено испытание, в результате которого появилось событие A. Необходимо найти вероятности гипотез , после того как испытание произведено, т. е. условные вероятности гипотез . Найдем сначала условную вероятность . По теореме умножения . Отсюда .Аналогично выводятся формулы остальных гипотез. В общем случае условная вероятность любой гипотезы Bi, где , определяется как . Последняя формула называется формулой Байеса. Она позволяет переоценивать вероятности гипотез после того, как становится известным результат испытания, в итоге которого появилось событие A.
Пример 1. Детали, изготовляемые цехом завода, попадают для проверки их на стандартность к одному из двух контролеров. Вероятность того, что деталь попадет к первому контролеру, равна 0.6, а ко второму — 0.4Вероятность того, что деталь будет признана стандартной первым контролером, равна 0.94, а вторым — 0.98.
Найти вероятность того, что деталь будет признана стандартной; Проверенная деталь при проверке была признана стандартной. Найти вероятность того, что она проверена первым контролером.
Решение: Событие А={деталь признана стандартной}, Гипотеза В1={деталь проверил первый контролер}, Гипотеза В2={деталь проверил второй контролер}. 1) ; 2) Т.о. до испытания значение вероятности гипотезы B1равнялось 0.6, а после проведения испытания изменилось и стало равняться .
12. Формула Бернулли
О. 1. Если проводится несколько испытаний, причем вероятность появления события A в каждом испытании не зависит от исходов других испытаний, то такие испытания называют независимыми относительно события A. Пусть проводится n независимых испытаний, в каждом из которых возможно только два исхода: либо событие A появится, либо нет.
Условимся считать, что вероятность события A в каждом испытании одна и та же и равна p. Тогда вероятность ненаступления события A в каждом испытании так же постоянна и равна 1-p=q. Выше описанная совокупность условий называется схемой независимых испытаний Бернулли. Теорема 1. Если вероятность p наступления события A в каждом из независимых испытаний постоянна, то вероятность Pn(k) того, что в n независимых испытаниях событие A появится ровно k раз, вычисляется по формуле .
Пример 1. В результате обследования были выделены семьи, имеющие по четыре ребенка. Считая вероятность появления мальчика в семье равной 0.515, определить вероятность появления в ней двух мальчиков. Решение: .
13. Формула Пуассона
Если число испытаний n достаточно велико, а вероятность появления события A в каждом испытании постоянна и равна p, причем p<0.1, то применение формулы Муавра-Лапласа становится невозможным. Теорема 1. Если вероятность p появления события A в каждом испытании стремится к нулю при неограниченном увеличении числа испытаний, причем произведение np сохраняет постоянное значение, т. е. np=a, то вероятность Pn(k) того, что в n независимых испытаниях событие A появится k раз удовлетворяет предельному равенству
(2).
Строго говоря, условие теоремы 2: р>? при n>?, нарушает исходные предпосылки в схеме независимых испытаний Бернулли, в которой p=const. Однако, если вероятность p постоянна и достаточно мала, а число n испытаний велико, причем произведение a=np незначительно, то из предельного равенства (2) можно записать приближенную формулу Пуассона: . Пример 3. Завод отправил в торговую сеть 500 изделий. Вероятность повреждения изделия в пути равна 0.002. Найти вероятность того, что при транспортировке будет повреждено три изделия. Решение: В данном случае формула Бернулли не применима, т. к. придется возводить 0. 002 в 500-ю степень. ;.
14. Наивероятнейшее число появления события
Наивероятнейшим числом k0 наступления события A в n независимых испытаниях называется число, вероятность которого, Pn(k0) по крайней мере не меньше вероятностей Pn(k) вычисленных для всех остальных k. Наивероятнейшее число k0 — наступления события A в n независимых испытаниях находится из неравенства
Т. к. , то обязательно найдется хотя бы одно целое число k0, удовлетворяющее неравенству (1). Если обе части неравенства (1) — дробные числа, то k0 — единственное целое число, расположенное между данными дробями. Если число np-q — целое, то наивероятнейших чисел будет два: k0 и k0+1. Если число np — целое, то наивероятнейшее число k0=np. Пример 1. В результате обследования были выделены семьи, имеющие по четыре ребенка. Считая вероятность появления мальчика в семье равной 0.515 найти наивероятнейшее число появления мальчиков в семье c четырьмя детьми. Решение: Т. к. n=4, p=0.515, q=0.485, то 1.575?k0?2.575. Т. е. вероятнее всего, что мальчиков будет два. Проверим это. Найдем вероятности того, что мальчиков будет 0,1,3,4.
Следовательно, вероятнее всего появление двух мальчиков.
15. Понятие и виды случайных величин
О. 1. Случайной называется величина, которая в результате испытания может принять любое заранее не известное значение из множества всевозможных значений. Пример 1. 1) Число мальчиков среди ста новорожденных детей есть случайная величина, которая может принимать значения от 0 до 100. 2) Расстояние, которое пролетит снаряд после выстрела, есть случайная величина значения, которой могут быть указаны интервалом (a,b). Обозначаются случайные величины прописными буквами X,Y,Z, а их возможные значения строчными x,y,z. Различают случайные величины двух видов: дискретные и непрерывные. О. 2. Дискретной (прерывной) называют случайную величину, возможные значения которой представляют собой множество изолированных фиксированных величин (ДСВ). Число возможных значений дискретной случайной величины может быть как конечным, так и бесконечным.
О. 3. Непрерывной называют случайную величину, которая может принимать все возможные значения из некоторого конечного или бесконечного промежутка. Число возможных значений непрерывной случайной величины является бесконечным. Пример 2. В примере 1: 1) дискретная величина; 2) непрерывная величина.
16. Закон распределения вероятностей ДСВ. Способы задания
Закон распределения вероятностей ДСВ Для того чтобы ДСВ была задана, не достаточно перечислить множество ее всевозможных значений, потому что две ДСВ могут иметь одинаковый перечень возможных значений, а вероятности принятия этих значений будут различными. О. 1. Законом распределения вероятностей (рядом распределения) ДСВ называется последовательность возможных значений дискретной случайной величины и соответствующих им вероятностей. Закон распределения вероятностей может быть задан: 1) Таблично, при этом первая строка в таблице содержит возможные значения ДСВ, а вторая — их вероятности:
X |
x1 |
x2 |
xn |
|
P |
p1 |
p. |
pn |
2) Графически, для чего в прямоугольной системе координат строят точки , а затем соединяют их отрезками прямых. Полученную фигуру называют многоугольником распределения.
3) Аналитически, т.е. в виде формулы. Наиболее распространенными аналитическими выражениями являются биномиальное, пуассоновское, геометрическое и гипергеометрическое распределения вероятностей. Т. к. в одном испытании ДСВ может принять только одно значение, то множество ее всевозможных значений образует полную группу событий и сумма их вероятностей равна единице:. 2. Способы задания. 1. Биномиальное распределение 2. Пуассоновское распределение 3. Геометрическое распределение 4. Гипергеометрическое распределение
17. Биноминальное распределение
Пусть выполнены все условия схемы независимых испытаний Бернулли. Рассмотрим в качестве ДСВ X число появлений события A в этих испытаниях. Т. е. величина X может принимать значения: . Вероятности этих значений определяются по формуле Бернулли: , . О. 1. Закон распределения вероятностей ДСВ X называется биномиальным, если вероятности ее возможных значений определяются по формуле Бернулли. Пример 1. Баскетболист делает три штрафных броска. Вероятность попадания при каждом броске равна 0.7. Составить закон распределения числа попаданий мяча в корзину. Решение:
X |
P |
|
0 |
0.189 |
|
1 |
0.441 |
|
2 |
0.343 |
|
3 |
0.027 |
Контроль:
18. Пуассоновское распределение
Пусть в схеме независимых испытаний Бернулли число испытаний достаточно велико (n>?), а вероятность появления события A очень мала (p>?). Рассмотрим в качестве ДСВ X число появлений события A в этих испытаниях. Т. е. величина X может принимать значения: . Вероятности этих значений определяются по формуле Пуассона:
a=np. О. 1. Закон распределения вероятностей ДСВ X называется пуассоновским, если вероятности ее возможных значений определяются по формуле Пуассона.
19. Геометрическое распределение
Пусть выполнены все условия схемы независимых испытаний. Испытания проводятся до 1-го появления события A. Т. е. если событие A появилось в k-м (катом) испытании, то в предыдущих (k-1) испытаниях оно не появлялось. Рассмотрим в качестве ДСВ X число испытаний, которые необходимо провести до 1-го появления события A. Т. о. возможные значения величины X: . Вероятности этих значений определяются по формуле: , где k=1.2….. (1) Если в эту формулу подставить последовательно вместо k:1.2…., то получим геометрическую прогрессию с 1-м членом p и знаменателем q (): . O. 4. Закон распределения вероятностей ДСВ X называется геометрическим, если вероятности ее возможных значений определяются по формуле (1) и образуют геометрическую прогрессию. Пример 2. Игральная кость подбрасывается до первого выпадения цифры шесть. Составить закон распределения числа подбрасываний игральной кости до первого выпадения цифры шесть. Решение:
X |
P |
|
1 |
1/6 |
|
2 |
5/36 |
|
3 |
25/31 |
20. Гипергеометрическое распределение
Пусть имеется N элементов, среди которых M обладают свойством A. Случайным образом выбирается n элементов (выбор каждого элемента равновозможен), причем выборка осуществляется без возвращения. Рассмотрим в качестве ДСВ X количество элементов k, обладающих свойством A среди отобранных n элементов. Т. е. величина X может принимать значения: . Вероятности этих значений определяются по формуле:
где . (2) O. 5. Закон распределения вероятностей ДСВ X называется гипергеометрическим, если вероятности ее возможных значений определяются по формуле (2). Пример 1. Гражданин приобрел случайным образом 5акций двадцати АО. Через год 6 из 20-ти АО разорились. Составить закон распределения и построить многоугольник распределения возможного числа акций банкротов среди купленных гражданином акций. Решение:
X |
P |
|
0 |
1001/7752 |
|
1 |
3003/7752 |
|
2 |
2730/7752 |
|
3 |
910/7752 |
|
4 |
105/7752 |
|
5 |
3/7752 |
Контроль: 1
21. Математическое ожидание ДСВ и его свойства
1.Математическим ожиданием M(X) ДСВ x называется сумма произведений возможных значений величины на соответствующие вероятности, т. е. . Вероятностный смысл M(X): математическое ожидание приближенно равно (тем точнее, чем больше число испытаний) среднему арифметическому наблюдаемых значений случайной величины. 2.Свойства M(X): Математическое ожидание больше наименьшего и меньше наибольшего возможных значений; Если , то . Постоянный множитель можно выносить за знак математического ожидания: ; Математическое ожидание суммы случайных величин равно сумме их математических ожиданий: ; Математическое ожидание произведения независимых случайных величин равно произведению их математических ожиданий: Зная лишь математическое ожидание случайной величины, еще нельзя судить ни о том, какие возможные значения она может принимать, ни о том, как они рассеяны вокруг математического ожидания.
22. Дисперсия ДСВ и её свойства. Формула для вычисления дисперсии. Среднее квадратическое отклонение
Среднее квадратическое отклонение. О. 1. Дисперсией ДСВ Х называется математическое ожидание квадрата отклонения случайной величины Х, т. е . Вероятностный смысл : дисперсия ДСВх характеризует меру рассеяния возможных значений случайной величины Х относительно ее математического ожидания (в квадратных единицах). Свойства : Всегда ; Если , то ; ,где ; Дисперсия суммы и разности независимых случайных величин равна сумме их дисперсий: . Формула для вычисления дисперсии: Дисперсия равна разности между математическим ожиданием квадрата случайной величины и квадратом ее математического ожидания:. О.2. Средним квадратическим отклонением (сигма) ДСВ называют квадратный корень из дисперсии: . Вероятностный смысл : среднее квадратическое отклонение ДСВ имеет тот же вероятностный смысл, что и дисперсия, с той лишь разницей, что измеряется в тех же единицах, что и сама величина. Частные случаи: 1. Если ДСВ имеет биномиальное распределение, то ее числовые характеристики могут быть найдены по формулам: . 2. Если ДСВ имеет геометрическое распределение, то ее числовые характеристики могут быть найдены по формулам: . 3. Если ДСВ имеет гипергеометрическое распределение, то ее числовые характеристики могут быть найдены по формулам:
2 |
3 |
10 |
5 |
||
0,1 |
0,4 |
0,2 |
0,3 |
Пример 1. Пусть заданы два ряда распределения ДСВ и :
4 |
5 |
7 |
||
0,2 |
0,6 |
0,2 |
Найти среднее квадратическое отклонение случайной величины . Решение:
23. Функция распределения вероятностей и её свойства
Т. к. способ задания случайных величин с помощью ряда распределения имеет место только для ДСВ, то естественно возникает вопрос: можно ли ввести общий способ задания для всех типов случайных величин? Пусть — случайная величина, а — некоторое действительное число. Вероятность события, состоящего в том, что примет значение, меньшее обозначается . Если изменяется, то изменяется и , т.е. есть функция зависящая от . О. 1. Функцией распределения вероятностей (интегральной функцией) называется функция, определяющая вероятность того, что случайная величина в результате испытания примет значение, меньшее , т.е. . Геометрически это означает, что есть вероятность того, что случайная величина примет значение, которое изображается на числовой оси точкой, расположенной слева от точки . Свойства функции : 1. Значения функции распределения принадлежат отрезку , т.е . 2. Функция неубывающая, т.е. , если . 3. Если возможные значения случайной величины принадлежат интервалу , то: 1) при ; 2) при . 4. Вероятность того, что случайная величина примет значение, заключенное в интервале , равна приращению функции распределения на этом интервале: . 5. Вероятность того, что непрерывная случайная величина примет одно определенное значение , равна нулю, т.е. .График функции распределения вероятностей ДСВ представляет собой ступенчатую фигуру, а НСВ — непрерывную линию. Причем, если речь идет о ДСВ и ее возможные значения расположить в порядке возрастания , то может быть представлена в виде:
1 |
4 |
8 |
||
0,3 |
0,1 |
0,6 |
Пример 1. ДСВ задана таблицей распределения: Найти функцию распределения и изобразить ее на графике. Решение:
Пример 2. НСВ задана своей функцией распределения:
Построить график функции F(x) и найти вероятность того, что в результате испытания примет значение, заключенное в интервале (1,3).
Решение: .
24. Плотность распределения вероятностей и её свойства
О.1. Плотностью распределения вероятностей (дифференциальной функцией) непрерывной случайной величины называется функция , равная первой производной от функции распределения , т.е. . Свойства функции : 1. Плотность распределения неотрицательная функция, т.е. .
2.Несобственный интеграл от плотности распределения на интервале равен единице, т.е. . 3.Если все возможные значения случайной величины принадлежат интервалу , то .4. Вероятность попадания случайной величины в интервал может быть вычислен по формуле (Ньютона-Лейбница):
5. Если известна плотность распределения , то функция распределения может быть найдена по формуле:
25. Числовые характеристики НСВ
Пусть непрерывная случайная величина задана плотностью распределения . Тогда аналогично ДСВ для НСВ могут быть определены числовые характеристики. О.1. Математическим ожиданием НСВ , возможные значения которой принадлежат всей оси , называют определенный интеграл: . O.2. Дисперсией НСВ , возможные значения которой принадлежат всей оси , называется значение интеграла Замечание 1. Свойства математического ожидания и дисперсии ДСВ сохраняются и для НСВ. Замечание 2. На практике для вычисления дисперсии удобно пользоваться формулой: . O.3. Средним квадратическим отклонением НСВ называется корень квадратный из дисперсии, т.е. .О.4. Модой НСВ называется такое значение этой величины, плотность вероятности которого максимальна. O.5. Медианой НСВ называется такое значение этой величины, что выполняется равенство:
Пример 1. НСВ задана плотностью распределения вероятностей в интервале (2,4). Вне этого интервала . Найти все числовые характеристики НСВ
26. Равномерное распределение и его свойства
О.1. Закон распределения НСВ называется равномерным, если ее плотность распределения задается в виде:
Свойства равномерного распределения 1. Зная плотность распределения, и используя формулу , можно найти функцию распределения:
Если НСВ имеет равномерное распределение, то ее числовые характеристики могут быть найдены по формулам:
3. Вероятность попадания равномерно-распределенной НСВ в интервал можно определить по формуле:
27. Показательное распределение и его свойства
О.1. Закон распределения НСВ X называется показательным, если ее плотность распределения задается в виде
где — параметр показательного распределения. Свойства показательного распределения: 1.Зная плотность распределения и используя формулу , можно найти функцию распределения:
2. Если НСВ имеет показательное распределение, то ее числовые характеристики могут быть найдены по формулам:
3. Вероятность попадания показательно-распределенной НСВ в интервал определяется по формуле:
где значения определяются по таблице. Пример 2. Время безотказной работы элемента распределено по показательному закону с параметром (интенсивность отказов). Найти среднее время безотказной работы элемента, среднее квадратическое отклонение. Найти вероятность того, что элемент проработает безотказно не менее 4 лет, но не более 10. Решение:
28. Нормальное распределение и его свойства
Нормальное распределение, также называемое гауссовским распределением или распределением Гаусса — распределение вероятностей, которое задается функцией плотности распределения:
где параметр м — среднее значение (математическое ожидание) случайной величины и указывает координату максимума кривой плотности распределения, а уІ — дисперсия.
Нормальное распределение играет важнейшую роль во многих областях знаний, особенно в физике. Физическая величина, подверженная влиянию значительного числа случайных помех, часто подчиняется нормальному распределению, поэтому из всех распределений в природе чаще всего встречается нормальное (отсюда и произошло одно из его названий).
Нормальное распределение зависит от двух параметров — смещения и масштаба, то есть является с математической точки зрения не одним распределением, а целым их семейством. Значения параметров соответствуют значениям среднего (математического ожидания) и разброса (стандартного отклонения).
Стандартным нормальным распределением называется нормальное распределение с математическим ожиданием 0 и стандартным отклонением 1.
Моделирование нормальных случайных величин
Простейшие, но неточные методы моделирования основываются на центральной предельной теореме. Именно, если сложить много независимых одинаково распределённых величин с конечной дисперсией, то сумма будет распределена примерно нормально. Например, если сложить 12 независимых базовых случайных величин, получится грубое приближение стандартного нормального распределения. Тем не менее, с увеличением слагаемых распределение суммы стремится к нормальному.
Использование точных методов предпочтительно, поскольку у них практически нет недостатков. В частности, преобразование Бокса — Мюллера является точным, быстрым и простым для реализации методом генерации.
Центральная предельная теорема
Нормальное распределение часто встречается в природе, нормально распределёнными являются следующие случайные величины:
· отклонение при стрельбе
· ошибки при измерениях
· рост человека
Такое широкое распространение закона связано с тем, что он является предельным законом, к которому приближаются многие другие (например, биномиальный).
Доказано, что сумма очень большого числа случайных величин, влияние каждой из которых близко к 0, имеет распределение, близкое к нормальному. Этот факт является содержанием центральной предельной теоремы.
29. Правило трёх сигм. Центральная предельная теорема Ляпунова
Центральная предельная теорема Ляпунова
Теорема. Если случайная величина Х представляет собой сумму очень большого числа взаимно независимых случайных величин, влияние каждой из которых на всю сумму ничтожно мало, то Х имеет распределение, близкое к нормальному.
Правило трёх сигм
При рассмотрении нормального закона распределения выделяется важный частный случай, известный как правило трех сигм.
Запишем вероятность того, что отклонение нормально распределенной случайной величины от математического ожидания меньше заданной величины D:
Если принять D = 3s, то получаем с использованием таблиц значений функции Лапласа:
Т.е. вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем утроенное среднее квадратичное отклонение, практически равна нулю.
Это правило называется правилом трех сигм.
30. Закон больших чисел
Поскольку на практике сведения о каждой случайной величине, чаще всего, являются очень скромными и уверенно предсказать какое возможное значение она примет затруднительно, то может показаться, что нельзя установить закономерности поведения и суммы достаточно большого числа случайных величин. Оказывается, что это не так. Закон больших чисел в широком смысле — это общий принцип, согласно которому совокупное действие большого числа случайных величин приводит, при некоторых сравнительно широких условиях, к результату, почти независящему от случая, т.е. при большом числе случайных величин их средний результат перестает быть случайным и может быть предсказан с большой степенью точности. Терема 1. (неравенство Маркова) Если случайная величина X принимает только неотрицательные значения, то для любого числа выполняется неравенство: Для события , противоположного событию , неравенство Маркова может быть записано в виде: Теорема 2. (неравенство Чебышева) Вероятность того, что отклонение случайной величины X от ее математического ожидания по абсолютной величине меньше любого числа , не меньше чем , т.е. .
Для события , противоположного событию , неравенство Чебышева может быть записано в виде: . Теорема 3. (теорема Чебышева) Если — попарно независимые случайные величины, причем дисперсии их равномерно ограничены (не превышают постоянного числа C), то, как бы мало ни было , вероятность неравенства: будет как угодно близка к единице, если число случайных величин достаточно велико. Замечание 1. Теорема Чебышева утверждает, что если рассматривается достаточно большое число случайных величин, имеющих равномерно ограниченные дисперсии и являющиеся независимыми, то почти достоверным можно считать событие, состоящее в том, что отклонение среднего арифметического случайных величин от среднего арифметического их математических ожиданий будет по абсолютной величине сколь угодно малым. Теорема 4. (частный случай теоремы Чебышева) Если — попарно независимые случайные величины, имеющие одинаковые математические ожидание a, и их дисперсии равномерно ограничены (не превышают постоянного числа C), то, как бы мало ни было , вероятность неравенства:
будет как угодно близка к единице, если число случайных величин достаточно велико. Сущность теоремы Чебышева: хотя отдельные независимые случайные величины могут принимать значения, далекие от своих математических ожиданий, среднее арифметическое достаточно большого числа случайных величин с большой вероятностью принимает значения, близкие к определенному постоянному числу, а именно к числу .Другими словами, отдельные случайные величины могут иметь значительный разброс, а их среднее арифметическое рассеянно мало. Значение теоремы Чебышева для практики: При измерении некоторой физической величины производят несколько измерений и их среднее арифметическое принимают в качестве искомого размера. Теорема Чебышева указывает условия, при которых указанный способ может быть применен. На теореме Чебышева основан широко применяемый в статистике выборочный метод, суть которого состоит в том, что по сравнительно небольшой случайной выборке судят о всей совокупности исследуемых объектов. Пусть выполнены условия схемы независимых испытаний Бернулли, причем n достаточно велико. Теорема 5. (теорема Бернулли) Если в каждом из n независимых испытаний вероятность p события A постоянна, то вероятность того, что отклонение относительной частоты от вероятности p по абсолютной величине будет сколь угодно малым, будет как угодно близка к единице если число испытаний достаточно велико. Сущность теоремы Бернулли: теорема Бернулли позволяет предвидеть, какова примерно будет относительная частота появления события.
31. Задачи математической статистики
Математимческая статимстика — наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.
Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала (напр., оценить необходимый объём выборки для получения результатов требуемой точности при выборочном обследовании).
Предмет и методы математической статистики
Математическая статистика — раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений[1]. В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.
Выделяют описательную статистику, теорию оценивания и теорию проверки гипотез. Описательная статистика есть совокупность эмпирических методов, используемых для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных. Некоторые методы описательной статистики предполагают использование возможностей современных компьютеров. К ним относятся, в частности, кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости.
Методы оценивания и проверки гипотез опираются на вероятностные модели происхождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от (одного или нескольких) числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик. В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений (например, математическое ожидание, медиана, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используют точечные и интервальные оценки.
Большой раздел современной математической статистики — статистический последовательный анализ, фундаментальный вклад в создание и развитие которого внес А. Вальд во время Второй мировой войны. В отличие от традиционных (непоследовательных) методов статистического анализа, основанных на случайной выборке фиксированного объема, в последовательном анализе допускается формирование массива наблюдений по одному (или, более общим образом, группами), при этом решение об проведении следующего наблюдения (группы наблюдений) принимается на основе уже накопленного массива наблюдений. Ввиду этого, теория последовательного статистического анализа тесно связана с теорией оптимальной остановки.
В математической статистике есть общая теория проверки гипотез и большое число методов, посвящённых проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.
Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.
Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов.
Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ[2] и многочисленные нелинейные обобщения[3].
Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.
В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчётов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).
32. Выборочный метод
Выборочный метод, статистический метод исследования общих свойств совокупности каких-либо объектов на основе изучения свойств лишь части этих объектов, взятых на выборку. Математическая теория В. м. опирается на два важных раздела математической статистики — теорию выбора из конечной совокупности и теорию выбора из бесконечной совокупности. Основное отличие В. м. для конечной и бесконечной совокупностей заключается в том, что в первом случае В. м. применяется, как правило, к объектам неслучайной, детерминированной природы (например, число дефектных изделий в данной партии готовой продукции не является случайной величиной: это число — неизвестная постоянная, которую и надлежит оценить по выборочным данным). Во втором случае В. м. обычно применяется для изучения свойств случайных объектов (например, для исследования свойств непрерывно распределённых случайных ошибок измерений, каждое из которых теоретически может быть истолковано как реализация одного из бесконечного множества возможных результатов).
Выбор из конечной совокупности и его теория являются основой статистических методов контроля качества и часто применяются в социологических исследованиях (см. Выборочное наблюдение). Согласно теории вероятностей, выборка будет правильно отражать свойства всей совокупности, если выбор производится случайно, т. е. так, что любая из возможных выборок заданного объёма n из совокупности объёма N [число таких выборок равно N!/n!(N — n)!] имеет одинаковую вероятность быть фактически выбранной.
На практике наиболее часто используется выбор без возвращения (бесповторная выборка), когда каждый отобранный объект перед выбором следующего объекта в исследуемую совокупность не возвращается (такой выбор применяется при статистическом контроле качества). Выбор с возвращением (выборка с повторением) рассматривается обычно лишь в теоретических исследованиях (примером выбора с возвращением является регистрация числа частиц, коснувшихся в течение данного времени стенок сосуда, внутри которого совершается броуновское движение). Если n << N, то повторный и бесповторный выборы дают практически эквивалентные результаты.
33. Типы выборок и способы отбора
Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.
Характеристики выборки:
Качественная характеристика выборки — кого именно мы выбираем и какие способы построения выборки мы для этого используем.
Количественная характеристика выборки — сколько случаев выбираем, другими словами объём выборки.
Необходимость выборки
Объект исследования очень обширный. Например, потребители продукции глобальной компании — огромное количество, территориально разбросанных рынков.
Существует необходимость в сборе первичной информации.
Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30—35.
Для того чтобы можно было по выборке делать вывод о свойствах генеральной совокупности, выборка должна быть репрезентативной (представительной), т. е. она должна полно и адекватно представлять свойства генеральной совокупности. Репрезентативность выборки может быть обеспечена только при объективности отбора данных.
Выборочная совокупность формируется по принципу массовых вероятностных процессов без каких бы то ни было исключений от принятой схемы отбора; необходимо обеспечить относительную однородность выборочной совокупности или ее разделение на однородные группы единиц. При формировании выборочной совокупности должно быть дано четкое определение единицы отбора. Желателен приблизительно одинаковый размер единиц отбора, причем результаты будут тем точнее, чем меньше единица отбора.
Возможны три способа отбора: случайный отбор, отбор единиц по определенной схеме, сочетание первого и второго способов.
Если отбор в соответствии с принятой схемой проводится из генеральной совокупности, предварительно разделенной на типы (слои или страты), то такая выборка называется типической (или расслоенной, или стратифицированной, или районированной). Еще одно деление выборки по видам определяется тем, что является единицей отбора: единица наблюдения или серия единиц (иногда используют термин «гнездо»). В последнем случае выборка называется серийной, или гнездовой. На практике часто используется сочетание типической выборки с отбором сериями. В математической статистике, обсуждая проблему отбора данных, обязательно вводят деление выборки на повторную и бесповторную. Первая соответствует схеме возвратного шара, вторая — безвозвратного (при рассмотрении процесса отбора данных на примере отбора шаров разного цвета из урны). В социально-экономической статистике нет смысла применять повторную выборку, поэтому, как правило, имеется в виду бесповторный отбор. Если выборка производится по схеме возвращенного шара, то вероятность попадания любой единицы в выборку равна MN, и она остается той же самой на протяжении всей процедуры отбора. Если выборка производится по схеме невозвращенного шара, то вероятность попадания единицы в выборку изменяется от 1/N- для первой отбираемой единицы, до 1/N-n-1- для последней.
34. Вариационные ряды
Вариационный ряд — упорядоченная по величине последовательность выборочных значений наблюдаемой случайной величины
X1<=…<=Xn равные между собой элементы выборки нумеруются в произвольном порядке; элементы вариационного ряда называются порядковыми (ранговыми) статистиками; число лm = m / n называется рангом порядковой статистики Xmn. Вариационный ряд используется для построения эмпирической функции распределения.
35. Эмпирическая функция распределения
Эмпирическая функция распределения (выборочная функция распределения) — естественное приближение теоретической функции распределения данной случайной величины, построенное по выборке.
Пусть задана случайная выборка наблюдений Построим по выборке ступенчатую функцию Fm(x), возрастающую скачками величины 1/m в точках x(i). Построенная функция называется эмпирической функцией распределения. Для задания значений в точках разрыва формально определим её так: Замечание: при этом эмпирическая функция непрерывна справа.
На рисунке представлена функция стандартного нормального распределения и эмпирическая функция распределения, построенная по выборке из 10 случайных наблюдений из стандартного нормального закона.
36. Полигон и гистограмма
Для наглядности строят различные графики статистического распределения, в частности, полигон и гистограмму.
Полигоном частот называют ломаную линию, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат — соответствующие им частоты niи соединяют точки (wi;ni)отрезками прямых.
Полигон относительных частот строится аналогично, за исключением того, что на оси ординат откладываются относительные частоты wi.
В случае непрерывного признака строится гистограмма, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала ni- сумму частот вариант, попавших в i-й интервал.
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению ni/h. Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии (высоте) ni/h. Площадь i-го прямоугольника равна — сумме частот вариант i-о интервала, поэтому площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.
В случае гистограммы относительных частот по оси ординат откладываются относительные частоты wi, на оси абсцисс — частичные интервалы, над ними проводят отрезки, параллельные оси абсцисс на высоте Wi/h. Площадь i-го прямоугольника равна относительной частоте вариант Wi, попавших в i-й интервал. Поэтому площадь гистограммы относительных частот равна сумме всех относительных частот, то есть единице.
37. Точечные оценки параметров распределения
Задача оценивания параметров распределения генеральной — одна из основных задач математической статистики. На содержательном уровне задача оценивания параметров распределения формулируется так: располагая выборкой реализаций случайной величины Х, необходимо получить оценку неизвестного параметра генеральной совокупности а и ее статистические свойства.
Оценивание параметров распределения осуществляется в два этапа. На первом этапе, на основании выборки х1, х2, … , ,хn ,строится статистика, значение которой при данной выборке х1, х2, … , ,хn принимают за приближенное значение оцениваемого параметра а :
Так как параметр генеральной совокупности оценивается числом, которое на числовой оси изображается точкой, то оценку называют точечной.
Для получения точечной оценки существует много статистик, которые могут быть использованы в качестве оценок. Поэтому второй этап оценивания состоит в выборе наилучшей оценки, что требует введения критерия качества получаемых оценок. Задача усложняется тем, что ввиду малого объема выборки требуется статистический подход к качеству оценки
По опытным данным (выборке) путем построения гистограммы или с помощью других средств можно попытаться выбрать вероятностную модель (определить закон распределения генеральной совокупности). При этом выборочные данные позволяют уточнить детали вероятностной модели. Знание вероятностной модели дает возможность прогнозировать будущие события, что важно для принятия решений. В приложениях обычно задаются определенным типом закона распределения генеральной совокупности (плотностью распределения)
f = f(x; a1, a2, …, am)
и по данным случайной выборки х1, х2, …, хn оценивают неизвестные параметры a1, a2, …, am . Чаще всего параметрами являются генеральное среднее и дисперсия, а качестве оценки тогда используют выборочные характеристики: выборочное среднее и выборочную дисперсию.
Рассмотрим следующую задачу. Пусть имеется случайная величина Х и нам известен ее закон распределения f = f(x, a), который содержит один неизвестный параметр а. Требуется на основании выборочных данных х1, х2, …, хn найти подходящую оценку параметра а. Для решения этой задачи построим следующую математическую модель. Пусть Х1, Х2, …, Хn — независимые случайные величины, которые принимают соответствующие выборочные значения (для данной выборки значения х1, х2, …, хn) и пусть случайная величина получена на основе случайных величин Х1, Х2, …, Хn, то есть Будем считать, как и ранее, что случайные величины Х1, Х2, …, Хn имеют один и тот же закон распределения с плотностью распределения величины Х (генеральной совокупности) f(x). Тогда является случайной величиной, закон распределения которой зависит от n и от f(x). Для того чтобы оценка имела практическую ценность она должна обладать следующими свойствами.
1. Несмещенность оценки. Оценка называется несмещенной, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности:
В противном случае оценка называется смещенной и допускает систематическую ошибку. Так, рассмотренное ранее среднее выборочное является несмещенной оценкой среднего генерального. В то же время выборочная дисперсия — является смещенной оценкой генеральной дисперсии.
2. Состоятельность оценки. Оценка называется состоятельной, если она по вероятности с увеличением объема выборки п стремится к параметру генеральной совокупности:
3. Эффективность оценки. Если составлять множество несмещенных и состоятельных оценок, то эти оценки будут иметь разные дисперсии. Ясно, что, чем меньше будет дисперсия, тем меньше будет вероятность грубой ошибки при определении приближенного параметра генеральной совокупности.
38. Генеральная и выборочная средние
Основу статистического исследования составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений x1, x2, …xn случайной величины X, является выборкой, а гипотетически существующая (домысливаемая) — генеральной совокупностью. Генеральная совокупность может быть конечной (число наблюдений N = const) или бесконечной (N = ?), а выборка из генеральной совокупности — это всегда результат ограниченного ряда n наблюдений. Число наблюдений n, образующих выборку, называется объемом выборки. Если объем выборки n достаточно велик (n > ?) выборка считается большой, в противном случае она называется выборкой ограниченного объема. Выборка считается малой, если при измерении одномерной случайной величины X объем выборки не превышает 30 (n <= 30), а при измерении одновременно нескольких (k) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10). Выборка образует вариационный ряд, если ее члены являются порядковыми статистиками, т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами.
Пример. Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.
39. Генеральная и выборочная дисперсии
Существуют пять основных способов организации выборочного наблюдения:
1. простой случайный отбор, при котором n объектов случайно извлекаются из генеральной совокупности N объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными;
2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими;
3. стратифицированный отбор заключается в том, что генеральная совокупность объема N подразделяется на подсовокупности или слои (страты) объема N1, N2, … Nn так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными);
4. методы серийного отбора используются для формирования серийных или гнездовых выборок. Они удобны в том случае, если необходимо обследовать сразу «блок» или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);
5. комбинированный (ступенчатый ) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной.
40. Оценка генеральной средней по выборочной средней
Случайная выборка из генеральной совокупности
Чтобы по выборке можно было делать выводы о свойствах всей генеральной совокупности, она должна быть представительной (репрезентативной). Это обеспечивается в тех ситуациях, когда выборка является случайной. Модель случайной выборки предъявляет к ней следующие требования:
1) каждый из объектов, составляющих генеральную совокупность, должен иметь одинаковую вероятность быть представленным в выборке;
2) все n измерений, образующих выборку, должны быть независимыми, т. е. результаты каждого измерения не должны зависеть от предыдущих измерений.
Существует два основных метода отбора объектов из генеральной совокупности в выборку: повторный и бесповторный.
При повторном отборе каждый объект после измерения значения признака возвращается в генеральную совокупность. При этом состояние генеральной совокупности перед каждым новым измерением восстанавливается и требование независимости всегда выполняется.
При бесповторном отборе после измерения объект не возвращается в генеральную совокупность. В этом случае соотношение значений признака в оставшейся части генеральной совокупности меняется, и, следовательно, проводимые измерения не являются независимыми, т. е. бесповоротный отбор не является случайным. На практике бесповоротный отбор используется чаще. Когда проводится измерение каких-то признаков, относящихся, например, к преступникам, выборка составляется таким образом, что после того, как очередной человек принял участие в измерениях, он уже не участвует в следующих измерениях.
Но, как правило, можно считать, что объем генеральной совокупности настолько велик, что при исключении из нее относительно малого числа единиц, составляющих выборку, состояние генеральной совокупности практически не меняется. При бесконечной генеральной совокупности различие между повторным и бесповторным отбором исчезает.
На практике используется несколько способов получения случайных выборок:
1. собственно случайная,
2. механический отбор.
3. типический отбор.
4. серийный отбор.
При проведении выборочных исследований предполагается, что выборка является однородной. Это означает, что она получена из одной генеральной совокупности, т. е. в исходной совокупности отсутствуют объекты, резко выделяющиеся по значениям изучаемого признака. Предположение об однородности выборки на практике обычно основывается на предварительном изучении условий эксперимента. Так, обычно есть уверенность в том, что полученные выборочные данные о количестве правонарушений представляют собой результаты измерений для одинаковых по численности городов.
41. Оценка генеральной дисперсии по исправленной выборочной дисперсии
Получим несмещенную оценку для генеральной дисперсии : Def: Статистику называют исправленной выборочной дисперсией.
Очевидно, что — несмещенная и состоятельная оценка для параметра :
Проверим несмещенность:
Замечание: так как при , то на практике для оценки применяют (3′) ввиду ее удобства.
В качестве оценок для среднего квадратичного отклонения берут статистики и .Можно показать, что это — состоятельные оценки: но обе оценки будут смещенными:
Интервальные оценки неизвестных параметров распределения.
1) Интервальная оценка и ее надежность.
Рассмотрим выборку . Совокупность независимых случайных величин имеет тот же закон распределения, что и .
Пусть статистики такие, что всегда a<в, тогда (a,в)- случайный интервал.
— оцениваемый параметр.
Def: если случайный интервал (a,в)может покрывать неизвестный параметр , то этот интервал называется интервальной оценкой для параметра .
Пусть вероятность того, что параметр , тогда вероятность y называется надежностью или доверительной вероятностью интервальной оценки (a,в).
Естественно, что значения y берут близкими к единице. Обычно y берут 0.95, 0.99, 0.999.
С повышением надежности оценки увеличивается длина доверительного интервала.
2) Доверительный интервал для нормально распределенной случайной величины при известной дисперсии .
Рассмотрим случайную величину — известная величина. Требуется построить доверительный интервал . Для решения данной задачи рассмотрим статистику neX- выборочная средняя. Можно показать, что neXтакже подчинена нормальному закону.
Для нормального распределения случайной величины справедливо равенство:
— функция Лапласа.
Применим равенство (2) к выборочной средней:
Выберем E так, что бы заданная надежность оценки.
Из (3) имеем:
Итак, доверительный интервал для параметра a имеет вид:
Здесь t(y)выбирается из таблицы значений функций Лапласа:
3) Доверительный интервал для генеральной средней при неизвестной дисперсии .
Как и прежде
Рассмотрим статистику . Здесь — исправленная выборочная дисперсия. Доказано, что статистика имеет закон распределения с плотностью:
Bn- числа.
Распределение вероятностей, задаваемое плотностью (5) называют “t” — распределением или распределением Стьюдента с (n-1) степенью свободы.
Функция (5) является четной.
При “t” — распределение стремится к нормальному распределению.
Что бы записать доверительный интервал для генеральной средней, рассмотрим равенство:
Пользуясь таблицами t” — распределения по заданной надежности и числу степеней свободы (n-1), выбираем t(y,n) из условия (6):
В результате с надежностью y в силу (6) выполняется двойное неравенство:
Отсюда выражаем “a”:
42. Метод моментов для точечной оценки параметров распределения
Задача оценивания параметров распределения генеральной — одна из основных задач математической статистики. На содержательном уровне задача оценивания параметров распределения формулируется так: располагая выборкой реализаций случайной величины Х, необходимо получить оценку ne a неизвестного параметра генеральной совокупности а и ее статистические свойства.
Оценивание параметров распределения осуществляется в два этапа. На первом этапе, на основании выборки х1, х2, … , ,хn ,строится статистика
значение которой при данной выборке х1, х2, … , ,хn принимают за приближенное значение оцениваемого параметра а:
Так как параметр генеральной совокупности оценивается числом, которое на числовой оси изображается точкой, то оценку называют точечной.
Для получения точечной оценки существует много статистик, которые могут быть использованы в качестве оценок. Поэтому второй этап оценивания состоит в выборе наилучшей оценки, что требует введения критерия качества получаемых оценок. Задача усложняется тем, что ввиду малого объема выборки требуется статистический подход к качеству оценки
По опытным данным (выборке) путем построения гистограммы или с помощью других средств можно попытаться выбрать вероятностную модель (определить закон распределения генеральной совокупности). При этом выборочные данные позволяют уточнить детали вероятностной модели. Знание вероятностной модели дает возможность прогнозировать будущие события, что важно для принятия решений. В приложениях обычно задаются определенным типом закона распределения генеральной совокупности (плотностью распределения) f = f(x; a1, a2, …, am) и по данным случайной выборки х1, х2, …, хn оценивают неизвестные параметры a1, a2, …, am . Чаще всего параметрами являются генеральное среднее и дисперсия, а качестве оценки тогда используют выборочные характеристики: выборочное среднее и выборочную дисперсию.
Рассмотрим следующую задачу. Пусть имеется случайная величина Х и нам известен ее закон распределения f = f(x, a), который содержит один неизвестный параметр а. Требуется на основании выборочных данных х1, х2, …, хn найти подходящую оценку параметра а. Для решения этой задачи построим следующую математическую модель. Пусть Х1, Х2, …, Хn — независимые случайные величины, которые принимают соответствующие выборочные значения (для данной выборки значения х1, х2, …, хn) и пусть случайная величина ne a получена на основе случайных величин Х1, Х2, …, Хn, то есть Будем считать, как и ранее, что случайные величины Х1, Х2, …, Хn имеют один и тот же закон распределения с плотностью распределения величины Х (генеральной совокупности) f(x). Тогда ne a является случайной величиной, закон распределения которой зависит от n и от f(x). Для того чтобы оценка ne a имела практическую ценность она должна обладать следующими свойствами.
1. Несмещенность оценки. Оценка называется несмещенной, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности:
В противном случае оценка называется смещенной и допускает систематическую ошибку. Так, рассмотренное ранее среднее выборочное является несмещенной оценкой среднего генерального. В то же время выборочная дисперсия — является смещенной оценкой генеральной дисперсии.
43. Метод наибольшего правдоподобия для точечной оценки параметров распределения
Точечная оценка предполагает нахождение единственной числовой величины, которая и принимается за значение параметра. Такую оценку целесообразно определять в тех случаях, когда объем ЭД достаточно велик. Причем не существует единого понятия о достаточном объеме ЭД, его значение зависит от вида оцениваемого параметра (к этому вопросу предстоит вернуться при изучении методов интервальной оценки параметров, а предварительно будем считать достаточной выборку, содержащую не менее чем 10 значений). При малом объеме ЭД точечные оценки могут значительно отличаться от истинных значений параметров, что делает их непригодными для использования.
Задача точечной оценки параметров в типовом варианте постановки состоит в следующем [3].
Имеется: выборка наблюдений (x1, x2, …, xn) за случайной величиной Х. Объем выборки n фиксирован.
Известен вид закона распределения величины Х, например, в форме плотности распределения f(T, x), где T — неизвестный (в общем случае векторный) параметр распределения. Параметр является неслучайной величиной.
Требуется найти оценку q параметра T закона распределения.
Ограничения: выборка представительная.
Существует несколько методов решения задачи точечной оценки параметров, наиболее употребительными из них являются методы максимального (наибольшего) правдоподобия, моментов и квантилей.
Метод максимального правдоподобия. Метод предложен Р. Фишером в 1912 г. Метод основан на исследовании вероятности получения выборки наблюдений (x1, x2, …, xn). Эта вероятность равна f(х1, T) f(х2, T) … f(хп, T) dx1 dx2 … dxn.
Совместная плотность вероятности
L(х1, х2 …, хn ; T) = f(х1, T) f(х2, T) … f(хn, T),
рассматриваемая как функция параметра T, называется функцией правдоподобия.
Метод моментов
Метод предложен К. Пирсоном в 1894 г. Сущность метода:
выбирается столько эмпирических моментов, сколько требуется оценить неизвестных параметров распределения. Желательно применять моменты младших порядков, так как погрешности вычисления оценок резко возрастают с увеличением порядка момента;
вычисленные по ЭД оценки моментов приравниваются к теоретическим моментам;
параметры распределения определяются через моменты, и составляются уравнения, выражающие зависимость параметров от моментов, в результате получается система уравнений. Решение этой системы дает оценки параметров распределения генеральной совокупности.
Метод квантилей
Сущность метода квантилей схожа с методом моментов: выбирается столько квантилей, сколько требуется оценить параметров; неизвестные теоретические квантили, выраженные через параметры распределения, приравниваются к эмпирическим квантилям. Решение полученной системы уравнений дает искомые оценки параметров.
Дисперсия D(xa) выборочной квантили обратно пропорциональна квадрату плотности распределения D(xa)=[a (1-a )]/[nf 2(xa )] в окрестностях точки xa . Поэтому следует выбирать квантили вблизи тех значений х, в которых плотность вероятности максимальна.
Сущность задачи интервального оценивания параметров
Интервальный метод оценивания параметров распределения случайных величин заключается в определении интервала (а не единичного значения), в котором с заданной степенью достоверности будет заключено значение оцениваемого параметра. Интервальная оценка характеризуется двумя числами — концами интервала, внутри которого предположительно находится истинное значение параметра. Иначе говоря, вместо отдельной точки для оцениваемого параметра можно установить интервал значений, одна из точек которого является своего рода «лучшей» оценкой. Интервальные оценки являются более полными и надежными по сравнению с точечными, они применяются как для больших, так и для малых выборок. Совокупность методов определения промежутка, в котором лежит значение параметра Т, получила название методов интервального оценивания. К их числу принадлежит метод Неймана.
Общий метод построения доверительных интервалов
Метод позволяет по имеющейся случайной выборке построить функцию и (Т, q ), распределенную асимптотически нормально с нулевым математическим ожиданием и единичной дисперсией. В основе метода лежат следующие положения. Пусть:
f(х, q ) — плотность распределения случайной величины Х;
ln [L(x, q )] — логарифм функции правдоподобия;
; А2 =М(у)2 — дисперсия у. Если математическое ожидание М(у) = 0 и дисперсия у конечна, то распределение случайной величины w = асимптотически нормально с параметрами 0 и 1 при п ®Ґ .
44. Интервальные оценки параметров распределения
Интервальной называют оценку, которая определяется двумя числами — концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
Пусть найденная по данным выборки статистическая характеристика служит оценкой неизвестного параметра . Будем считать постоянным числом ( может быть и случайной величиной). Ясно, что тем точнее определяет параметр , чем меньше абсолютная величина разности . Другими словами, если и , то чем меньше д , тем оценка точнее.
Таким образом, положительное число д характеризует точность оценки.
Однако статистические методы не позволяют категорически утверждать, что оценка удовлетворяет неравенству ; можно лишь говорить о вероятности г, с которой это неравенство осуществляется.
Надежностью (доверительной вероятностью) оценки называют вероятность г, с которой осуществляется неравенство .
Обычно надежность оценки задается наперед, причем в качестве г берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.
Пусть вероятность того, что, равна г:
Заменив неравенство равносильным ему двойным неравенством получим:
Это соотношение следует понимать так: вероятность того, что интервал заключает в себе (покрывает) неизвестный параметр , равна г.
Интервал называется доверительным интервалом, который покрывает неизвестный параметр с надежностью г.
45. Доверительные интервалы для параметров нормального распределения
Пусть количественный признак генеральной совокупности распределен нормально. Известно среднее квадратическое отклонение этого распределения — у. Требуется оценить математическое ожидание а по выборочной средней. Найдем доверительный интервал, покрывающий а с надежностью г. Выборочную среднюю ne x будем рассматривать как случайную величину ne X (ne x изменяется от выборки к выборке), выборочные значения признака — как одинаково распределенные независимые СВ с математическим ожиданием каждой а и средним квадратическим отклонением г. Примем без доказательства, что если величина Х распределена нормально, то и выборочная средняя тоже распределена нормально с параметрами
Потребуем, чтобы выполнялось равенство
Пользуясь формулой
заменив Х на ne X и у на , получим
Найдя из предыдущего равенства получим окончательную формулу:
Число t определяется из равенства по таблице функции Лапласа.
46. Виды зависимостей между случайными величинами
Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется регрессией. Если этой зависимости придан аналитический вид, то такую форму представления изображают уравнением регрессии.
Процедура поиска предполагаемой зависимости между различными числовыми совокупностями обычно включает следующие этапы:
установление значимости связи между ними;
возможность представления этой зависимости в форме математического выражения (уравнения регрессии).
Первый этап в указанном статистическом анализе касается выявления так называемой корреляции, или корреляционной зависимости. Корреляция рассматривается как признак, указывающий на взаимосвязь ряда числовых последовательностей. Иначе говоря, корреляция характеризует силу взаимосвязи в данных. Если это касается взаимосвязи двух числовых массивов xi и yi, то такую корреляцию называют парной.
При поиске корреляционной зависимости обычно выявляется вероятная связь одной измеренной величины x (для какого-то ограниченного диапазона ее изменения, например от x1 до xn) с другой измеренной величиной y (также изменяющейся в каком-то интервале y1 … yn). В таком случае мы будем иметь дело с двумя числовыми последовательностями, между которыми и надлежит установить наличие статистической (корреляционной) связи. На этом этапе пока не ставится задача определить, является ли одна из этих случайных величин функцией, а другая — аргументом. Отыскание количественной зависимости между ними в форме конкретного аналитического выражения y = f(x) — это задача уже другого анализа, регрессионного.
Таким образом, корреляционный анализ позволяет сделать вывод о силе взаимосвязи между парами данных х и у, а регрессионный анализ используется для прогнозирования одной переменной (у) на основании другой (х). Иными словами, в этом случае пытаются выявить причинно-следственную связь между анализируемыми совокупностями.
Строго говоря, принято различать два вида связи между числовыми совокупностями — это может быть функциональная зависимость или же статистическая (случайная). При наличии функциональной связи каждому значению воздействующего фактора (аргумента) соответствует строго определенная величина другого показателя (функции), т.е. изменение результативного признака всецело обусловлено действием факторного признака.
Аналитически функциональная зависимость представляется в следующем виде: y = f(x).
В случае статистической связи значению одного фактора соответствует какое-то приближенное значение исследуемого параметра, его точная величина является непредсказуемой, непрогнозируемой, поэтому получаемые показатели оказываются случайными величинами. Это значит, что изменение результативного признака у обусловлено влиянием факторного признака х лишь частично, т.к. возможно воздействие и иных факторов, вклад которых обозначен как є: y = ф(x) + є.
По своему характеру корреляционные связи — это соотносительные связи. Примером корреляционной связи показателей коммерческой деятельности является, например, зависимость сумм издержек обращения от объема товарооборота. В этой связи помимо факторного признака х (объема товарооборота) на результативный признак у (сумму издержек обращения) влияют и другие факторы, в том числе и неучтенные, порождающие вклад є.
Для количественной оценки существования связи между изучаемыми совокупностями случайных величин используется специальный статистический показатель — коэффициент корреляции r.
Если предполагается, что эту связь можно описать линейным уравне- нием типа y=a+bx (где a и b — константы), то принято говорить о существовании линейной корреляции.
Коэффициент r — это безразмерная величина, она может меняться от 0 до ±1. Чем ближе значение коэффициента к единице (неважно, с каким знаком), тем с большей уверенностью можно утверждать, что между двумя рассматриваемыми совокупностями переменных существует линейная связь. Иными словами, значение какой-то одной из этих случайных величин (y) существенным образом зависит от того, какое значение принимает другая (x).
Если окажется, что r = 1 (или -1), то имеет место классический случай чисто функциональной зависимости (т.е. реализуется идеальная взаимосвязь).
При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшим вариантом является линейная взаимосвязь, которая выражается в том, что точки размещаются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки расположены случайно, и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз).
Если точки на ней группируются вдоль кривой линии, то диаграмма рассеяния характеризуется нелинейной взаимосвязью. Такие ситуации вполне возможны.
47. Выборочные уравнения регрессии
Для определения значений теоретических коэффициентов, входящих в уравнения регрессии, вообще говоря, необходимо знать и использовать все значения переменных генеральной совокупности, что практически невозможно. В связи с этим по выборке ограниченного объема строится так называемое выборочное (эмпирическое) уравнение регрессии. В силу несовпадения статистической базы для генеральной совокупности и выборки оценки коэффициентов, входящих в уравнение регрессии, практически всегда отличаются от истинных (теоретических) значений, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к отличающимся друг от друга оценкам. Задача состоит в том, чтобы по конкретной выборке найти оценки неизвестных параметров так, чтобы построенная линия регрессии являлась бы наилучшей, среди всех других линий.
Линейная регрессия
Если функция регрессии линейна, то говорят о линейной регрессии. Линейная регрессия (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими переменными. Для этого простейшего случая имеем:
Последнее соотношение называется теоретической линейной регрессионной моделью; коэффициенты b0, b1 — теоретическими параметрами регрессии; ei — случайным отклонением.
По выборке ограниченного объема строится выборочное уравнение регрессии:
,(1)
где b0, b1 — оценки неизвестных параметров b0, b1, называемые выборочными (эмпирическими) коэффициентами регрессии, — оценка условного математического ожидания . Для величин справедлива формула:
, (2)
где отклонение ei— оценка теоретического отклонения ei.
Построенная прямая выборочной регрессии должна наилучшим образом описывать эмпирические данные, т.е. коэффициенты b0, b1 должны быть такими, чтобы случайные отклонения ei были минимальны. Наиболее распространенным методом нахождения коэффициентов уравнения регрессии является метод наименьших квадратов (МНК).
48. Коэффициент корреляции
Коррелямция (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения значений одной или нескольких из этих величин приводят к систематическому изменению значений другой или других величин.[1] Математической мерой корреляции двух случайных величин служит корреляционное отношение [2], либо коэффициент корреляции R(или r)[1]. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической[3].
Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.[4]
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.
Корреляция и взаимосвязь величин
Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бомльшее количество пожарных приводит к бомльшему ущербу», и тем более не имеет смысла попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.[5]
В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Более тонкий инструмент для изучения связи между двумя случайными величинами является понятие взаимной информации.
Коэффициент ранговой корреляции Кендалла
Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:
где S = P ? Q.
P — суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.
Q — суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)
Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:
t — число связанных рангов в ряду X и Y соответственно.
Коэффициент ранговой корреляции Спирмена
Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности d и вычисляется коэффициент корреляции Спирмена:
Коэффициент корреляции знаков Фехнера
Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.
C — число пар, у которых знаки отклонений значений от их средних совпадают.
H — число пар, у которых знаки отклонений значений от их средних не совпадают.
Коэффициент множественной ранговой корреляции (конкордации)
m — число групп, которые ранжируются.
n — число переменных.
Rij — ранг i-фактора у j-единицы.
Значимость:
, то гипотеза об отсутствии связи отвергается.
В случае наличия связанных рангов:
Свойства коэффициента корреляции
Неравенство Коши — Буняковского:
если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши — Буняковского будет:
Коэффициент корреляции равен +-1 тогда и только тогда, когда X и Y линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):
где . Более того в этом случае знаки и k совпадают:
Если X, Y независимые случайные величины, то . Обратное в общем случае неверно.
49. Линейная корреляция
КОРРЕЛЯЦИЯ ЛИНЕЙНАЯ — статистическая линейная связь (см.) непричинного характера между двумя количественными переменными (см.) х и у. Измеряется с помощью «коэффициента К.Л.» Пирсона, который является результатом деления ковариации на стандартные отклонения обеих переменных:
где sxy — ковариация (см.) между переменными х и у;
sx, sy — стандартные отклонения (см.) для переменных х и у;
xi, yi — значения переменных х и у для объекта с номером i;
x, y — средние арифметические (см.) для переменных х и у.
Коэффициент Пирсона r может принимать значения из интервала [-1; +1]. Значение r = 0 означает отсутствие линейной связи между переменными х и у (но не исключает статистической связи нелинейной — см.). Положительные значения коэффициента (r > 0) свидетельствуют о прямой линейной связи; чем ближе его значение к +1, тем сильнее связь статистическая прямая (см.). Отрицательные значения коэффициента (r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r = ±1 означают наличие полной линейной связи, прямой или обратной. В случае полной связи все точки с координатами (xi, yi) лежат на прямой y = a + bx.
«Коэффициент К.Л.» Пирсона применяется также для измерения тесноты связи в модели регрессии линейной парной (см.).
50. Статистическая гипотеза
Статистическая гипотеза
Статистическая гипотеза, предположительное суждение о вероятностных закономерностях, которым подчиняется изучаемое явление. Как правило, С. г. определяет значения параметров закона распределения вероятностей или его вид. С. г. называется простой, если она определяет единственный закон распределения; в ином случае С. г. называется сложной и может быть представлена как некоторый класс простых С. г. Например, гипотеза о том, что распределение вероятностей является нормальным распределением с математическим ожиданием а = а0 и некоторой (неизвестной) дисперсией s2 будет сложной, составленной из простых гипотез а = а0, (а0 и — заданные числа).
51. Виды ошибок
Ошибки первого рода (англ. type I errors, б errors, false positives) и ошибки второго рода (англ. type II errors, в errors, false negatives) в математической статистике — это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.
Определения
Пусть дана выборка из неизвестного совместного распределения PX, и поставлена бинарная задача проверки статистических гипотез:
H0, H1 где H0 — нулевая гипотеза, а H1 — альтернативная гипотеза. Предположим, что задан статистический критерий , сопоставляющий каждой реализации выборки X=xодну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:
Распределение PX выборки X соответствует гипотезе H0, и она точно определена статистическим критерием, то есть f(x)=Ho.
Распределение PXвыборки соответствует гипотезе H0, но она неверно отвергнута статистическим критерием, то есть f(x)=H1.
Распределение PXвыборки Xсоответствует гипотезе H1, и она точно определена статистическим критерием, то есть f(x)=H1.
Распределение Pxвыборки Xсоответствует гипотезе H1, но она неверно отвергнута статистическим критерием, то есть f(x)=H0.
Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно.
Вероятности ошибок (уровень значимости и мощность)
Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают греческой буквой б (отсюда название б-errors).
Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой в (отсюда в-errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение — мощность критерия. Она вычисляется по формуле (1 ? в). Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.
Обе эти характеристики обычно вычисляются с помощью так называемой функции мощности критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объема, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для последовательных критериев это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы).
В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости, которым задаются при проверке статистических гипотез. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности — к увеличению риска ошибки второго рода (пропуск запрещённого предмета).
52. Статистический критерий. Критическая область
Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.
Определение
Пусть даны выборка из неизвестного совместного распределения PX, и семейство статистических гипотез . Тогда статистическим критерием называется функция, устанавливающая соответствие между наблюдаемыми величинами и возможными гипотезами:
Таким образом каждой реализации выборки статистический критерий сопоставляет наиболее подходящую с точки зрения этого критерия гипотезу о распределении, породившем данную реализацию.
Виды критериев
Статистические критерии подразделяются на следующие категории:
Критерии значимости. Проверка на значимость предполагает проверку гипотезы о численных значениях известного закона распределения: Ho— нулевая гипотеза. H1или — конкурирующая гипотеза.
Критерии согласия. Проверка на согласие подразумевает проверку предположения о том, что исследуемая случайная величина подчиняется предполагаемому закону. Критерии согласия можно также воспринимать, как критерии значимости. Критериями согласия являются:
Критерий Пирсона
Критерий Колмогорова-Смирнова
Критерий Андерсона-Дарлинга (англ.)
Критерий Жака-Бера (англ.)
Критерий Шапиро-Вилка (англ.)
График нормальности (англ.) — не столько критерий, сколько графическая иллюстрация: точки специально построенного графика должны лежать почти на одной прямой.
Критерии на однородность. При проверке на однородность случайные величины исследуются на факт взаимного соответствия их законов распределения (подчиняются ли эти величины одному и тому же закону). Используются в факторном (дисперсионном) анализе для определения наличия зависимостей.
Это разделение условно, и зачастую один и тот же критерий может быть использован в разных качествах.
Непараметрические критерии
Группа статистических критериев, которые не включают в расчёт параметры вероятностного распределения и основаны на оперировании частотами или рангами.
Q-критерий Розенбаума
U-критерий Манна-Уитни
Критерий Колмогорова
Критерий Уилкоксона
Параметрические критерии
Группа статистических критериев, которые включают в расчет параметры вероятностного распределения признака (средние и дисперсии).
t-критерий Стьюдента
Критерий отношения правдоподобия
Критерий Пирсона
53. Сравнение выборочной средней с математическим ожиданием
Вымборочное (эмпиримческое) сремднее — это приближение теоретического среднего распределения, основанное на выборке из него.
Определение
Пусть — выборка из распределения вероятности, определённая на некотором вероятностном пространстве . Тогда её выборочным средним называется случайная величина
Свойства выборочного среднего
Пусть F(x) — выборочная функция распределения данной выборки. Тогда для любого фиксированного функция F(w;x) является (неслучайной) функцией дискретного распределения. Тогда математическое ожидание этого распределения равно X(w). Выборочное среднее — несмещённая оценка теоретического среднего:
Выборочное среднее — сильно состоятельная оценка теоретического среднего: почти наверное при . Выборочное среднее — асимптотически нормальная оценка. Пусть дисперсия случайных величин Xi конечна и ненулевая, то есть . Тогда
по распределению при , где N(0,у2) — нормальное распределение со средним 0 и дисперсией у2.
Выборочное среднее из нормальной выборки — эффективная оценка её среднего.
Математимческое ожидамние — мера среднего значения случайной величины в теории вероятностей. В англоязычной литературе и в математическом сообществе Санкт-Петербурга обозначается через E[X](например, от англ. Expected value или нем. Erwartungswert), в русской — M[X] (возможно, от англ. Mean value, а возможно от русск. Математическое ожидание). В статистике часто используют обозначение м.
Определение
Пусть задано вероятностное пространство и определённая на нём случайная величина X. То есть, по определению, — измеримая функция. Если существует интеграл Лебега от X по пространству Щ, то он называется математическим ожиданием, или средним (ожидаемым) значением и обозначается M[X] или E[X].
Основные формулы для математического ожидания
Если FX(x) — функция распределения случайной величины, то её математическое ожидание задаётся интегралом Лебега — Стилтьеса:
Математическое ожидание дискретного распределения
Если X — дискретная случайная величина, имеющая распределение , то прямо из определения интеграла Лебега следует, что . Математическое ожидание целочисленной величины
Если X — положительная целочисленная случайная величина (частный случай дискретной), имеющая распределение вероятностей
то её математическое ожидание может быть выражено через производящую функцию последовательности {pi} как значение первой производной в единице: M[X] = P'(1). Если математическое ожидание X бесконечно, то и мы будем писать
Теперь возьмём производящую функцию Q(s) последовательности «хвостов» распределения {qk}
Эта производящая функция связана с определённой ранее функцией P(s) свойством: при | s | < 1. Из этого по теореме о среднем следует, что математическое ожидание равно просто значению этой функции в единице:
M[X] = P'(1) = Q(1)
Математическое ожидание абсолютно непрерывного распределения
Математическое ожидание абсолютно непрерывной случайной величины, распределение которой задаётся плотностью fX(x), равно . Математическое ожидание случайного вектора
Пусть — случайный вектор. Тогда по определению , то есть математическое ожидание вектора определяется покомпонентно.
Математическое ожидание преобразования случайной величины
Пусть — борелевская функция, такая что случайная величина Y = g(X) имеет конечное математическое ожидание. Тогда для него справедлива формула:
если X имеет дискретное распределение;
если X имеет абсолютно непрерывное распределение.
Если распределение Pxслучайной величины X общего вида, то . В специальном случае, когда g(X) = Xk, Математическое ожидание называется k-тым моментом случайной величины.
Простейшие свойства математического ожидания
Математическое ожидание числа есть само число.
M[a] = a — константа;
Математическое ожидание линейно, то есть
M[aX + bY] = aM[X] + bM[Y],
где X,Y — случайные величины с конечным математическим ожиданием, а — произвольные константы;
Математическое ожидание сохраняет неравенства, то есть если почти наверное, и Y — случайная величина с конечным математическим ожиданием, то математическое ожидание случайной величины X также конечно, и более того
Математическое ожидание не зависит от поведения случайной величины на событии вероятности нуль, то есть если X = Y почти наверное, то
M[X] = M[Y].
Математическое ожидание произведения двух независимых случайных величин X,Y равно произведению их математических ожиданий
M[XY] = M[X]M[Y].
54. Сравнение двух дисперсий нормальных генеральных совокупностей
Сравнение двух дисперсий нормальных генеральных совокупностей. При заданном уровне значимости проверяется нулевая гипотеза, состоящая в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой:
В качестве критерия проверки нулевой гипотезы принимают случайную величину отношения большей исправленной дисперсии к меньшей
Величина F имеет распределение Фишера-Снедекора, которое зависит только от чисел степеней свободы и .
Размещено на