Понятие о критериях согласия. Использование критериев согласия Теоретические и эмпирические частоты
Для проверки гипотезы о соответствии эмпирического распределения теоретическому закону распределения используются особые статистические показатели - критерии согласия (или критерии соответствия). К ним относятся критерии Пирсона, Колмогорова, Романовского, Ястремского и др. Большинство критериев согласия базируется на использовании отклонений эмпирических частот от теоретических. Очевидно, что чем меньше эти отклонения, тем лучше теоретическое распределение соответствует эмпирическому (или описывает его).
Критерии согласия - это критерии проверки гипотез о соответствии эмпирического распределения теоретическому распределению вероятностей. Такие критерии подразделяются на два класса: общие и специальные. Общие критерии согласия применимы к самой общей формулировке гипотезы, а именно, к гипотезе о согласии наблюдаемых результатов с любым априорно предполагаемым распределением вероятностей. Специальные критерии согласия предполагают специальные нулевые гипотезы, формулирующие согласие с определенной формой распределения вероятностей.
Критерии согласия, опираясь на установленный закон распределения, дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными (случайными), а когда - существенными (неслучайными). Из этого следует, что критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду и дать ответ, можно ли принять для данного эмпирического распределения модель, выраженную некоторым теоретическим законом распределения.
Критерий согласия Пирсона c 2 (хи-квадрат) - один из основных критериев согласия. Предложен английским математиком Карлом Пирсоном (1857-1936) для оценки случайности (существенности) расхождений между частотами эмпирического и теоретического распределений:
Схема применения критерия c 2 к оценке согласованности теоретического и эмпирического распределений сводится к следующему:
1. Определяется расчетная мера расхождения .
2. Определяется число степеней свободы.
3. По числу степеней свободы n с помощью специальной таблицы определяется .
4. Если , то при заданном уровне значимости α и числе степеней свободы n гипотезу о несущественности (случайности) расхождений отклоняют. В противном случае гипотезу можно признать не противоречащей полученным экспериментальным данным и с вероятностью (1 – α) можно утверждать, что расхождения между теоретическими и эмпирическими частотами случайны.
Уровень значимости - это вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. В статистических исследованиях в зависимости от важности и ответственности решаемых задач пользуются следующими тремя уровнями значимости:
1) a = 0,1, тогда Р = 0,9;
2) a = 0,05, тогда Р = 0,95;
3) a = 0,01, тогда Р = 0,99.
Используя критерий согласия c 2 , необходимо соблюдать следующие условия:
1. Объем исследуемой совокупности должен быть достаточно большим (N ≥ 50), при этом частота или численность группы должна быть не менее 5. Если это условие нарушается, необходимо предварительно объединить небольшие частоты (меньше 5).
2. Эмпирическое распределение должно состоять из данных, полученных в результате случайного отбора, т.е. они должны быть независимыми.
Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений. В связи с этим рекомендуется дополнять проверку соответствия распределений по критерию c 2 другими критериями. Особенно это необходимо при сравнительно малом объеме выборки (n ≈ 100).
В статистике критерий согласия Колмогорова (также известный, как критерий согласия Колмогорова - Смирнова) используется для того, чтобы определить, подчиняются ли два эмпирических распределения одному закону, либо определить, подчиняется ли полученное распределение предполагаемой модели. Критерий Колмогорова основан на определении максимального расхождения между накопленными частотами или частостями эмпирических или теоретических распределений. Критерий Колмогорова исчисляется по следующим формулам:
где D и d - соответственно максимальная разность между накопленными частотами (f – f ¢) и между накопленными частостями (p – p ¢) эмпирического и теоретического рядов распределений; N - число единиц в совокупности.
Рассчитав значение λ, по специальной таблице определяется вероятность, с которой можно утверждать, что отклонения эмпирических частот от теоретических случайны. Если признак принимает значения до 0,3, то это означает, что происходит полное совпадение частот. При большом числе наблюдений критерий Колмогорова способен обнаружить любое отступление от гипотезы. Это означает, что любое отличие распределения выборки от теоретического будет с его помощью обнаружено, если наблюдений будет достаточно много. Практическая значимость этого свойства не существенна, так как в большинстве случаев трудно рассчитывать на получение большого числа наблюдений в неизменных условиях, теоретическое представление о законе распределения, которому должна подчиняться выборка, всегда приближенное, а точность статистических проверок не должна превышать точность выбранной модели.
Критерий согласия Романовского основан на использовании критерия Пирсона, т.е. уже найденных значений c 2 , и числа степеней свободы:
где n - число степеней свободы вариации.
Критерий Романовского удобен при отсутствии таблиц для . Если < 3, то расхождения распределений случайны, если же > 3, то не случайны и теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.
Б. С. Ястремский использовал в критерии согласия не число степеней свободы, а число групп (k ), особую величину q, зависящую от числа групп, и величину хи-квадрат. Критерий согласия Ястремского имеет тот же смысл, что и критерий Романовского, и выражается формулой
где c 2 - критерий согласия Пирсона; - число групп; q - коэффициент, для числа групп меньше 20 равный 0,6.
Если L факт > 3, расхождениz между теоретическими и эмпирическими распределениями неслучайны, т.е. эмпирическое распределение не отвечает требованиям нормального распределения. Если L факт < 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.
Нулевой (основной) называют выдвинутую гипотезу о виде неизвестного распределения, или о параметрах известных распределений. Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.
Например, если нулевая гипотеза состоит в предположении, что случайная величина X распределена по закону , то конкурирующая гипотеза может состоять в предположении, что случайная величина Х распределена по другому закону.
Статистическим критерием (или просто критерием ) называют некоторую случайную величину К , которая служит для проверки нулевой гипотезы.
После выбора определенного критерия, например критерия , множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другое - при которых она принимается.
Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы называют совокупность значений критерия, при которых гипотезу принимают. Критическими точками называют точки, отделяющие критическую область от области принятия нулевой гипотезы.
Для нашего примера, при значении , вычисленное по выборке значение соответствует области принятия гипотезы: случайная величина распределена по закону . Если же вычисленное значение , то оно попадает в критическую область, то есть гипотеза о распределении случайной величины по закону отвергается.
В случае распределения критическая область определяется неравенством , область принятия нулевой гипотезы – неравенством .
2.6.3. Критерий согласия Пирсона.
Одна из задач зоотехнии и ветеринарной генетики – выведение новых пород и видов с требуемыми признаками. Например, повышение иммунитета, резистентность к болезням или изменение окраски мехового покрова.
На практике, при анализе результатов, очень часто оказывается, что фактические результаты в большей или меньшей степени соответствуют некоторому теоретическому закону распределения. Возникает необходимость оценить степень соответствия фактических (эмпирических) данных и теоретических (гипотетических). Для этого выдвигают нулевую гипотезу : полученная совокупность распределена по закону «А». Проверка гипотезы о предполагаемом законе распределения производится при помощи специально подобранной случайной величины – критерия согласия.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Имеется несколько критериев согласия: Пирсона, Колмогорова, Смирнова и д.р. Критерий согласия Пирсона используется наиболее часто.
Рассмотрим применение критерия Пирсона на примере проверки гипотезы о нормальном законе распределения генеральной совокупности. С этой целью будем сравнивать эмпирические и теоретические (вычисленные в продолжении нормального распределения) частоты.
Обычно между теоретическими и эмпирическими частотами есть некоторое различие. Например :
Эмпирические частоты 7 15 41 93 113 84 25 13 5
Теоретические частоты 5 13 36 89 114 91 29 14 6
Рассмотрим два случая:
Расхождение теоретических и эмпирических частот случайно (незначимо), т.е. можно сделать предложение о распределении эмпирических частот по нормальному закону;
Расхождение теоретических и эмпирических частот неслучайно (значимо), т.е. теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности.
С помощью критерия согласия Пирсона можно определить случайно или нет расхождение теоретических и эмпирических частот, т.е. с заданной доверительной вероятностью определить, распределена генеральная совокупность по нормальному закону или нет.
Итак, пусть по выборке объема n получено эмпирическое распределение:
Варианты ……
Эмпирические частоты …….
Допустим, что в предположении нормального распределения вычислены теоретические частоты . При уровне значимости требуется проверить нулевую гипотезу : генеральная совокупность распределена нормально.
В качестве критерия проверки нулевой гипотезы примем случайную величину
(*)
Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.
Доказано, что при закон распределения случайной величины (*), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения с степенями свободы. Поэтому, случайная величина (*) обозначается через , а сам критерий называют критерий согласия «хи-квадрат».
Обозначим значение критерия, вычисленное по данным наблюдений, через . Табулированные критические значения критерия для данного уровня значимости и числа степеней свободы обозначают . При этом число степеней свободы определяют из равенства , где число групп (частичных интервалов) выборки или классов; - число параметров предполагаемого распределения. У нормального распределения два параметра – математическое ожидание и среднее квадратическое отклонение. Поэтому число степеней свободы для нормального распределения находят из равенства
Если для вычисленного значения и табличного значения выполняется неравенство , принимается нулевая гипотеза о нормальном распределении генеральной совокупности. Если же , нулевую гипотезу отвергают и принимают гипотезу, альтернативную ей (генеральная совокупность не распределена по нормальному закону).
Замечание. При использовании критерия согласия Пирсона объем выборки должен быть не менее 30. Каждая группа должна содержать не менее 5 вариант. Если же в группах окажется менее 5 частот, их объединяют с соседними группами.
В общем случае число степеней свободы для распределения хи-квадрат определяется как общее число величин, по которым вычисляют соответствующие показатели, минус число тех условий, которые связывают эти величины, т.е. уменьшают возможность вариации между ними. В простейших случаях при вычислении число степеней свободы будет равно числу классов, уменьшенному на единицу. Так, например, при дигибридном, расщеплении получают 4 класса, но не связанным получается лишь первый класс, последующие уже связаны с предыдущими. Поэтому для дигибридного расщепления число степеней свободы .
Пример 1. Определить степень соответствия фактического распределения групп по количеству больных туберкулезом коров с теоретически ожидаемым, которое было вычислено при рассмотрении нормального распределения. Исходные данные сведены в таблицу:
Решение.
По уровню значимости и числу степеней свободы из таблицы критических точек распределения (см. приложение 4) находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами носит случайный характер. Таким образом, фактическое распределение групп по количеству больных туберкулезом коров соответствует теоретически ожидаемому.
Пример 2. Теоретическое распределение по фенотипу особей, полученных во втором поколении при дигибридном скрещивании кроликов по закону Менделя составляет 9: 3: 3: 1. Требуется вычислить соответствие эмпирического распределения кроликов от скрещивания черных особей с нормальной шерстью с пуховыми животными – альбиносами. При скрещивании во втором поколении было получено 120 потомков, в том числе – 45 черных с короткой шерстью, 30 черных пуховых, 25 белых с короткой шерстью, 20 белых пуховых кроликов.
Решение. Теоретически ожидаемое расщепление в потомстве должно соответствовать соотношению четырех фенотипов (9: 3: 3: 1). Рассчитаем теоретические частоты (количество голов) для каждого класса:
9+3+3+1=16, значит можно ожидать, что черных короткошерстных будет ; черных пуховых - ; белых короткошерстных - ; белых пуховых - .
Эмпирическое (фактическое) распределение по фенотипам было следующим 45; 30; 25; 20.
Сведем все эти данные в следующую таблицу:
Используя критерий согласия Пирсона вычислим значение :
Число степеней свободы при дигибридном скрещивании . Для уровня значимости находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами является неслучайным. Следовательно, полученная группа кроликов отклоняется по распределению фенотипов от закона Менделя при дигибридном скрещивании и отражает влияние неких факторов, изменяющих тип расщепления по фенотипу у второго поколения помесей.
Критерий согласия хи- квадрат Пирсона можно использовать и для сравнения друг с другом двух однородных эмпирических распределений, т.е. таких, у которых одни и те же границы классов. В качестве нулевой гипотезы принимается гипотеза о равенстве двух неизвестных функций распределения. Критерий хи-квадрат в таких случаях определяется по формуле
(**)
где и - объемы сравниваемых распределений; и - частоты соответствующих классов.
Рассмотрим сравнение двух эмпирических распределений на следующем примере.
Пример 3. Проводился промер длины яиц кукушек по двум территориальным зонам. В первой зоне была обследована выборка из 76 яиц (), во второй из 54 (). Получены следующие результаты:
Длина (мм) | |||||||||||
Частоты | |||||||||||
Частоты | - | - | - |
При уровне значимости требуется проверить нулевую гипотезу, что обе выборки яиц принадлежат одной популяции кукушек.
Теоретические и эмпирические частоты. Проверка на нормальность распределения
При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения, являющиеся функцией нормированных отклонений.
Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.
Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .
Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.
Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.
Обычно эмпирические и теоретические частоты различаются в силу того, что:
расхождение случайно и связано с ограниченным количеством наблюдений;
расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.
Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.
Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.
Для закона нормального распределения их можно найти следующим образом:
Σƒ i- сумма накопленных (кумулятивных) эмпирических частот
h - разность между двумя соседними вариантами
σ - выборочное среднеквадратическое отклонение
t–нормированное (стандартизированное) отклонение
φ(t)–функция плотности вероятности нормального распределения (находят по таблице значений локальной функции Лапласа для соответствующего значения t)
Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.
Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т) и эмпирическими (f) частотами к теоретическим частотам:
k–число групп, на которые разбито эмпирическое распределение,
f i –наблюдаемая частота признака в i-й группе,
f T –теоретическая частота.
Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν). Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:
α=0,10, тогда Р=0,90 (в 10 случаях из 100)
α=0,05, тогда Р=0,95 (в 5 случаях из 100)
α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза
Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл
При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.
Критерий согласия Колмогорова основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:
где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений. По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер. Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.
Критерий согласия Колмогорова
Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:
Сравнивают фактические и теоретические частоты.
По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.
Проверяют на сколько распределение признака соответствует нормальному.
Для IV колонки таблицы:
В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter
Для V колонки таблицы:
Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)
Для VI колонки таблицы:
Критерий согласия Колмогорова (λ) определяется путем деления модуля max разности между эмпирическими и теоретическими кумулятивными частотами на корень квадратный из числа наблюдений:
По специальной таблице вероятности для критерия согласия λ определяем, что значению λ=0,59 соответствует вероятность 0,88 (λ
Распределение эмпирических и теоретических частот, плотности вероятности теоретического распределения
Применяя критерии согласия для проверки соответствия наблюдаемого (эмпирического) распределения теоретическому, следует различать проверку простых и сложных гипотез.
Одновыборочный критерий нормальности Колмогорова-Смирнова основан на максимуме разности между кумулятивным эмпирическим распределением выборки и предполагаемым (теоретическим) кумулятивным распределением. Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.
Критерием согласия называется критерий значимости, применяемый для проверки гипотезы о законе распределения генеральной совокупности, из которой взята выборка.
Чаще всего исследователя интересует, соответствует ли распределение экспериментальных данных нормальному закону. Поэтому примеры будут связаны с проверкой экспериментального распределения на нормальность.
- Критерий Шапиро-Уилки
- Критерий хи-квадрат
- Критерий лямбда Колмогорова-Смирнова
КРИТЕРИЙ ШАПИРО-УИЛКИ
Условия применения: выборка небольшого объема
Н 0 – распределение генеральной совокупности из которой получена выборка совокупности соответствует нормальному закону.
Н 1 — распределение генеральной совокупности из которой получена выборка совокупности не соответствует нормальному закону.
Таблица 1 – Алгоритм расчета критерия Шапиро-Уилки.
№ | x | x | Δk | k | ank | ankΔk |
1 | 2 | 3 | 4 | 5 | 6 | 7 |
1 | 11,8 | 13,8 | 2 | 1 | 0,5739 | 1,1478 |
2 | 12 | 13,2 | 1,2 | 2 | 0,3291 | 0,39492 |
3 | 12,1 | 13 | 0,9 | 3 | 0,2141 | 0,19269 |
4 | 12,3 | 12,8 | 0,5 | 4 | 0,1224 | 0,0612 |
5 | 12,6 | 12,6 | 0 | 5 | 0,0399 | 0 |
6 | 12,6 | 12,6 | ||||
7 | 12,8 | 12,3 | Сумма=b = 17966 | |||
8 | 13 | 12,1 | ||||
9 | 13,2 | 12 | ||||
10 | 13,8 | 11,8 |
Порядок расчета критерия Шапиро-Уилки
- Формулируем гипотезу Н 0 о соответствии распределения генеральной совокупности, из которой получены данные нормальному закону. Назначаем уровень значимости α=0,05.
- Получаем выборку экспериментальных данных (столбец 1 табл.1). В нашем случае n=10.
- Рассчитываем значение выборочной дисперсии. Для примера S 2 =0, 37.
- Ранжируем выборку в возрастающем и убывающем порядке (столбцы 2 и 3)
- Считаем разности Δk (столбец 5)
- Из таблицы 6 Приложения(см. В.С.Иванов, 1990) находим значения коэффициентов ank (столбец 6)
- Находим произведение ankΔk
- Вычисляем b=сумма ankΔk= 1,7966
- Рассчитываем значение критерия Wф по формуле:
- Из табл. 7 Приложения (см. В.С.Иванов, 1990) находим критическое значение критерия Шапиро-Уилки для α=0,05 Wкрит= 0,842.
- Вывод. Так как Wф>Wкрит, можно говорить, что экспериментальные данные соответствуют нормальному закону на уровне значимости 0,05.
КРИТЕРИЙ ХИ-КВАДРАТ
Разработан Карлом Пирсоном . Основан на построении интервального вариационного ряда и сравнении эмпирических (n эм) и теоретических (n т) частот (Рис.1).
Рис.1. Гистограмма, характеризующая эмпирическое распределение и функция плотности вероятностей нормального распределения.
Статистическая гипотеза : плотность распределения генеральной совокупности, из которой взята выборка, соответствует теоретической модели нормального распределения.
Значение фактического критерия хи-квадрат вычисляется по формуле:
Если фактическое значение критерия хи-квадрат больше или равно чем критическое значение критерия хи-квадрат, можно сделать вывод, что эмпирическое распределение не соответствует нормальному закону на уровне значимости α.
КРИТЕРИЙ ЛЯМБДА КОЛМОГОРОВА-СМИРНОВА
Разработан Андреем Николаевичем Колмогоровым и Николаем Васильевичем Смирновым .
Статистическая гипотеза : функция распределения генеральной совокупности (рис. 2), из которой взята выборка, соответствует функции распределения нормального закона.
Рис.2. Красные точки — кумулята, построенная на основе экспериментальных данных, синяя кривая — теоретическая функция распределения (нормальное распределение).
Значение критерия λ ф вычисляется по формуле:
Вывод: если λ ф > λ крит – эмпирическое распределение не соответствует нормальному на уровне значимости α.
ЛИТЕРАТУРА
- Высшая математика и математическая статистика: учебное пособие для вузов / Под общ. ред. Г. И. Попова. – М. Физическая культура, 2007.– 368 с.
- Основы математической статистики: Учебное пособие для ин-тов физ. культ / Под ред. В.С. Иванова.– М.: Физкультура и спорт, 1990. 176 с.
Определение 51. Критерии, которые позволяют судить, согласуются ли значения х 1 , х 2 ,…, х n случайной величины Х с гипотезой относительно ее функции распределения, называются критериями согласия.
Идея применения критериев согласия
Пусть на основании данного статистического материала предстоит проверить гипотезу Н , состоящую в том, что СВ Х подчиняется некоторому определенному закону распределения. Этот закон может быть задан либо в виде функция распределения F (x ), либо в виде плотности распределения f (x ), или же в виде совокупности вероятностей p i . Так как из всех этих форм функция распределения F (x ) является наиболее общей (существует и для ДСВ и для НСВ) и определяет собой любую другую, будем формулировать гипотезу Н , как состоящую в том, что величина Х имеет функцию распределения F (x ).
Для того, чтобы принять или опровергнуть гипотезу Н , рассмотрим некоторую величину U , характеризующую степень расхождения (отклонения) теоретического и статистического распределений. Величина U может быть выбрана различными способами : 1) сумма квадратов отклонений теоретических вероятностей p i от соответствующих частот , 2) сумма тех же квадратов с некоторыми коэффициентами (весами), 3) максимальное отклонение статистической (эмпирической) функции распределения от теоретической F (x ).
Пусть величина U выбрана тем или иным способом. Очевидно, что это есть некоторая случайная величина. Закон распределения U зависит от закона распределения случайной величины Х , над которой производились опыты, и от числа опытов n . Если гипотеза Н верна, то закон распределения величины U определяется законом распределения величины Х (функцией F (x )) и числом n .
Допустим, что этот закон распределения известен. В результате данной серии опытов обнаружено, что выбранная мера расхождения U приняла некоторое значение u . Вопрос: можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим (эмпирическим) распределениями и, следовательно, на непригодность гипотезы Н ? Для ответа на этот вопрос предположим, что гипотеза Н верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недостаточным объемом опытного материала, мера расхождения U окажется не меньше, чем наблюдаемое в опыте значение u , то есть вычислим вероятность события: .
Если эта вероятность мала, то гипотезу Н следует отвергнуть как мало правдоподобную, если же эта вероятность значительна, то делаем вывод, что экспериментальные данные не противоречат гипотезе Н .
Возникает вопрос: каким же способом следует выбирать меру расхождения (отклонения) U ? Оказывается, что при некоторых способах ее выбора закон распределения величины U обладает весьма простыми свойствами и при достаточно большом n практически не зависит от функции F (x ). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.
Определение 51 / . Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Для количественных данных при распределениях, близких к нормальным, используют параметрические методы, основанные на таких показателях, как математическое ожидание и стандартное отклонение. В частности, для определения достоверности разницы средних для двух выборок применяют метод (критерий) Стьюдента, а для того чтобы судить о различиях между тремя или большим числом выборок, - тест F , или дисперсионный анализ. Если же имеем дело с неколичественными данными или выборки слишком малы для уверенности в том, что популяции, из которых они взяты, подчиняются нормальному распределению, тогда используют непараметрические методы - критерий χ 2 (хи-квадрат) или Пирсона для качественных данных и критерии знаков, рангов, Манна-Уитни, Вилкоксона и др. для порядковых данных.
Кроме того, выбор статистического метода зависит от того, являются ли те выборки, средние которых сравниваются, независимыми (т. е., например, взятыми из двух разных групп испытуемых) или зависимыми (т. е. отражающими результаты одной и той же группы испытуемых до и после воздействия или после двух различных воздействий).
Пп. 1. Критерий Пирсона (- хи-квадрат)
Пусть произведено n независимых опытов, в каждом из которых случайная величина Х приняла определенное значение, то есть дана выборка наблюдений случайной величины Х (генеральной совокупности) объема n . Рассмотрим задачу по проверке близости теоретической и эмпирической функций распределения для дискретного распределения, то есть требуется проверить, согласуются ли экспериментальные данные с гипотезой Н 0 , утверждающей, что случайная величина Х имеет закон распределения F (x ) при уровне значимости α . Назовем этот закон «теоретическим».
При получении критерия согласия для проверки гипотезы определяют меру D отклонения эмпирической функции распределения данной выборки от предполагаемой (теоретической) функции распределения F (x ).
Наиболее употребительной является мера, введенная Пирсоном. Рассмотрим эту меру. Разобьем множество значений случайной величины Х на r множеств - групп S 1 , S 2 ,…, S r , без общих точек. Практически такое разбиение осуществляется с помощью (r - 1) чисел c 1 < c 2 < … < c r -1 . При этом конец каждого интервала исключают из соответствующего множества, а левый – включают.
S 1 S 2 S 3 …. S r -1 S r
c 1 c 2 c 3 c r -1
Пусть p i , , - вероятность того, что СВ Х принадлежит множеству S i (очевидно ). Пусть n i , , - количество величин (вариант) из числа наблюдаемых, принадлежащих множеству S i (эмпирические частоты). Тогда относительная частота попадания СВ Х во множество S i при n наблюдениях. Очевидно, что , .
Для разбиения, приведенного выше, p i есть приращение F (x ) на множестве S i , а приращение на этом же множестве. Cведем результаты опытов в таблицу в виде группированного статистического ряда.
Границы группы | Относительная частота |
S 1: x 1 – x 2 | |
S 2: x 2 – x 3 | |
… | … |
S r : x r – x r +1 |
Зная теоретический закон распределения, можно найти теоретические вероятности попадания случайной величины в каждую группу: р 1 , р 2 , …, p r . Проверяя согласованность теоретического и эмпирического (статистического) распределений, будем исходить из расхождений между теоретическими вероятностями p i и наблюдаемыми частотами .
За меру D расхождения (отклонения) эмпирической функции распределения от теоретической принимают сумму квадратов отклонений теоретических вероятностей p i от соответствующих частот , взятых с некоторыми «весами» c i : .
Коэффициенты c i вводятся потому, что в общем случае отклонения, относящиеся к разным группам, нельзя считать равноправными по значимости: одно и то же по абсолютной величине отклонение может быть мало значительным, если сама вероятность p i велика, и очень заметным, если она мала. Поэтому естественно «веса» c i взять обратно пропорциональным вероятностям. Как выбрать этот коэффициент?
К.Пирсон показал, что если положить , то при больших n закон распределения величины U обладает весьма простыми свойствами: он практически не зависит от функции распределения F (x ) и от числа опытов n , а зависит только от количества групп r , а именно, этот закон при увеличении n приближается к так называемому распределению «хи-квадрат» .
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:
Что будем делать с полученным материалом:
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях: