Полная версия

Главная arrow Статистика arrow Многомерный статистический анализ эколого-геохимических измерений. Ч.1. Математические основы

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Проверка статистических гипотез

Во многих случаях результаты наблюдений используются для проверки предположений (гипотез) относительно тех или иных свойств распределения случайной величины. В частности, такого рода задачи возникают при сравнении методов обработки по определённым измеряемым признакам и т. д.

К основным задачам математической статистики относится статистическая проверка гипотез о законах распределения и о параметрах распределения случайной величины. При исследовании различных случайных величин на определённом его этапе появляется возможность выдвинуть ту или иную гипотезу о свойствах изучаемой величины, например, сделать предположение о законе распределения её, или, если закон распределения известен, но неизвестен его параметр, то сделать предположение о его значении. Наиболее правдоподобную по каким-то соображениям гипотезу называют нулевой (основной) и обозначают Щ. Наряду с основной гипотезой рассматривают другую (альтернативную) гипотезу Н, противоречащую основной. Выдвинутая нулевая гипотеза нуждается в дальнейшей проверке. При этом могут быть допущены ошибки двух типов:

  • • ошибка первого рода - отвергнута правильная гипотеза,
  • • ошибка второго рода - принята неправильная гипотеза.

Вероятность совершить ошибку первого рода (вероятность отвергнуть правильную гипотезу) обычно обозначают а и называют уровнем значимости. Случайную величину Z, служащую для проверки гипотезы, называют критерием. Совокупность значений критерия, при которых нулевую гипотезу отвергают, называют критической областью. Граничные точки критической области zkp называют критическими точками. Различают три вида критической области:

  • • правосторонняя, определяемая неравенством Z > zkp > 0;
  • • левосторонняя, определяемая неравенством Z < zkp < 0;
  • • двусторонняя, определяемая неравенством Z < z < Zi < Z. В частности, если критические точки симметричны относительно нуля, то двусторонняя критическая область имеет вид | Z | > zkp > 0.

При отыскании критической области задаются уровнем значимости а и ищут критические точки, исходя из требования, чтобы вероятность того, что критерий Z примет значения, лежащие в критической области, была равна принятому уровню значимости. В результате получаем

  • • для правосторонней критической области P{Z > zKp)= а;
  • • для левосторонней критической области P(Z < гкр)= а;
  • • для двусторонней симметричной области P{Z > zKp)= ot/2.

Основной принцип статистической проверки гипотез заключается в

следующем: если наблюдаемое значение критерия ZHa6jI, вычисленное по данным выборки, принадлежит критической области, то гипотезу отвергают; если наблюдаемое значение не принадлежит критической области, то нет оснований отвергать гипотезу.

Для многих критериев Z с учетом законов их распределения калькулятор распределения вероятности системы STATISTIC А позволяет по а найти критические точки zKp и наоборот (определить уровень значимости а значения критерия Z). Степень значимости отличия сравниваемых законов распределения или параметров распределения качественно определяется по уровню значимости (Боровиков, 2003): не значимые (а > 0,100), слабо значимые (0,100 > а > 0,050), статистически значимые (0,050 > а > 0,010), сильно значимые (0,010 > а > 0,001), высоко значимые (0,001 > а). Рассмотрим проверку гипотезы о законе распределении.

Пусть дана выборка наблюдений случайной величиныX: [xh хъ хп}. Проверяется гипотеза Н0, утверждающая, что X имеет функцию распределения F{x) или плотность распределения fix). По выборке наблюдений находят оценки неизвестных параметров (если таковые есть) предполагаемого закона распределения случайной величины X. Далее, интервал Q возможных значений случайной величины X разбивается на А: непересекающихся подынтервалов Q/ = («/, Ы), i = l,2,...,к - п. Число к определяется с учетом эмпирической формулы к = 1 +4lg{n). Пусть #1/ - число элементов выборки, принадлежащих подынтервалу Q,. Оче-

к

видно, что = п. Используя предполагаемый закон распределения

1=1

случайной величины X, находят вероятности pt того, что значение X принадлежит подинтервалу Q,-:

Далее вычисляют наблюденное статистическое значение критерия по формуле

По теореме Пирсона величина %2Н должна быть распределена (при условии minj^.} > 5) по закону (1.12) %2 (см. рис. 1-9, 1.10) с к- L - 1

степенями свободы, где L - число неизвестных параметров распределения, оцениваемых по выборке, а сам критерий проверки гипотезы о соответствии эмпирического распределения теоретическому закону носит название критерия Пирсона.

При заданном уровне значимости а гипотезу о распределении X по закону F(x) отвергают, если %2Н > у? , и нет оснований отвергать, если

Хя < ХкР » гДе ХкР определяется с помощью калькулятора распределения вероятности (см. рис. 1.11) по законуу2 с к-L- 1 степенями свобо- ды так, чтобы Р(х2н > %2кр) = а .

С учетом чувствительности критерия Пирсона к разбиению выборки на к интервалов можно а(А:) вычислять, например, по интерполяционной формуле Лагранжа для N целочисленных точек kj, ближайших к значению к, = 1 +4lg{n):

где aj = a(kj) вычисляется системой STATISTICA.

Наряду с критерием Пирсона, основанным на сравнении эмпирических и теоретических частот, применяется также критерий Колмогорова - Смирнова, основанный на сравнении накопленных частот. В случае критерия Колмогорова - Смирнова уровень значимости a K-s рассчитывался приближенно (для 0,01 < а < 0,2 и п> 10) по формуле [4]

Здесь D - статистическое значение критерия Колмогорова - Смирнова [25],

вычисляемое по формуле d = maxd? = max F * -F , где F* = V— - вы-

1 1 mW

борочная функция распределения (накопленные частоты), вычисленная

с учётом найденных выше частот ni, a FJ=^jpi - теоретическая функ-

/=1

ция распределения, вычисленная с учетом найденных выше pt [25].

В качестве критерия соответствия эмпирического распределения теоретическому нормальному закону распределения используют также отношения коэффициентов асимметрии А и эксцесса Е к их стандартным отклонениям ст~ и <з~ соответственно:

А Е

Если эти отношения по абсолютной величине превышают 3, то гипотеза о нормальном распределении отвергается.

Рассмотрим гипотезы о параметрах нормального или логнормального распределения. Пусть имеются две серии опытов, регистрирующих значения некоторой случайной величины и определяющие две выборки объемов пхи nY.

Рассмотрим сравнение двух дисперсий.

Рассмотрим тестирование гипотезы Щ о равенстве дисперсий Dx=Dy при неизвестных математических ожиданиях. Пусть даны две случайные величины X и У, распределенные по нормальному закону. По данным выборок объёмом пх и nY соответственно подсчитаны исправленные выборочные дисперсии s2x и s2. Требуется при заданном

уровне значимости а проверить нулевую гипотезу, состоящую в том, что DX=DY. Такая задача возникает при сравнении точности двух приборов, при сравнении различных методов измерений. Обычно выборочные дисперсии оказываются различными. Возникает вопрос: существенно или нет они различаются? Если различие незначимо, то принимается нулевая гипотеза, следовательно, методы имеют одинаковую точность, а различие эмпирических дисперсий объясняется случайными причинами, в частности случайным отбором объектов выборки.

По данным выборок объёмом пхи nY вычисляют наблюденное статистическое значение критерия FH, как отношение большей дисперсии к меньшей.

Критическая область строится в зависимости от вида конкурирующей гипотезы Н следующим образом: с помощью калькулятора распределения вероятности (см. рис. 1.14) по закону распределения Фишера по заданному уровню значимости ос и вычисленным степеням свободы кх и к2 находят FKp(a, къ к2) для Нх: Dx > DY или FKp(a/2, kh к2) для Нх: Dx *DY. Если Fh > FKp, то Щ отвергают, а при FH < FKp нет оснований отвергать Но.

Величина F удовлетворяет распределению (1.14) Фишера (см. рис. 1.13-1.15) со степенями свободы: кх, определенной разностью объема выборки с большей дисперсией и единицы, и къ определенной разностью объема выборки с меньшей дисперсией и единицы.

Рассмотрим сравнение математических ожиданий.

Для проверки подобия выборок (соответствия их распределению одной и той же случайной величины) рассмотрим вопрос о значимости расхождения между выборочными значениями математических ожиданий х и у: выдвинем в качестве Щ равенство математических ожиданий mx=mY. Тестирование такой гипотезы основано на нормальном (1.10) распределении (см. рис. 1.4, 1.5) в случае большого объема выборок (и > 30), когда дисперсии считаются известными, и на распределении (1.13) Стьюдента (см. рис. 1.12) в случае малых выборок < 30), когда дисперсии считаются неизвестными.

Рассмотрим первый случай. Для того чтобы проверить нулевую гипотезу Но: mx=mY о равенстве математических ожиданий двух больших нормальных выборок с известными дисперсиями Dx и DY, надо вычислить наблюденное значение критерия

Далее следует построить критическую область в зависимости от конкурирующей гипотезы следующим образом.

При заданном уровне значимости а и конкурирующей гипотезе Нх: тх *mY (двусторонняя критическая область) или Нх: тх > mY{mx Y)

(односторонняя) с помощью калькулятора распределения вероятности (см. рис. 1.6) по нормальному закону найти критическую точку zKp.

Если | Z# | < zKp, то нет оснований отвергать нулевую гипотезу.

Если | Z# | > zKp, то нулевую гипотезу отвергают.

Рассмотрим второй случай. Пусть имеются две выборки объёмов пх и я у, на основании которых подсчитаны выборочные значения математических ожиданий х и у и исправленные выборочные дисперсии 2 2

sx и Sy. Для того чтобы при заданном уровне значимости а проверить

нулевую гипотезу Щ: mx=mY о равенстве математических ожиданий двух малых нормальных выборок с неизвестными дисперсиями Dx и DY, надо предварительно проверить гипотезу о равенстве дисперсий (1.23) по подсчитанным исправленным выборочным дисперсиям s2x и s2, Если не будет оснований отвергать гипотезу о равенстве дисперсий, то есть дисперсии хотя и неизвестны, но предполагаются одинаковыми, то надо вычислить наблюденное значение критерия

Затем построить критическую область в зависимости от конкурирующей гипотезы следующим образом.

При конкурирующей гипотезе Н. тх ^ mY (двусторонняя критическая область) или Н тх > mY{mx < mY) (односторонняя критическая область) с помощью калькулятора распределения вероятности (1.13) Стьюдента (см. рис. 1.1) по заданному уровню значимости и числу степеней свободы к=пх+ nY-2 найти критическую точку *кр.

Если | Тн | < *кр, то нет оснований отвергать нулевую гипотезу.

Если | Тн | > *кр, то нулевую гипотезу отвергают.

Вернемся ко второму случаю и рассмотрим далее второй вариант, когда гипотеза о равенстве дисперсий (1.23) отвергается. Пусть имеются две выборки объёмов пхи и у, на основании которых подсчитаны выборочные значения математических ожиданий х и у и исправленные выборочные дисперсии si и s2. Для того, чтобы при заданном уровне значимости а проверить нулевую гипотезу Щ: mx=mY о равенстве математических ожиданий двух малых нормальных выборок с неизвестными дисперсиями Dx и DY, надо предварительно проверить гипотезу о равенстве дисперсий (1.23) по подсчитанным исправленным выборочным дисперсиям si и s2. Пусть гипотеза о равенстве дисперсий отвергается, то есть дисперсии хотя и неизвестны, но предполагаются разными. Тестирование такой гипотезы Щ: mx=mY основано на распределении (1.13) Стьюдента с числом степеней свободы к:

В этом случае вычисляют наблюдаемое значение критерия по формуле

Затем строят критическую область в зависимости от конкурирующей гипотезы следующим образом:

При конкурирующей гипотезе Н. тх ^mY (двусторонняя критическая область) или Н тх > mY{mx < mY) (односторонняя критическая область) с помощью калькулятора распределения вероятности (1.13) Стьюдента (см. рис. 1.1) по заданному уровню значимости и числу степеней свободы к найти критическую точку fKp.

Если | Тн | < *кр, то нет оснований отвергать нулевую гипотезу.

Если | Тн | > tKp, то нулевую гипотезу отвергают.

В случае логнормальной (1.11) модели (см. рис. 1.7) рекомендуется использовать критерий Родионова (уровень значимости aR). Вначале при заданном уровне значимости а предварительно проверяется гипотеза о равенстве дисперсий по F-критерию Фишера (1.23). Если не будет оснований отвергать гипотезу о равенстве дисперсий, то далее надо рассчитать значение критерия Стьюдента

а критическое значение Гкр = Г(а, к) найти с помощью калькулятора распределения (1.13) вероятности Стьюдента (см. рис. 1.1) по заданному уровню значимости а и числу степеней свободы к = пх + пу - 2. Если гипотеза о равенстве дисперсий отвергается, то тестирование основной гипотезы основано на нормальном (1.10) распределении 7V(z,0,1) случайной величины Z:

В случае неопределенности с законом распределения следует применять непараметрические критерии, которые особенно полезны для малых выборок.

Рассмотрим в качестве примера {/-критерий Манна-Уитни для проверки гипотезы Но об однородности двух выборок, представляющий непараметрическую альтернативу {-критерию Стьюдента для независимых выборок. {/-критерий Манна-Уитни предполагает, что все значения двух выборок случайных величин XnY объемов пит, соответственно, ранжируются, то есть записываются в один ряд в порядке возрастания. После этого каждый элемент выборок характеризуется рангом - порядковым номером каждого элемента выборок в общем ранжированном ряду из обеих выборок. Наблюденное значение критерия U вычисляется по формуле

где W - значение критерия Уилкоксона, численно равное сумме рангов элементов второй выборки (объема т) в общем ранжированном ряду, а 5у равно 1, если Xt< Yh и 0 в противном случае.

Таким образом, U-критерий подсчитывает общее число тех случаев, в которых элементы второй выборки превосходят элементы первой выборки.

Распределение случайной величины U асимптотически нормально с параметрами M[U] = nm/2 и D[U] = пт{п+т+Х)/2, чем и пользуются на практике, если тт{ц,ш}>25, для определения критического значения UKp(a,n,m), соответствующего заданному уровню значимости а. Для случаев, когда пит <25, пользуются специальными таблицами [4, 14].

Проверка гипотезы о равенстве средних, определенных по двум выборкам объёмов п и п2, с помощью ^-критерия Ван-дер-Вардена начинается с того, что все значения по обеим выборкам ранжируются, то есть записываются в один ряд в порядке возрастания. Х-критерий представляет собой случайную величину

где i - порядковый номер каждого значения второй выборки в общем ряду; |/ - функция, обратная функции нормального распределения, вычисляется с помощью калькулятора распределения вероятности по нормальному закону (см. рис. 1.6).

Вычисленное значение критерия Хн сравнивается с Хкр, определенным по специальным таблицам для заданного уровня значимости и объемов выборок [4, 14]. Если ХНкр, то гипотеза о равенстве выборочных средних отвергается.

При этом следует учитывать особенности применения непараметрических критериев, например, ранговый Х-критерий Ван - дер - Вардена [14] рекомендуется применять, если предполагается, что наблюдения близко следуют нормальному закону [8]; статистическим {/-критерием Манна-Уитни [7] для проверки гипотезы об однородности двух выборок X и Y объемов пх и пу следует пользоваться на практике, если только тт{пх,пу}>25 [8]; критерии серий Вальда-Вольфовица предполагает, что рассматриваемые переменные являются непрерывными и измерены в порядковой шкале [7]. Заметим, что двухвыборочный критерий Колмогорова-Смирнова (уровень значимости a 2K-s)> основанный на сравнении эмпирических функций распределения двух выборок и проверяющий гипотезу однородности двух выборок [7], является чувствительным как к различию в положении двух выборок, так и к различию общих форм распределений двух выборок (в частности, различия в рассеянии, асимметрии и т. д.).

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>