Полная версия

Главная arrow Статистика arrow Многомерный статистический анализ эколого-геохимических измерений. Ч.1. Математические основы

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Особенности применения статистического анализа экологогеохимической информации в случае малых выборок

Эколого-геохимическая оценка состояния окружающей среды часто проводится с использованием небольшого объема выборки. Основным фактором в данном случае являются дорогостоящие методы анализа. Рассмотрим возможность применения методов статистической обработки при небольшом объеме выборок для сопоставления результатов исследований химического состава солевых образований из посуды населенных пунктов Томской и Челябинской областей.

При построении статистических моделей предполагается, что выборочная совокупность удовлетворяет требованиям массовости (объем выборки п > 30), однородности (измерения выполнены одинаковым способом), случайности (непредсказуемость результата единичного выборочного измерения, объективность отбора проб) и независимости (независимости результата каждого измерения от времени и места измерения). В ходе выполнения эколого-геохимических исследований возникают ситуации, когда требования математической статистики не могут быть приняты безоговорочно. Так, например, в силу дороговизны метода анализа приходится мириться с нарушением первого требования, т. е. использовать малые выборки. В этом случае применение статистических методов должно базироваться на всестороннем анализе характера решаемой задачи, выборе наиболее эффективных статистических методов обработки измерений, методов статистических оценок и статистических критериев, менее чувствительных к объему выборки или учитывающих особенность малого объема выборки.

Статистический анализ эколого-геохимической информации в случае малых выборок проводят поэтапно:

I. Проверка гипотезы о законе распределения с применением совокупности всесторонних способов:

  • 1. Использование опыта геохимической практики [14]. Так, например, элементы с высокой концентрацией распределены по нормальному закону, а элементы с низкой концентрацией распределены по логарифмически нормальному закону.
  • 2. Графический способ придает выборке наглядную форму. Особенностью графического способа в случае малого объема выборки является не построение гистограммы, а сравнение выборочных плотностей частот f*, вычисленных по частотам nt делением их на я и на длину /-го интервала, с теоретической кривой плотности распределения. В геохимической практике большое значение имеет нормальный закон распределения. Таково распределение 7V(X,p,a) химических элементов с высокой концентрацией X. Для химических элементов с низкой концентрацией X следует проверить гипотезу о распределении случайной величины X по логарифмически нормальному закону, т. е. гипотезу о распределение случайной величины 1пХ по нормальному закону N(lnX, Xlj стД Вначале по выборочным данным вычисляют точечные несмещенные оценки математического ожидания и стандартного отклонения случайной величины и s - для р и а или aL и sL - для iL и oL), затем рассматривают интервал (a -3s, a +3$) для случайной величины X или (aL -3sL, aL +35^) для случайной величины 1пХ, в котором находится абсолютное большинство выборочных значений (« 99,73 %) нормально распределенной случайной величины. Данный интервал разбивают на к неравномерных интервалов, где число к определяется с учетом эмпирической формулы к = 1+ 4Ign [42]. Затем производят последовательную парную группировку элементов выборки по принципу наименьшего расстояния, когда два ближайших элемента выборки объединяют в группу, усредняя их значения для определения центра группы и т. д., пока не останется к групп. Внутренними границами интервалов выбирают значения средних арифметических центров соседних групп. Проиллюстрируем такой подход на примере выборки (А) содержания X химического элемента Sc в солевых отложениях населенного пункта Аргаяш Челябинской области (табл. 1.12).

Вычисляя точечные несмещенные оценки по формулам (1.16), (1.17)

при /1=7, получим а ^0,47 и s ^0,33. В данном случае к—1+4 Igl ^4,38, т. е. 4 < к < 5. В связи с этим рассмотрим два варианта дробления интервала выборочных значений («a -3s, a +3s) = (-0,53; 1,47) на к = 4 и 5 интервалов

Таблица Л .12

Содержание X химического элемента Sc в солевых отложениях из посуды с. Аргаяиг Челябинской области

Sc,

мг/кг

Номер пробы

1

2

3

4

5

6

7

X

0,26

0,27

0,29

0,38

0,38

0,52

1,2

1пХ

1,347

1,309

1,238

0,968

0,968

0,654

0,182

Построенные группированные распределения позволяют рассчитать выборочные плотности частот f* по соответствующим частотам щ, деля tit на и и на длину /-го интервала.

Сравнение взаимного расположение эмпирических плотностей частот в координатах (f*, х,-) с теоретическими кривыми плотностей распределения по нормальному (1.10) и логнормальному (1.11) законам отражено на рис. 1.19.

Взаимное расположение точечных эмпирических плотностей частот для случаев к = 4 и 5 в координатах

Рис. 1.19. Взаимное расположение точечных эмпирических плотностей частот для случаев к = 4 и 5 в координатах (f*, Xj) с теоретическими кривыми плотностей распределения по нормальному fy(x) (толстая кривая) и логнормальному fLN(x) (тонкая кривая) законам.

Таким образом, согласно графическому способу, можно предположить, что данная выборка (А) распределена скорее по логнормальному закону, чем по нормальному.

Гипотезу о распределении выборки (А) по нормальному закону можно отвергнуть на том основании, что в этом случае соответствующий нормальный закон N(x; 0,47; 0,33) приводит к возможности принять случайной величиной X отрицательное значение с вероятностью 0,08, что превышает принятый здесь уровень значимости а = 0,05. На рис. 1.19 затемненной заливкой выделены области отрицательных значений выборки (А).

Более строгим способом является аналитические критерии, рассматриваемые ниже.

  • 3. Аналитические способы сравнения числовых характеристик
  • (Справочник ..., 1987). В качестве критерия соответствия эмпирического распределения нормальному теоретическому используют отношения выборочных показателей асимметрии А и эксцесса Е за вычетом их смещений тА и тЕ соответственно к их стандартным отклонениям оА и аЕ соответственно (1.22): ti= (А - тА)/аА и t2=(E- тЕ)/<зЕ. Если эти отношения по абсолютной величине превышают 3, то гипотеза о нормальном распределении отвергается. Для нормального распределения вероятность того, что выборочное значение этих отношений будет отличаться от математического ожидания больше, чем на 3 стандартных отклонения, очень мала (<0,0027). Обычно ограничиваются асимптотическими оценками стандартных отклонений показателей асимметрии и эксцесса [4, 14, 30,41]:

Особенностью применения этого критерия в случае малых п является использование более точных оценок стандартных отклонений показателей асимметрии и эксцесса [4, 15, 28, 33]. Для точечных оценок показателей асимметрии А и эксцесса Е оценки стандартных отклонений показателей асимметрии и эксцесса имеют вид:

При этом сама оценка Е является смещенной. В работе [18] наряду со смещенными оценками приведены также и несмещенные А,Е:

Из вида смещенных и несмещенных оценок показателей асимметрии и эксцесса следуют формулы, связывающие несмещенные оценки А,Е со смещенными А и Е:

В случае малого объема выборки п смещенные и несмещенные оценки могут отличаться в несколько раз. Так, например, в случае выборки (А) вычисления по формулам (1.38) дают для смещенных оценок А » 1,39 и Е * 0,30, а по формулам (1.39) для несмещенных оценок А » 2,27 и ?« 5,39. Сравнение смещенных и несмещенных оценок показателей асимметрии, эксцесса и критерия соответствия эмпирического распределения нормальному теоретическому N(x; 0,47; 0,33) отражено в табл. 1.13.

Таблица 1.13

Проверка гипотезы о нормальном законе распределения Sc по смещенным и несмещенным оценкам показателей асимметрии А и эксцесса Е

Расчетные формулы

(1.37)

(1.38)

(1.39)

(1.37)

(1.38)

(1.39)

А

1,391

1,391

2,272

0,303

0,303

5,389

Е

сU

0,926

0,612

0,793

1,852

0,661

1,587

(Те

и

1,50

2,27

2,86

0,16

1,59

3,40

h

Как видно из табл. 1.13, различие в критериях ti и t2, вычисляемых по формулам (1.29) для смещенных оценок и по формулам (1.30) для несмещенных оценок, является существенным настолько, что приводит к разным выводам относительно соответствия эмпирического распределения нормальному теоретическому (для несмещенных оценок t2 = 3,396 > 3, т. е. распределение выборки (А) существенно отличается от нормального закона).

  • 4. Аналитические способы сравнения законов распределения [4,
  • 14, 25, 28, 30, 33, 42]. Применение наиболее распространенного критерия проверки гипотезы о соответствии эмпирического распределения теоретическому закону - критерия Пирсона (1.19) предполагает разделение выборочных данных на к интервалов. Число к определяется с учетом эмпирической формулы к = 1+4 Ign и требования критерия Пирсона к > 3, при этом предполагается, что в каждом интервале содержится не менее трех значений случайной величины [42]. Нарушение последнего требования в случае малого объема выборки п делает критерий Пирсона чувствительным к способам выбора к интервалов и порождает так называемые ошибки I (отвергается правильная гипотеза) и II (не отвергается неправильная гипотеза) родов.

В отличие от критерия Пирсона, основанного на сравнении эмпирических и теоретических частот, критерий Колмогорова - Смирнова (1.21) основан на сравнении накопленных частот.

В случае выборки (А) для варианта к = 4 промежуточные вычисления приведены в табл. 1.14, где, как принято в случае сравнения с нормальным законом распределения, границы крайних интервалов расширены до бесконечности оо.

Таблица 1.14

Проверка гипотезы о нормальном законе распределения Sc по критериям Пирсона и Колмогорова - Смирнова

к

№ группы

Центры

групп

ct+b,

Щ

Pi

zf

F,

Dt

4

1

0,2775

-ОО -г- 0,33

3

0,33

0,20

0,33

0,10

2

0,38

0,33 ч- 0,45

2

0,14

1,06

0,47

0,24

3

0,52

0,45 - 0,86

1

0,41

1,19

0,88

0,02

4

1,2

о

ОО

  • ?V
  • 8

1

0,12

0,02

1,00

0,00

В результате имеем х2 ^2,47 < 3,84 » Xo,o5;i > & ~ 0>24 < 0,48 » D0 05.7 . Таким образом, согласно критериям Пирсона и Колмогорова - Смирнова нет оснований отвергать гипотезу о том, что данный вариант выборки (А) распределен по нормальному закону. Аналогичным образом можно проверить гипотезу о распределении данного варианта выборки (А) по логнормальному закону, т. е. распределение логарифмов выборки (А) по нормальному закону.

Для исследования характера ошибок при проверке гипотезы о законе распределения (N - нормальный, LN - логнормальный) в случае малого объема выборки п применим критерии (1.19) и (1.21) к разным вариантам группировки выборки (А): к наряду с только что рассмотренным вариантом группировки выборки (А), т. е. вариантом частот (3211), также к вариантам частот (2311) и (1411) при к = 4, а при к = 5 к варианту (21211), и к аналогичным ему (12211) и (11311). Результаты исследования приведены в табл. 1.15.

Как следует из табл. 1.15, с учетом критических значений D0os;?» 0,48 и Х005& 1,36, согласно критерию Колмогорова - Смирнова независимо от способов группировки нет оснований отвергать обе гипотезы (о соответствии выборки (А) нормальному N и логнормальному LN законам), что соответствует ошибке II рода.

Таблица 1.15

Зависимость критериев Пирсона и Колмогорова - Смирнова от способов группировки выборки (А)

к

Варианты

х2

х2

d

d

групп

N

LN

N

LN

(3211)

2,47

U2

0,24

0,15

4

(2311)

5,3

2,1

0,26

0,18

(1411)

10,5

4,6

0,27

0,21

(21211)

3,2

и

0,24

0,15

5

(12211)

8,3

2,8

0,24

0,15

(11311)

7,8

2,8

0,26

0,18

При использовании х2 -критерия Пирсона для к = 4 с учетом критического значения Xo,o5;i ~ 3,84 в случае варианта (3211) обе гипотезы (о соответствии выборки (А) нормальному N и логнормальному LN законам) не отвергались (ошибка II рода); в случае варианта (2311) отвергалась гипотеза о нормальном N законе и не было оснований отвергать гипотезу о логнормальном LN законе (правильное решение); в случае варианта (1411) отвергались обе гипотезы (ошибка I рода).

При использовании х2 -критерия для к = 5 с учетом критического значения Хо,о5;2 ~ 6,0 в случае варианта (21211) обе гипотезы не отвергались (ошибка II рода), в случае вариантов (12211)и(11311) отвергалась гипотеза о нормальном N законе и не было оснований отвергать гипотезу о логнормальном LN законе (правильное решение). Таким образом, учитывая чувствительность критериев Пирсона и Колмогорова - Смирнова к способам группировки в случае выборки малого объема п, можно ограничиться в данном случае более скромным выводом о том, что для выборки (А) логнормальный закон предпочтительней, так как независимо от способа группировки все статистические значения критериев для N меньше соответствующих значений критериев для LN, а ведь именно значение статистического критерия характеризует меру отличия выборочного и теоретического законов распределения случайной величины.

II. Проверка гипотезы о равенстве средних на основе выбранного

закона распределения:

  • 1. Использование параметрических критериев [14, 30]. В случае нормальной модели используют критерии Фишера (1.23) и Стьюдента (1.24), (1.25).В случае логнормальной модели рекомендуется использовать критерий Родионова (1.26).
  • 2. Использование непараметрических критериев [4, 14]. Неопределенность с законом распределения предполагает использование непараметрических критериев, которые особенно полезны для малых выборок.

Непараметрическими альтернативами критериям Стьюдента и Родионова являются, например, критерии серий Вальда-Вольфовица, критерий Манна-Уитни, двухвыборочный критерий Колмогорова - Смирнова для независимых выборок или критерий знаков, критерий Вилкоксона для зависииых выборок [7].

При этом следует учитывать особенности применения непараметрических критериев.

Применим статистический анализ для установления значимости отличия средних по урану значений по четырем населенным пунктам Томской области (табл. 1.16).

Рассмотрим, например, распределение химического элемента U по двум населенным пунктам юга Томской области: с. Новониколаевка (Н) и с. Семеновка (С). Гипотезу о распределении соответствующих выборок (Н) и (С) по нормальному закону можно отвергнуть только на том основании, что в этом случае соответствующие нормальные законы N(:сн; 3,16; 4,04) и N(xcl 5,70; 5,86) приводят к возможности принятия случайной величиной X отрицательного значения с вероятностями 0.22 и 0.17 соответственно. На рис. 1.20 заливкой выделены области отрицательных значений выборок (Н) и (С).

Учитывая принадлежность U к элементам с низкой концентрацией, проверим гипотезу о распределении U по логнормальному закону. Графический способ проверки гипотезы о распределении выборок (Н) и (С) по логнормальному закону проиллюстрирован на рис. 1.21.

Содержание урана в солевых отложениях из посуды населенных пунктов юга Томской области

Таблица 1.16

Населенный пункт

пробы

и,

мг/кг

Среднее,

мг/кг

с. Новониколаевка

1

1,3

3,16

с. Новониколаевка

2

0,2

с. Новониколаевка

3

0,2

с. Новониколаевка

4

4,4

с. Новониколаевка

5

9,7

и. Комсомольск

1

1,6

0,48

и. Комсомольск

2

0,2

и. Комсомольск

3

0,2

и. Комсомольск

4

0,2

п. Комсомольск

5

0,2

с. Семёновка

1

0,2

5,70

с. Семёновка

2

3,3

с. Семёновка

3

12,0

с. Семёновка

4

12,0

с. Семёновка

5

1,0

с. Коломинские гривы

1

0,2

0,30

с. Коломинские гривы

2

0,2

с. Коломинские гривы

3

0,2

с. Коломинские гривы

4

0,2

с. Коломинские гривы

5

0,7

Графики функций f(x) плотностей нормального распределения N(x; 2,16; 4,04) и N(x; 5,70; 5,86), на фоне которых заливкой выделены области, в которых Р(Х

Рис. 1.20. Графики функций f(x) плотностей нормального распределения N(xH; 2,16; 4,04) и N(xс; 5,70; 5,86), на фоне которых заливкой выделены области, в которых Р(Х<0) = 0,22 и 0,17

Применение критерия Пирсона для выборок (Н) и (С) дает X# =0,085 и Хс=0Д41 соответственно, что меньше Ха,*-з=3>84 при а = 0,05 и к = 4. Таким образом, нет оснований отвергать гипотезу о соответствии выборок (Н) и (С) логнормальному распределению.

Эмпирические плотности частот в координатах (f*, Inx) на фоне теоретических кривых f(lnx) по нормальному закону N(lnx; 0,16; 1,77) для выборки (Н) и N(lnx; 0,91; 1,75) для выборки (С)

Рис. 1.21. Эмпирические плотности частот в координатах (f*, Inx) на фоне теоретических кривых f(lnx) по нормальному закону N(lnx; 0,16; 1,77) для выборки (Н) и N(lnx; 0,91; 1,75) для выборки (С)

Критерии, основанные на сравнении числовых характеристик в случае выборок (Н) и (С) дают отношения выборочных показателей асимметрии и эксцесса к их стандартным отклонениям, равные 1,27 и 2,25 для (Н) и 0,43 и 1,71 для (С). Во всех случаях эти отношения меньше 3, что также подтверждает выше сформулированный вывод.

Таким образом, по совокупности приведенных критериев нет оснований отвергать гипотезу о соответствии выборочных данных (Н) и (С) логнормальному распределению для уровня значимости а = 0,05.

Использование критерия Родионова в случае выборок (Н) и (С) дает по формуле (1.23) FHaбл= 1,02 < 6,4 = F(0,05; 4; 4) = FKp, т. е. нет оснований отвергать гипотезу о равенстве дисперсий, и, согласно (1.26), Г=0,68 < 1,86 = Г(0,05; 8) = Гкр, т. е. расхождения между выборочными значениями математических ожиданий тн и тс не являются значимыми.

В случае малых выборок (п < 10) точечную несмещенную оценку среднего квадратичного отклонения s можно заменить выборочным размахом со [41]:

При этом сам критерий для выборок равного объема принимает очень простой вид [18]:

В случае выборок (Н) и (С) критерий (1.31) дает тнабл = 0,09 < 0,246 = = ткр, т. е. нет оснований отвергать гипотезу о равенстве математических ожиданий ти и тс.

Аналогичным образом проведено сравнение других пар выборок табл. 1.16. Результаты сравнения выборки (Н) с выборками Км (с. Комсомольск) и Кл (с. Коломинские Гривы) приведены в табл. 1.17.

Таблица 1.17

Проверка гипотез о равенстве средних содержаний U в солевых отложениях из посуды населенных пунктов юга Томской области по критерию Родионова (сравнение тн с тс, т^ и тКм)

а

5

Енабл / Frp

Т_ / 7к„

^набл ! Го

Я

0,16

1,77

с

0,911

1,75

1,02/6.39

0,68/1,86

0,09 / 0,25

Кл

-1.91

0,87

4,12/6.39

2,35/1,86

0,36 / 0,25

Км

-1,75

1,24

2,03 / 6.39

1,98/1,86

0,29 / 0,25

Как следует из табл. 1.17, критерий проверки гипотезы о равенстве средних по формулам (1.26) и (1.40) приводит к выводу о значимом различии средних значений как по выборкам (Н) и (Км), так и по выборкам (Н) и (Кл).

Графическая иллюстрация значимости различий выборок (С), (Км) и (Кл) по отношению к выборке (Н) в координатах (s, а) и (со, а). Критическая для (Н) область затемнена

Рис. 1.22. Графическая иллюстрация значимости различий выборок (С), (Км) и (Кл) по отношению к выборке (Н) в координатах (s, а) и (со, а). Критическая для (Н) область затемнена

Единообразие критерия проверки гипотезы о равенстве средних при одинаковых объемах рассмотренных выборок позволяет использовать формулу (1.26) в координатах (5,а) или формулу (1. 40) в координатах (со,а) для геометрической иллюстрации полученных результатов.

Приравнивая выражение Г-критерия по формуле (1.26) к Ткр или выражение т-критерия по формуле (1. 40) к можно получить уравнения граничных линий (линии на рис. 1.22 - ветви гиперболы в координатах (a, s) или прямые линии в координатах (а, со)) критической области (затемненная область на рис. 1.22) в координатах (a, s) или в координатах (а, со) по отношению к оценкам числовых характеристик выборки (Н). Точками указаны соответствующие пары оценок числовых характеристик прочих выборок, тонкими линиями соответствующие изолинии.

Как видно из рис. 1.22, оценки числовых характеристик выборок (Км) и (Кл) попали в критическую область по отношению к (Н), а оценки (С) - нет. Причем, близость расположения точек (С), (Км) и (Кл) по отношению к граничной линии позволяет судить о запасе прочности значимости отличий этих выборок по отношению к выборке (Н).

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>