Полная версия

Главная arrow Статистика arrow Многомерный статистический анализ эколого-геохимических измерений. Ч.1. Математические основы

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Элементы математической статистики

Теоретической базой математической статистики [8, 16] является теория вероятностей, изучающая вероятностные закономерности массовых однородных случайных событий. Теория вероятностей изучает математические модели случайных явлений, при этом сама математическая модель остаётся заданной. В практических задачах характеристики математической модели, как правило, неизвестны, но имеются некоторые экспериментальные данные о событии или случайной величине. Требуется на основании этих данных построить подходящую теоретиковероятностную модель изучаемого явления. Это и является задачей математической статистики, обширного раздела современной математики.

Методы математической статистики [1-4, 11-13, 15, 17, 25-26, 28-32, 38, 40] широко применяются в различных отраслях естествознания.

Всё это предопределяет необходимость овладения методами математической статистики как инструментом статистического анализа и прогнозирования естественнонаучных явлений и процессов.

Выборочный метод

Полный набор всех возможных N значений дискретной случайной величины X называют генеральной совокупностью. Однако в реальных условиях нельзя рассчитывать на такую подробную информацию. Часть генеральной совокупности из п элементов, отобранных случайным образом, называется выборкой, при этом число п называют объемом выборки. Различают выборки малого объема {п < 30) и большого {и > 30).

Вначале на основе результатов эксперимента строят простой статистический ряд - таблицу, состоящую из двух строк, в первой - порядковый номер измерения, во второй - его результат:

Таблица 1.3

Простой статистический ряд случайной величины X

Для визуальной оценки распределения случайной величины производят группировку данных. Вначале xt располагают в порядке возрастания, затем интервал наблюдаемых значений случайной величины разбивают на к последовательных непересекающихся частичных интервалов х0 -гхь х 1 -г- х 2, ..xj-г- Xj+1,..., х к- -5- х к, далее подсчитывают частоты nj - количество х/, попавших в у’-ый интервал. Полученный таким образом группированный статистический ряд отражают таблицами вида

Таблица 1.4

Группированный статистический ряд частот nj случайной величины X

или, подсчитывая относительные частоты (1.1) р} = rij / п,

Таблица 1.5

Группированный статистический ряд относительных частот р} случайной величины X

или, определяя середину у-го интервала х j = xj - 0.5Ay, где А, = Xj -x7_i - длинау-го интервала, получим ряд распределения в виде

Таблица 1.5

Группированный статистический ряд относительных частот pj случайной величины X (с указанием середин интервалов)

При этом частоты /?, удовлетворяют условию 'У'*._Лр{ = 1.

Деля частоту pj на длину соответствующего интервала Ар получим таблицу плотностей частоты fi. Откладывая по оси абсцисс интервалы Хр -з- xj и надстраивая на каждом интервале, как на основании, прямоугольник высотой fj,то есть площадью pj, получим ступенчатую фи- гуру - гистограмму частот - статистический аналог кривой плотности распределения. Еще более точной оценкой кривой плотности распределения является полигон частот - ломаная, отрезки которой соединяют точки (Xj,fj). В итоге ряд распределения принимает вид

Таблица 1.6

Группированный статистический ряд плотностей частот f случайной величины X

Другим способом представления эмпирического закона распреде-

j j

ления являются накопленные частоты ^ А (или У"! А - накопленные

i=i i=i

относительные частоты):

Таблица 1.7

Группированный статистический ряд накопленных частот X

Накопленные относительные частоты порождают эмпирическую функцию распределения - оценку функции распределения дискретной случайной величины X, вычисляемую по формуле (1.2')

и являющуюся разрывной ступенчатой, равной нулю левее наименьшего наблюдаемого значения, испытывающей скачок величиной pj при переходе через левую границу у-го интервала и в итоге достигающей единицы правее наибольшего наблюдаемого значения.

Система STATISTIC А [6, 7, 39] позволяет по выборке микроэле-

j ./

мента (см. приложение 1) построить таблицу частот nh pj9 ^nt и ^р.

i=1 i=l

(например, для Ьаи см. табл. 1.8), а также нарисовать гистограммы частот (см. рис. 1.16).

Таблица 1.8

Частоты распределения содержания Ьаи

Интервалы

А

1

10,0 <х< 15,0

1

1

1,0989

1,0989

2

15,0 <х< 20,0

8

9

8,7912

9,8901

Интервалы

3

20,0 < л <25,0

19

28

20,8791

30,7692

4

25,0 <х<30,0

35

63

38,4615

69,2308

Интервалы

nj

5

30,0 < л <35,0

25

88

27,4725

96,7033

6

35,0 <*<40,0

2

90

2,1978

98,9011

7

40,0 <*<45,0

1

91

1,0989

100,0000

91

100,0000

j

Гистограммы частот tij и имеет вид (рис. 1.16):

/=1

Характеристики случайной величины, построенные на основании выборочных данных, называются выборочными или точечными оценками. Свойства случайной величины могут характеризоваться различными начальными и центральными моментами, вычисляемыми в случае дискретной случайной величины по формулам:

Начальный момент порядка К: ак = 'J'pc* р.

i

Центральный момент порядка К: = ^(х. - 0Ц) д.

I

Важнейшие из них - математическое ожидание М(Х) = тх и дисперсия D{X) = o1(X), где через а обозначено стандартное отклонение, - являются частными случаями моментов:

Выделяют также несмещенную выборочную дисперсию

Если выборочное математическое ожидание случайной величины дает нам «её среднее значение» или точку на координатной прямой, «вокруг которой разбросаны» значения рассматриваемой случайной величины, то выборочная дисперсия характеризует «степень разброса» значений случайной величины X.

Используются также оценки коэффициента асимметрии (1.8)

А = Щ- и коэффициента эксцесса (1.9) Е = Щ-- 3 как степени отклоне-

s s

ния полигона частот от плотности нормального распределения непрерывной случайной величины, для которой они равны нулю.

Система STATISTIC А позволяет по выборке микроэлемента вычислить точечные оценки, например, для Ьаи:

Таблица 1.9

Выборочные числовые характеристики распределения содержания ЬаИ.

91

27,02527

5,039656

-0,205849

0,082287

Выборочные числовые характеристики или точечные оценки случайной величины - приближенные значения параметров распределения. Чтобы охарактеризовать погрешность этих значений, нужно указать граничные значения, за которые не выходит оцениваемый параметр. Поскольку все расчёты производятся на основании случайных результатов опыта, то и граничные значения - также случайные величины. Таким образом, речь идёт о построении интервала со случайными границами, который с заданной вероятностью содержал бы неизвестное значение параметра распределения.

Для определения погрешности полученных значений используют интервальные оценки, применяя понятие «доверительного интервала» - интервала, внутри которого параметр, как ожидается, найдётся с некоторой доверительной вероятностью (надежностью) р. Иногда вместо р используют величину а, = 1 - р, называемую уровнем значимости.

Рассмотрим нахождение доверительного интервала для математического ожидания тх нормально распределенной случайной величины. Ширина 2г такого интервала -г, х +е), обладающего симметрией относительно х - выборочного значения тх, - находится из условия

причем сама вероятность Р(|х - х | < s) определяется законом распределения Стьюдента (1.13) со степенью свободы k=n - 1, если дисперсия неизвестна, а лишь подсчитано ее несмещенное значение s2: p = F,(xp;A;). По заданным р=/? и числу степеней свободы (ст. ев.) к калькулятор распределения вероятности распределения Стьюдента (см. рис. 1.13) позволяет найти соответствующее значение t—xр. Из условия хр = вyfn/s можно найти г = хрs/yfn . В результате можно построить

доверительный интервал (х - s, х + е), содержащий параметр тх с вероятностью Р согласно (1.18).

В случае с Ьаи при р = р = 0,95 имеем t = хр = 1,986675 (рис. 1.17).

Тогда 8 — 1,04955 и доверительный интервал (25,9757; 28,0748), содержащий параметр тх с вероятностью (надежностью) Р = 0,95. Иными словами, погрешность вычисления математического ожидания по приближенному значению х =27,02527 не превышает 8= 1,04956 при уровне значимости а = 0,05.

Величина sfyfn =0,5283 называется стандартной ошибкой X и равна 8 при хр = 1, чему соответствует не очень высокая надежность Р = 0,68 при к - 90.

Практически доверительный интервал (х - 8, х + е) можно построить с помощью точечных оценок распределения содержания Ьаи изтабл. 1.9 х =27,02527; ^ = 5,039656 и значения tр= 1,986675

(см. рис. 1.17), позволяющих рассчитать радиус доверительного интервала г = Хрs/yjn и, как следствие, его границы х + 8.

Доверительный интервал для т распределения La^

Рис. 1.17. Доверительный интервал для тх распределения La^

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>