Полная версия

Главная arrow Экология arrow Ключ к генетическому коду в структуре объединенных молекул воды

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

МЕТОДЫ АНАЛИЗА ДИСКРЕТНЫХ СТРУКТУР ГЕНЕТИЧЕСКОГО КОДА

Органический мир целостен, поскольку существование одних организмов зависит от других, но в то же время он дискретен, состоя из отдельных организмов [104]. Построения и выводы в современной математике выполняются, как правило, на непрерывном вещественном пространстве (континууме). Континуум (от лат. continuum - непрерывное) в математике, непрерывная совокупность всех точек отрезка, на прямой, или всех точек прямой, эквивалентная совокупности всех действительных чисел [11].

«Я говорю о непрерывности, - пишет Аристотель, - когда граница, по которой соприкасаются оба следующих друг за другом предмета, становятся для обоих одной и той же и, как показывает название, не прерывается...» [105]. Непрерывное по Аристотелю, - это то, что делится на части, всегда делимое. А это значит, что непрерывное не может быть составлено из неделимых.

Георг Кантор в своей работе, посвященной анализу математического континуума подчеркивал, что невозможно определить континуум, если исходить из представлений о времени или пространстве, потому что сами эти представления могут быть объяснены только с помощью понятия континуума, которое должно быть исходным и простым и не должно зависеть в своем содержании от других понятий [106].

Ни один интервал на прямой не является счетным множеством. Если мы возьмем числовую прямую, на которой нанесены начало и все рациональные точки (см. Рис.6.4), то основное положение, на котором покоится это применение, гласит: каждому рациональному или иррациональному числу отвечает точка, имеющая это число своей координатой, каждой точке на прямой отвечает в качестве координаты рациональное или иррациональное число.

Одномерная континуальная числовая ось не дает доказательного представления о N - мерном пространстве; нужны N-таких осей. И в то же время N дискретизированных числовых осей описывают «сеточное пространство» в котором потенциально доказуемы сущности и явления, имеющие место лишь в узлах «сетки», но не внутри её ячеек.

Числовая ось

Рис.6.4. Числовая ось

Если дискурсивная «сетка» вносит регулятивное начало во входной поток высказываний в рамках дедуктивной системы доказательств, то очевидно, часть высказываний будет упущена сквозь дыры «сеточной» дискретности, как упускаются рыбные мальки сквозь крупноячеистую рыбную сеть, предназначенную для крупной рыбы [107]. Итак, проблемой континуума является вопрос существования промежуточной мощности между счетной мощностью и мощностью континуума. Континуум - гипотеза утверждает, что такой мощности нет. Однако, математики доказали, что как существование такого множества, так и его отсутствие не противоречат остальным аксиомам теории множеств. Попытка разрешить противоречие непрерывности и дискретности в математике была предпринята Кантором (континуум гипотеза Кантора). Эту гипотезу не удалось доказать, но в настоящее время выяснена причина неудач. В соответствии с выводами П. Коэна: сама идея множественной, дискретной структуры континуума является ложной [108].

В настоящее время в «непрерывной» математике накоплено много контрпримеров и парадоксов, ставящих под сомнение использование такого искусственного бесконечного множества [109].

В последнее время для анализа сложных живых систем в биологии и генетике стали применяться новые прикладные методы и направления, такие как биометрия, вариационная статистика, биологическая статистика, биоматематика, компьютерная биометрия и др. Все они призваны осуществлять статистическую обработку результатов наблюдений и экспериментов с целью отделения закономерного от случайного, оценки разнообразных связей и зависимостей между биологическими явлениями, поиска причин, определения влияния фактора и т. д. Биометрия опирается на индуктивный подход, идущий от конкретных эмпирических данных и фактов к теоретическим обобщениям. В основе биометрии лежат такие разделы математики, как теория вероятностей и математическая статистика. Математические модели, основанные на теоретических обобщениях, с последующей проверкой моделей опытом относятся к дедуктивным подходам. Особая роль в процессе исследований и анализе генетической информации отводится математическому моделированию и машинному обучению

Методы машинного обучения находят в последнее время все более широкое практическое использование в биологии и генетике. Применяются алгоритмы, в основе которых используются индуктивный, дедуктивный, логический, системный и другие методы. Методы машинного обучения способны эффективно решать большой класс задач, включая нахождение скрытых зависимостей и закономерностей.

Американский ученый российского происхождения Пятецкий-Шапиро (род. В 1958 г. в Москве) отмечал, что в больших базах «сырых данных» можно с помощью специальных алгоритмов отыскать интересные зависимости.

В последнее время в результате таких исследований ученые стали находить новые полезные знания и ранее неизвестные закономерности. Со временем появилась возможность «обучать» и сам алгоритм, который затем может быть применен к новым наборам данных без дополнительных сложных вычислений. В качестве примера можно привести такую аналогию: представим, что входные параметры - это последовательность аминокислот, а результат - вторичная структура белка (а, (3, и т.д.), которая должна получиться. Все двадцать конфигураций аминокислот необходимо задать до начала процесса один единственный раз. Таким образом, смысл задачи - подобрать такой алгоритм, чтобы из любой последовательности аминокислот были в итоге получены структуры максимально соответствующие вторичной структуре белка.

Во многих биологических явлениях участвуют совокупности клеток, бактерий, популяций взаимодействующих между собой. Реализация событий в таких совокупностях может быть оценена вероятностями. Поэтому приложения статистических методов в биологии и генетике имеют большое значение.

Характерным свойством признаков биологических объектов является варьирование их значений в определенных пределах при переходе от одной единицы наблюдения к другой. Подобная особенность в статистике обозначается терминами вариация, дисперсия, вариабельность, рассеяние, разброс, изменчивость. Вариабельность обусловлена влиянием на изучаемые объекты многочисленных причин (генетические различия особей, влияние факторов среды). Кроме того, на величине признаков сказываются погрешности (ошибки) измерений.

Погрешности измерений принято делить на 2 группы:

  • 1. Систематические (смещение оценок) - неслучайные, постоянно повторяющиеся. Технические погрешности возникают: из-за неточности измерительных приборов и инструментов; личные: из-за личных качеств исследователя, его навыков и мастерства в работе.
  • 2. Случайные (неточность оценок) - возникают от целого ряда других, не поддающихся регулированию причин. Систематические ошибки можно значительно уменьшить, постоянно проверяя точность измерений. Случайные ошибки, как независимые от воли исследователя, остаются и влияют на результаты исследований, обусловливая определенную долю вариации биологических признаков. Биологические данные, пригодные для математической обработки, могут быть представлены в различной форме. В математической статистике различают три типа признаков:
  • 1. Количественные числовыми признаки, которые могут быть упорядочены, и для них возможны различные вычисления, например средних величин и показателей вариации. Количественные признаки делятся на счетные - варьируют прерывисто (дискретно), их числовые значения выражаются только целыми числами - и мерные - варьируют непрерывно, их величина может принимать в определенных пределах (от - до) любые числовые значения.
  • 2. Качественные признаки. Простейший способ перевода качественных данных в количественные - это подсчет числа единиц наблюдения (частота встречаемости), у которых отмечается тот или иной качественный признак. В дальнейшем это дает возможность обрабатывать подобные признаки с помощью количественных статистических методов.
  • 3. Порядковые признаки занимают промежуточное положение: их значения упорядочены, но не могут быть с уверенностью измерены и сопоставлены количественно. Они в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать, «на сколько больше» или «на сколько меньше». Для различных типов переменных применяются разные методы статистического анализа. При планировании исследований важно понимать, что порядковые или качественные данные можно статистически исследовать только с помощью непараметрических приемов, тогда как для количественных признаков можно использовать, кроме того, точные и высокоэффективные параметрические методы.

Биологи практически всегда вынуждены иметь дело с выборками, при этом от того, каким образом была взята выборка из генеральной совокупности, будет зависеть конечный результат исследования.

Для того чтобы лишь по части генеральной совокупности, которая изучена, можно было правильно судить о всей генеральной совокупности, выборка должна быть репрезентативной, иначе представительной. Репрезентативность выборки означает равную вероятность для всех единиц наблюдения генеральной совокупности быть представленными в составе выборки, другими словами, в выборке должны быть представлены все возможные варианты изучаемой переменной в тех же пропорциях, что и в генеральной совокупности. Для того, чтобы

при планировании исследований достичь равной возможности для всех единиц наблюдения попасть в выборку необходимо соблюдать принцип рандомизации (от англ, random - случай) - случайный отбор элементов из генеральной совокупности, исключающий систематические ошибки. К наиболее часто употребляемым в биологии и экологии способам формирования выборочных совокупностей относятся: I. Повторный отбор - производят по схеме возвращения учтенных единиц в генеральную совокупность, так что одна и та же единица может попасть в выборку повторно. Подобный отбор не влияет на состав генеральной совокупности, и возможность каждой единицы попасть в выборку не меняется. II. Бесповторный отбор - учтенные единицы не возвращаются в генеральную совокупность, каждая отобранная единица регистрируется только один раз. Этот отбор влияет на состав генеральной совокупности и возможность каждой единицы попасть в выборку меняется. Оба способа отбора (повторный и бесповторный) делятся на 2 типа:

  • 1. Отбор, не требующий расчленения генеральной совокупности на части, -простой случайный отбор - элементы извлекаются случайным образом непосредственно из генеральной совокупности. Независимо от исседователя, всегда имеется определенная вероятность того, что появится систематическая ошибка. На практике для осуществления случайного отбора применяют метод случайных чисел: для этого можно воспользоваться либо таблицами случайных чисел, либо соответствующими модулями (процедурами) в статистических программах. Простой случайный отбор имеет преимущества в тех случаях, когда объем генеральной совокупности не слишком велик.
  • 2. Отбор, при котором генеральная совокупность разбивается на части: А. Серийный отбор - генеральную совокупность предварительно делят на классы (серии), затем из общего количества серий случайным способом отбирают несколько серий для сплошного изучения. Подобный вариант отбора следует применять при работе с относительно однородными объектами исследования. Б. Типический отбор - генеральная совокупность делится на несколько классов (типических групп), а затем случайным образом делается выборка из каждой отдельной типической группы (т. е. в отличие от серийного отбора сплошного изучения каждой типической группы не производится). Используется этот способ с успехом в тех случаях, когда исследуемые объекты неравномерно распределены в определенном объеме. В. Механический отбор - генеральная совокупность «механически» делится на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирается один объект.

Математическая обработка собранных данных часто (но далеко не всегда!) начинается с построения так называемых статистических рядов, представляющих собой набор числовых значений признака, расположенных в определенном порядке.

Рассмотрим более подробно типы статистических рядов.

  • 1. Ранжированный ряд - одинарный ряд, в котором значения признака располагаются в возрастающем (или убывающем) порядке. Пример: 34342543345
  • 23333444455 - ранжированный ряд.

Значение ряда: можно определить размах изменчивости признака (от 2 до 5), наиболее часто встречающееся значение (3 и 4).

2. Вариационный ряд (ряд распределения) - двойной ряд чисел, отражающий соотношение ранжированных значений признака с частотой их встречаемости в данной выборке.

Пример: 23333444455 - ранжированный ряд,

по

2345 - значение признака, 1442 - частота встречаемости.

Значение ряда позволяет определить закономерность варьирования (закон распределения) изучаемого признака. В зависимости от того, в каком диапазоне и как варьирует признак - дискретно или непрерывно, - статистическая совокупность может распределяться в безынтервальный или интервальный вариационные ряды. Тип вариационного ряда можно определить по формуле:

X = xmax - xmin / к, где X - ширина классового интервала, х max; xmin -максимальное и минимальное значение выборки, к - число классов, на которые следует разбить вариацию признака, рассчитывается по формуле Стерджесса: k = 1 + 3.32 • lg(n), где п - объем выборки. Таким образом, если X = 1 или X ~ 1, то строится безынтервальный ряд, если X ф 1, то строится интервальный ряд. Если признак варьирует дискретно и в узких границах (X = 1 или X ~ 1), то строится безынтервальный вариационный ряд. Интервальный вариационный ряд применяется, если изучаемый признак изменяется непрерывно (X Ф 1) или значения дискретного признака, варьирующего в широких пределах, имеют малую повторяемость.

  • 3. Временной ряд (ряд динамики) - двойной ряд чисел, отражает варьирование изучаемого признака во времени.
  • 4. Эмпирический ряд регрессии - двойной ряд чисел, отражающий связь между значениями сопряженных признаков.

Для более полного описания выборочной совокупности используются специально разработанные статистические характеристики - средние значения и показатели вариации. При изучении биологических объектов расчет выборочных характеристик составляет основу первичной математической обработки данных. Необходимость определения средней величины какого-либо количественного признака обычно возникает тогда, когда исследователю предстоит сравнить между собой выборки по степени выраженности данного признака.

Средние величины принято разделять на степенные и структурные.

I. Степенные средние величины. Существует несколько видов степенных средних (средняя арифметическая, средняя геометрическая, средняя квадратичная, средняя кубическая), но в практике биологических исследований наибольшее значение имеет средняя арифметическая - величина, вокруг которой «концентрируются» отдельные значения признака.

1. Средняя арифметическая - это отношение суммы отдельных значений признака (Xi) в выборке к их числу (объему выборки, п). Если средняя арифметическая рассчитывается на основе данных выборки (выборочное среднее значение), то её обозначают символами с чертой наверху: --

X, у. п

- Xi+X2+X3+...+Xn Zi=i Xi

п п

Значение средней арифметической: - обладает способностью характеризовать целую группу однородных единиц наблюдения одним числом; - является центром вариационного распределения, вокруг которого группируются отдельные значения выборочной совокупности, взаимопогашаются и отметаются случайные колебания от центральной тенденции.

2. Средняя квадратическая - применяется для более точной характеристики мер площади, т. е. когда изучаются признаки, выраженные в единицах площади (см2,

м2), или для того, чтобы вычислить среднее арифметическое значение площади на основании замеров линейного показателя (диаметр), характеризующего эту площадь. Средняя квадратичная равняется корню квадратному из суммы квадратов отдельных значений признака, отнесенной к их общему числу (объему выборки).

  • 3. Средняя кубическая используется в качестве характеристики объемных признаков или для того, чтобы вычислить среднее арифметическое значение объема на основании замеров линейного показателя (диаметр), характеризующего этот объем.
  • 4. Средняя геометрическая - используется при исследовании средней скорости прироста какой-то величины с течением времени, характеризует процесс. Скорость прироста часто выражают в относительных величинах. Относительную скорость роста можно вычислить по формуле Ч. Майнота:

h ~ U

V =-100%

tl

- значения признака в начале и конце исследуемого отрезка времени. Если вычислены величины относительной скорости роста Vi, V2, V3 ... Vn для последовательных равных промежутков времени, то средняя относительная скорость роста (средняя геометрическая) для всего периода исследования вычисляется по следующей формуле:

Xg = V VrV2-V3...Vn.

II. Структурные (нестепенные) средние величины характеризуют структуру распределения признака.

  • 1. Медиана (Ме) - значение признака, относительно которого ранжированный ряд делится на 2 равные части: в обе стороны от медианы располагается Одинаковое число вариант.
  • 2. Мода (Мо) - значение признака, наиболее часто встречающееся в выборочной совокупности. Класс с наибольшей частотой называется модальным.
  • 3. Показатели вариации Средние величины не являются универсальными характеристиками варьирующих признаков. Вариацию признаков можно оценить с помощью следующих количественных характеристик:
  • 1. Лимиты (пределы вариации) - минимальное и максимальное значение признака в выборочной совокупности. Указывают границы варьирования признака. Обозначаются как lim.
  • 2. Размах вариации - разность между максимальным и минимальным значением признака. Обозначается буквой R. Чем сильнее варьирует признак, тем больше показатели пределов и размаха вариации, и наоборот. Однако применение этих 2-х показателей в биологии для оценки вариации признаков имеет ограниченное значение, поскольку они зачастую не отражают сам характер Варьирования признаков.

Пример: рассмотрим 2 выборочные совокупности:

Xi 100 110 120 130 140 150 160 170 180 190; X, = 145, lim = 100-190, R = 90 Х2: 100 145 145 145 145 145 145 145 145 190; Х2= 145, lim = 100-190, R = 90

Лимиты и размах вариации имеют одинаковые значения в обеих выборках, однако сам характер варьирования значений в каждой из выборок существенно различается. Если в первой выборке все варианты отличаются друг от друга, то во второй выборке из 10 вариант 8 имеют одинаковые значения. Таким образом, в первой выборке рассеяние вариант больше, чем во второй, но это никак не ска- зывается на лимитах и размахе вариации. Очевидно, чтобы преодолеть отмеченные недостатки, необходимо учитывать не только крайние значения признака (лимиты), но и все варианты в выборке. Наиболее рациональный путь заклюю-чается в определении отклонений каждого отдельного значения признака от средней величины: -

( X,- х)

затем все полученные отклонения можно просуммировать и разделить на объем выборки. В итоге мы получим некое среднее линейное отклонение, которое будет тем больше, чем значительнее каждая варианта будет отклоняться от среднего значения. Таким образом, с помощью этого показателя можно было бы сравнивать разные выборки по степени варьирования признака и одновременно учитывать внутренние черты вариации (степень отличия каждой варианты). Обратимся к предыдущему примеру и рассчитаем среднее линейное отклонение для каждой из выборок:

  • 1 - хО : -45 -35 -25 -15 -5 +5 +15 +25 +35 +45
  • (х; - х2): -45 0 0 0 0 0 0 0 0+45

Попытавшись просуммировать все полученные отклонения, мы натолкнемся на весьма существенное затруднение, которое легко будет увидеть, приступив к вычислению: сумма отклонений в обеих выборках будет равна 0. И это не случайная игра чисел - данное затруднение будет возникать всякий раз для любой другой выборки при суммировании отклонений вариант от средней арифметической. Один из математических приемов избавления от отрицательных значений полученных отклонений - возведение их в квадрат.

3. Дисперсия (а2, 82) - это отношение суммы квадратов отклонений отдельных значений признака от средней арифметической к объему выборки за вычетом единицы:

п — Е;=1(Х|-Х)2

Б2=-

П-1

В числителе данной формулы суммируются не отдельные отклонения, а квадраты отклонений - таким образом мы избавляемся от нулевой суммы:

  • (хі-Хі):-452 -352 -252 -152 -52 +52 +152 +252 +352 +452 (х,-х2): -452 О2 О2 О2 О2 О2 О2 О2 О2 +452
  • (Хі-хі): 2025 1225 625 225 25 25 225 625 1225 2025 X = 8250 (х—х2): 2025 0 00000 00 2025 ? = 4050
  • 8250 ? 4050

В итоге получаем: 82і=-= 916,7; 822 --- 450.

10-1 10-1

Как и следовало ожидать, при одинаковых значениях размаха вариации и лимитов вариабельность значений по показателю дисперсии в первой выборке оказалась выше, чем во второй выборке. Единственное, что не было отмечено в формуле дисперсии, - это находящаяся в знаменателе разность п - 1. Эта разность называется в статистике числом степеней свободы. Дело в том, что, когда исследователь рассчитывает дисперсию на основе выборки, взятой из генеральной совокупности (а это бывает, как правило, в большинстве случаев), получаемое выборочное значение дисперсии, строго говоря, оказывается заниженным (или, как говорят, смещенным) относительно реально существующей генеральной дисперсии, т. е. того значения дисперсии, которое могло бы быть получено, если бы исследователь использовал все значения признака из генеральной совокупности. Чтобы скорректировать существующее занижение дисперсии, получаемую сумму в числителе делят не на п, а на немного меньшее число — п — 1, что приводит к возрастанию величины дисперсии, рассчитанной на основе выборочных данных.

4. Среднее квадратическое (стандартное) отклонение (а, 8) - корень

квадратный из дисперсии. Если стандартное отклонение рассчитывается по выборочным данным, то используется обозначение Б, если на основе генеральной совокупности, то символ а (читается как «сигма»). Действительно, для избавления от квадратов отклонений прибегают к

действию, противоположному возведению в степень, т. е. извлекают квадратный корень. В итоге стандартное отклонение яв-ляется в ряде случаев более удобной характеристикой вариации признаков, поскольку измеряется в тех же единицах, что и исходные данные.

8,= V 916,7 =30,3; 82 = V 450 = 21,2

Таким образом, дисперсия и стандартное отклонение являются мерой Варьирования числовых значений признака вокруг их средней арифметической и одновременно отражают внутреннюю изменчивость значений признака, зависящую от разностей между отдельными значениями признака.

5.Коэффициент вариации (Су) - отношение стандартного отклонения к средней арифметической величине, выраженное в процентах:

Б

Су =-— • 100%

х

Варьирование считается слабым при Су < 10%, средним при Су - 11-25 %, сильным при Су > 25 % .

Значение коэффициента вариации, дисперсия и стандартное отклонение применимы для сравнительной оценки признаков, выраженных в одних и тех же единицах измерения.

Функция, связывающая значения случайного признака с их вероятностями, называется законом распределения признака. В зависимости от типа переменной выделяют дискретные и непрерывные законы распределения.

Из всего многообразия законов распределения кратко остановимся на наиболее значимых в практике биологических исследований - нормальном и биномиальном. Некоторые типы теоретических распределений случайной величины: непрерывные - нормальное, логнормальное, гамма-распределение, экспоненциальное, распределение Вейбулла; дискретные - биномиальное, распределение Пуассона, геометрическое, равномерное и др.

Нормальное распределение является наиболее характерным типом распределения непрерывных случайных величин, из него можно вывести (к нему сводятся) все остальные. Термин «нормальное распределение» введен в биологическую лексику Ф. Гальтоном в 1889 году. Однако ещё задолго до этого оно было хорошо известно математикам, которые это распределение часто называют законом Гаусса - Лапласа. Название распределения, конечно, не означает, что все другие законы распределения «ненормальные», или атипичные. Просто подобное распределение значений признака так часто встречается в самых различ-ных областях науки и практики, что первоначально принималось за «норму» случайного проявления признаков. Графически нормальное распределение выглядит как симметричная колоколообразная кривая. Основная закономерность при нормальном распределении значений признака заключается в том, что крайние значения (наибольшие и наименьшие) появляются редко, но чем ближе значения признака к центру (к средней арифметической), тем они чаще встречаются. Если взять такой признак, как человеческий рост, и построить распределение, то можно убедиться, что люди с неким средним ростом будут встречаться очень часто (центр распределения), а вероятность обнаружить людей с очень высоким (например, выше 2 м) или очень низким (например, менее 1 м) ростом будет значительно меньше (края распределения). Это означает, что человеческий рост - признак, подчиняющийся нормальному закону распределения. Важной особенностью нормального распределения является то, что форма и положение его графика определяется только 2 параметрами: средним значением признака и стандартным отклонением.

  • 1. Нормальная кривая приближается к оси абсцисс асимптотически, т. е. никогда не касаясь её.
  • 2. Все значения признака лежат в интервале плюс - минус бесконечность. Иными словами, с вероятностью Р = 1 мы вправе ожидать появление нового значения в пределах от -оо до +оо.
  • 3. Нормальная кривая имеет характерный изгиб по мере удаления от центра распределения
  • 4. Для нормального распределения характерно совпадение средней арифметической, моды и медианы.
  • 5. Площадь между стандартизованной нормальной кривой и осью абсцисс равна 1.

Таким образом, площадь под кривой интерпретируется как вероятность. Из этих

свойств вытекает важное следствие, получившее название правила 3-х сигм: отдельные значения любого признака, имеющего нормальное распределение, отклоняются от среднего значения (т. е. от центра распределения) с вероятностью

0.997 не более чем на 3 сигмы влево и вправо (±3а). И только с вероятностью 0.003 отдельное значение признака может не попасть в пределы интервала ±3а. Кроме того, из математической формулы нормального распределения, связывающей вероятность с нормированным отклонением, следует, что в границах от -1 до +1 всегда будет заключена постоянная вероятность на-хождения определенного значения признака. Так вот, в пределах ±1а (т. е. при 1=1) всегда отсекается 68.3% от общей площади фигуры под кривой нормального распределения. Это значит, что с вероятностью 0.683 значение случайной ве-личины попадет в интервал от -1а до +1о, а с вероятностью 0.317 (1 - 0.683) это значение может попасть за пределы данного интервала. Если интервал рас-ширить до ±2о (т. е. при 1 = 2), то отсекаться будет уже 95.4% от общей площади фигуры под кривой нормального распределения. Другими словами, в интервал от -2а до +2а наугад отобранная варианта попадет уже с вероятностью 0.954, и лишь с вероятностью 0.046 (1 — 0.954) она может не попасть в этот интервал. И, наконец, в пределах ±3а (т. е. при 1 = 3) заключено 99.7% от общей площади фигуры под кривой нормального распределения. Фактически можно утверждать (предсказать), что с вероятностью 0.997 все значения признака будут отклоняться от центра распределения (средней арифметической) на величину, не превышающую ±3 о. И лишь с вероятностью 0.003 (1 - 0.997) наугад отобранная варианта может не попасть в заданные границы.

Примечание. Нормальные распределения встречаются очень часто, когда некая величина отклоняется от средней под действием множества слабых, случайных, независимых друг от друга факторов, которые приводят к формированию симметричного распределения. Таким образом, нормальное распределение является моделью идеального равновесного состояния, не подверженного действию какого-либо одного специфического фактора.

Биномиальное распределение во многом близко к нормальному. Отличие состоит лишь в том, что оно характеризует поведение дискретных признаков, выраженных целыми числами. Таким образом, при биномиальном распределении проявляется та же самая закономерность, что и при нормальном распределении: чем ближе значения дискретного признака к центру распределения, тем выше вероятность их появления. Математически распределение называется биномиальным, если вероятности появления отдельных значений признака выражаются величинами, соответствующими коэффициентам разложения бинома Ньютона: (р + ц)к , где р - вероятность появления признака, я - вероятность непоявления признака, к - число классов, отличающихся по появлению признака. Коэффициенты при отдельных членах разложения бинома Ньютона при возведении его в разные степени будут следующими: (р + q) -р + я;(р + ч)2 = р2 + 2рц + я ;

(р + я)3 = р3 + Зр2 я + Зря2 + Я3? (Р + Я)4 = р4 + 4р3 я + 6р2 я 2 + 4ря3 + я4- Эти

коэффициенты можно легко получить с помощью треугольника Паскаля, в котором цифры каждого последующего ряда получаются путем сложения двух цифр ряда, расположенного над ним. В основе биномиального распределения лежит альтернативное проявление качественного признака: он может быть у единичного объекта или отсутствовать, проявиться или нет.

Закон Пуассона описывает редкие события (признаки), происходящие 1, 2, 3 и т. д. раз на сотни и тысячи обычных событий. Другими словами, события, вероятность р которых крайне мала, а я? соответственно, приближается к единице. Таким образом, распределение Пуассона можно рассматривать как предельный случай биномиального распределения. При р = я биномиальная кривая строго симметрична, при значительном уменьшении р биномиальная кривая становится асимметричной. В биологии закону Пуассона удовлетворяют редко наблюю-даемые явления: частота нарушений хромосомного аппарата на каждую тысячу митозов.

Логнормальное распределение, или логарифмически нормальное, характеризуется тем, что логарифмы исходных значений выборки образуют правильное нормальное распределение; распределение же исходных значений, как правило, умеренно смещено в правую сторону вариационной кривой. Эта модель подходит для описания таких показателей, как концентрации веществ в различных средах, гидрохимические, физиологические и биохимические характеристики.

Равномерное распределение характеризуется одинаковой частотой встречаемости всех значений дискретного признака (р = я для двух классов или р і = р2 = ... = р] ... = рк для нескольких классов). Такой тип распределения можно использовать при анализе частот генов.

Гамма-распределение используется для описания распределения атмосферных осадков, аэрозолей, химических веществ в почве, стоке, численности некоторых видов норных животных. После описания некоторых законов распределения осталось понять, зачем биологу необходимо знать, какому закону соответствует распределение изучаемых или контролируемых признаков и показателей в процессе исследования. Эта задача внешне кажется вспомогательной, поскольку само по себе оценивание закона распределения не имеет большого практического смысла. С другой стороны, эта операция может дать исследователю некоторую важную информацию о состоянии экосистемы или популяции вида, о Действии в экосистеме некоторых экстремальных факторов, указать на определенную тенденцию в направлении естественного отбора. Например, сильный положительный эксцесс в распределении жизненно важных признаков популяции может указывать на ужесточение стабилизирующего отбора, а асимметричное отклонение от нормального распределения - на смену стабилизирующего отбора на движущий. Кроме того, резко асимметричное распределение какого-либо признака может свидетельствовать о влиянии на признак неизвестного лимитирующего фактора, приводящего к подобному смещению. При этом сделать вывод о том, что это за фактор из анализа закона распределения будет, конечно, проблематично. Более важным приложением практических навыков исследователя определять тип распределения является корректное применение большинства методов математической статистики. Зная тип распределения, можно воспользоваться разработанными специально для него приемами математической обработки и получить максимальную, а главное, достоверную информацию о явлении, сделать более точный прогноз, правильнее оценить различия между параметрами разных выборок. В большинстве случаев исследователю перед применением конкретного метода математической обработки данных достаточно ответить на вопрос: отличается ли распределение изучаемого показателя от нормального теоретического (в случае дискретных признаков от биномиального) или нет? Если распределение нормальное или близкое к нормальному, то необходимо применять точные и высокоэффективные параметрические методы. Если распределение сильно отклоняется от нормального, то пользоваться параметрическими методами неправомерно. В этом случае корректным будет использование непараметрических методов анализа. Используя параметрические статистические методы для описания непрерывных признаков, нужно быть уверенным, что они действительно подчиняются нормальному закону, а в случае дискретных признаков - биномиальному.

Основной целью выборочного метода исследования является оценка генеральной совокупности на основе известных характеристик выборки, представляющей лишь часть этой совокупности. Числовые показатели, характеризующие генеральную совокупность, называют генеральными параметрами, а статистические показатели, характеризующие выборку, - выборочными характеристиками. Наиболее часто в биологии используется понятие «стандартная ошибка среднего значения».

  • 1. Стандартная ошибка по своей природе является не ошибкой измерения, а статистической ошибкой, неизбежно возникающей при отборе выборок из генеральной совокупности и, соответственно, связанной с перенесением результатов, полученных при изучении вы-борки, на всю генеральную совокупность. При этом очевидно, что ошибки измерения могут увеличивать стандартную ошибку. Также следует понимать, что определять величину ошибок репрезентативности требуется только для выборочных характеристик, генеральные параметры не имеют стандартных ошибок.
  • 2. Расчет стандартной ошибки фактически совпадает с вычислением стандартного отклонения, произведенного для выборки. Поэтому стандартная ошибка не что иное, как стандартное отклонение множества случайных выборочных средних от истинной генеральной средней [112].
 
<<   СОДЕРЖАНИЕ   >>