Полная версия

Главная arrow Статистика arrow Многомерный статистический анализ эколого-геохимических измерений. Ч.1. Математические основы

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Метод главных компонент

Метод главных компонент является обобщением корреляционнорегрессионного анализа на случай системы многих случайных величин иХ2, ..., Хп) =ХТ с наблюдаемыми значениями для компоненты X/.уЬ Xj2, Хуя}, среди которых не все являются линейно независимыми друг относительно друга. Если существуют зависимые между собой (коррелированные) величины, то их можно исключить переходом к новым «главным» и «некоррелированным» переменным величинам {Ul9...,Um} = U m

На простейшем примере системы двух случайных величин зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая

переменная будет включать в себя наиболее существенные черты обеих переменных. Фактически, происходит сокращение числа переменных и замена двух одной. Отметим, что новая переменная (фактор) в действительности является линейной комбинацией двух исходных переменных.

Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею анализа главных компонент. Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе. В том случае, когда имеются три коррелированные переменные, можно построить 3-х мерную диаграмму рассеяния точно так же, как в случае двух переменных плоскую диаграмму рассеяния. Снова можно построить прямую регрессии, но уже в трехмерном пространстве. Для случая более трех переменных становится невозможным представить точки на диаграмме рассеяния, однако логика вращения осей с целью максимизации дисперсии нового фактора остается прежней.

После того, как вы нашли линию, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных, на основании которого повторяется процедура выделения направления максимальной остаточной дисперсии. В анализе главных компонент именно так и делается: после того, как первый фактор выделен, то есть после того, как первая линия проведена, определяется следующая линия, максимизирующая остаточную вариацию (разброс данных вокруг первой прямой), и т. д. Таким образом, последовательно выделяются факторы, один за другим. Так как каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, то факторы оказываются независимыми друг от друга, то есть, некоррелированными или ортогональными. Результатом будет новый факторный набор

переменных (главных компонент ?//, i = l,m,), которые являются некоррелирующими и линейными комбинациями первоначальных переменных^, j = ,п (т<п).

В основном процедура выделения главных компонент подобна вращению, максимизирующему дисперсию (варимакс) исходного пространства переменных. Например, на диаграмме рассеяния можно рассматривать прямую регрессии как новую (факторную) ось. Этот тип вращения называется вращением, максимизирующим дисперсию, так как цель вращения заключается в максимизации дисперсии (изменчивости) новой переменной (фактора) и минимизации разброса вокруг нее. Новый набор т факторных осей, проходящих через центр облака точек исходного п-мерного пространства, получен в пространстве меньшей размерности (т<п). Этот метод применяется к данным в векторном пространстве переменных и наблюдений {х7/}, j = l,n, l = l,N, и находит прямые линии, которые лучше всего соответствуют облаку N точек наблюдений в л-мерном векторном пространстве переменных.

Математически вычисление факторов в основном состоит в диа- гонализации симметричной матрицы: матрицы корреляций или ковариаций, в зависимости от того, нужно ли данные стандартизировать или центрировать относительно средних значений. Геометрически цель состоит в том, чтобы получить набор ортогональных факторных векторов, где каждый вектор образует прямую линию в векторном пространстве исходных переменных. Эти векторы называются осями факторов и в дальнейшем используются для вычисления факторных координат точек наблюдений, что позволяет классифицировать наблюдения по категориям.

Математические основы метода главных компонент оформим аналогично методу канонических корреляций (п. 1.2.5.). Пусть имеются исходная многомерная случайная величина Х= {Х, Х2, ..., Xn}J с нулевыми математическими ожиданиями М[Х] = 0 и ковариационной матрицей С,=М[ХХТ]9 на основе которой строятся новые случайные величины

п

в виде линейных комбинаций U = ^JciiXiТА с нулевыми математи-

/=1

ческими ожиданиями и дисперсиями, достигающими максимальных значений. Здесь Ат =ь а2, ..., ап} - неизвестные параметры.

Задача метода заключается в нахождении таких U, что

По условию задачи, переменная U должна обладать максимальной дисперсией. Чтобы решение задачи было единственным, необходимо наложить дополнительные ограничения, например, ортонормирован- ность вектора коэффициентов А:

Данная задача условного экстремума решается с помощью метода неопределенных множителей Лагранжа. Для того чтобы АТСА достигало максимума, необходимо определить А из условия экстремума соответствующей функции Лагранжа

где X - неизвестный коэффициент Лагранжа.

Находя частные производные от функции Лагранжа по компонентам вектора Ат и приравнивая их нулю, получаем матричное уравнение

Последнее равенство определяет задачу на собственные значения (числа) и собственные векторы матрицы ковариаций С. Причем из него следует D[U]= А1 С А =1.

Таким образом, задача определения максимальной D[U] сведена к задаче определения максимального собственного значения матрицы С. Последнее означает, что для того, чтобы достичь максимума дисперсии, необходимо найти все собственные числа матрицы ковариаций С и выбрать максимальное. Условие нетривиальности решения задачи на собственные векторы (вырожденность соответствующей матрицы)

приводит к алгебраическому уравнению п-то порядка относительно собственного значения X. Таким образом, получаем п собственных чисел

При этом каждому собственному значению (числу) Хк (к = 1,п) соответствует собственный вектор Ак = {а&, / = 1,я},

п

который образует Uk = ^akiXi.

/=1

С учетом упорядоченности собственных чисел первое собственное

п

значение Х достигает максимальное значение дисперсии Ux =^aliXi.

/=i

Второе и последующие собственные числа Xк определяют соответст-

п

вующие линейные комбинации Uk = ^iakiXi, не коррелированные с

i=l

предыдущими линейными комбинациями и имеющие следующие по величине дисперсии (D[Uk]=Xk).

После нахождения всех компонент Uk (к = ,п) задаемся вопросом, какие из них главные, так как их число существенно меньше исходной размерности матрицы ковариаций: т<п. Принято, что главные компоненты должны объяснять не менее 80 % суммарной дисперсии признаков:

Заметим, что, так как единицы измерения разных исходных Xj (j = l,w) могут различаться, вместо ковариационной матрицы лучше

использовать корреляционную. Выкладки будут теми же, только собственные числа и векторы будут уже находиться по корреляционной матрице.

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>