Полная версия

Главная arrow Психология arrow Математические методы в психологии

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Методика факторного анализа

Рассмотрим методику факторного анализа с использованием метода главных компонент и проиллюстрируем ее примером.

Алгоритм проведения факторного анализа

Выбираются переменные для анализа. Первое требование к исходным данным - это их представление в интервальной шкале или шкале отношений. Недопустимы функциональные зависимости между переменными и корреляции, близкие к единице. Желательно иметь в три раза больше объектов, чем признаков.

Пример. Предположим, что исследователь измерил на выборке из 50 испытуемых 5 показателей интеллекта: счет в уме, продолжение числовых рядов, осведомленность, словарный запас, установление сходства. Все показатели статистически значимо взаимосвязаны на уровне р < 0,05, кроме показателя № 4 с № 1 и № 4 с № 2.

2. Выбирается метод анализа (по корреляционной или ковариационной матрице). Использование ковариационной матрицы менее употребительно, поэтому рекомендуется использовать метод анализа по корреляционной матрице. В этом случае строится диагональная матрица корреляций. Применительно к примеру матрица корреляций представлена в таблице.

Показатели

интеллекта

1

2

3

4

5

1

Счет в уме

1,00

0,88

0,33

0,23

0,42

2

Числовые ряды

1,00

0,32

0,24

0,35

3

Осведомленность

1,00

0,58

0,58

4

Словарный запас

1,00

0,54

5

Сходство

1,00

  • 3. Производится выделение главных компонент и строится таблица, где для каждого элемента приводятся:
    • - собственное значение, пропорциональные общей части дисперсии экспериментальных данных, приходящиеся на данный фактор (или объясняемой им);
    • - процент полной дисперсии, приходящейся на каждый фактор;
    • - процент накопленной дисперсии.

В процессе компонентного анализа решается уравнение (в матричной форме):

где: R - исходная матрица корреляций; А - матрица, каждый элемент которой aik - компонентная нагрузка переменной i (строка) по компоненте к (столбец); Ат - транспонированная матрица А. Компонентная нагрузка aik - аналог коэффициента корреляции, мера связи переменной i и компоненты к . Уравнение (1) Л. Терстоун назвал «фундаментальной факторной теоремой» (Г. Харман, 1972 г.). Результатом решения этого уравнения является матрица компонентных нагрузок А, представленная в таблице.

Переменная

Компоненты

1

2

3

4

5

1

0,77

-0,58

0,00

0,03

-0,26

2

0,75

-0,60

-0,13

0,00

0,25

3

0,75

0,41

-0,06

-0,51

-0,01

4

0,68

0,53

-0,39

0,33

-0,02

5

0,78

0,03

0,52

0,18

0,05

Собственное значение (Af)

2,78

1,24

0,45

0,41

0,13

Доля дисперсии

0,56

0,25

0,09

0,08

0,02

Накопленная доля дисперсии

0,56

0,81

0,90

0,98

1,00

В таблице приводятся компонентные нагрузки всех пяти переменных, собственные значения, доли дисперсии, накопленные доли дисперсии.

Собственные значения определяются как суммы квадратов всех ком-

р

понентных нагрузок по столбцу, то есть Як =^afk - число переменных,

/=1

к - номер столбца) и выделяются в порядке их убывания в соответствии с осями эллипсоида разброса наблюдений (см. п. 6 алгоритма). Количество выделяемых компонент (и собственных значений) равно числу переменных. Сумма всех собственных значений равна количеству переменных. Собственное значение, деленное на количество переменных, есть доля дисперсии, соответствующая данной компоненте. Все компоненты исчерпывают 100% совокупной дисперсии переменных, то есть дисперсия каждой переменной разложена по компонентам. Накопленные доли дисперсии показывают, что 81% суммарной дисперсии переменных объясняется первыми двумя компонентами.

Уравнение (1) позволяет восстановить коэффициенты корреляции по матрице компонентных нагрузок А, так как произведение этой матрицы на себя транспонированную дает корреляционную матрицу. В соответствии с правилом умножения матриц, каждый коэффициент корреляции гу может быть восстановлен через компонентные нагрузки следующим образом:

где: I, j - номера переменных в корреляцонной матрице; к - номер компоненты; М - количество компонент; aik, akj - компонентные нагрузки. Так восстановленная корреляция между переменными 3 и 5:

Можно воспользоваться анализом главных компонент как упрощенным вариантом факторного анализа. Тогда он выберет не все компоненты, а только главные, объясняющие большую часть дисперсии. В нашем примере главными будут первые две компоненты, объясняющие 81% суммарной дисперсии переменных.

Переход к главным компонентам позволяет ввести еще одно важное понятие факторного анализа. Общность - часть дисперсии переменной, объясняемая главными компонентами (факторами), вычисляется как сумма квадратов нагрузок по строке:

где: i - номер переменной, к - номер (главной) компоненты. Например, если в предыдущей таблице выделяются две главные компоненты, то общность переменной 1: /г,2 =0,772 +(-0,58)2 =0,93 , а общность переменной 4: hi =0,682 +0,532 =0,74. То есть первые две компоненты исчерпывают 93% дисперсии переменной 1 и 74% дисперсии переменной 4.

Восстановленные только по главным компонентам коэффициенты корреляции будут меньше исходных по абсолютной величине, а на диагонали восстановленной корреляционной матрицы будут не единица, а величины общностей. Далее для определения числа факторов применяются критерии Р. Кеттела или Кайзера. Наиболее прост критерий Кайзера: число факторов равно числу компонент, собственные значения которых больше 1. Получается, что в примере можно выделить два фактора.

4. Строится график собственных значений факторов (по оси Y) относительно номеров факторов (по оси X). Этот график (как и критерий Кайзера) позволяет выбрать число общих (значимых) факторов для последующего вращения. Для этого обычно используют точку перегиба к выпо- лаживанию графика. Неучитываемые в дальнейшем малозначимые факторы называются специфическими факторами.

Для примера график будет выглядеть следующим образом (рис. 9):

График собственных значений факторов

Рис. 9. График собственных значений факторов

Как видно из рис. 9, в ходе вычисления главных компонент можно выделить компактную схему из двух факторов, отражающих 81% дисперсии.

  • 5. Вычисляются факторные нагрузки (коэффициенты корреляции между переменными и факторами) до вращения. Для каждого фактора указывается нагрузка каждой исходной переменной, показывающая относительную величину проекции переменной на факторную координатную ось. Чем больше нагрузка, тем больше близость фактора к исходной переменной.
  • 6. Выбирается один из аналитических методов вращения факторов. Для того чтобы избежать сложностей в предметной интерпретации факторов и для получения более простой структуры проекции проводится процедура вращения осей. После данной процедуры каждый фактор будет иметь большие нагрузки на малое число переменных и малые нагрузки на остальные переменные. Существуют следующие методы вращения: квар- тимакс (ортогональное вращение, имеет тенденцию к выделению генерального фактора, упрощающую интерпретацию за счет уменьшения числа факторов, связанных с каждой переменной); варимакс (ортогональное вращение, обеспечивает лучшее разделение факторов за счет уменьшения числа переменных, связанных с каждым фактором); эквимакс и бикварти- макс (ортогональное вращение, дают промежуточный эффект между 1 и 2 методами); обликъю (реализует не ортогональное, а косоугольное вращение, факторы располагаются не вполне перпендикулярно друг другу, но достигается более простая структура проекций факторных осей на исходные оси координат). Наиболее употребителен метод варимакс (вращение, максмизирующее дисперсию). Проиллюстрируем этот метод графически.

Пусть имеется две положительно коррелирующие переменные X и Y, измеренные на группе объектов. Тогда график двумерного распределения этих объектов в осях измеренных признаков будет представлять собой эллипс, так как большим значениям переменной X будут соответствовать большие значения переменной Y и наоборот.

График двумерного распределения объектов в осях положительно коррелирующих переменных X и Y

Рис. 10. График двумерного распределения объектов в осях положительно коррелирующих переменных X и Y

Главная ось эллипса Ml - это прямая, вдоль которой будет наблюдаться наибольший разброс данных. Вдоль второй оси М2, перпендикулярной первой и проходящей через ее середину, будет наблюдаться меньший разброс данных.

Анализ главных компонент в отношении признаков X и Y состоит в переходе от них к главной компоненте, соответствующей главной оси эллипса, и в представлении объектов в значениях проекций объектов на эту ось (главную компоненту), как это сделано на рисунке 10, где объект, имеющий координаты (х,у) спроектирован на ось Ml и данная проекция имеет координату ml. Иначе говоря, происходит переход от координат каждого объекта по двум осям X и Г к их координате по одной оси Ml. Отметим, что в случае отсутствия взаимосвязи двух признаков главной компоненты просто не существует, так как обе оси (компоненты) равнозначны (рис. 11).

График двумерного распределения объектов в осях некоррелирующих переменных X и Y

Рис. 11. График двумерного распределения объектов в осях некоррелирующих переменных X и Y

Чем сильнее взаимосвязь двух переменных, тем более вытянут будет эллипс в направлении оси Ml и тем меньше исходной информации теряется при переходе от двух переменных к одной главной компоненте.

При наличии более двух коррелирующих переменных принцип определения главных компонент тот же. В осях трех и более переменных график разброса объектов будет представлять собой эллипсоид в пространстве трех и более переменных. Первая ось этого эллипсоида пройдет по его наибольшему диаметру, вторая - по наибольшему диаметру в плоскости, рассекающей эллипсоид посередине и перпендикулярно первой оси, и т.д. Количество компонент, которые исследователь выбирает как главных, определяется произвольно.

7. Рассчитываются факторные нагрузки после вращения и проводится интерпретация факторов.

В результате вращения достигается факторная структура, наиболее доступная для интерпретации при данном соотношении переменных и факторов. Интерпретация факторов производится по таблице факторных нагрузок после вращения в следующем порядке. По каждой переменной выделяется наибольшая по абсолютной величине нагрузка. По каждому фактору выписывают наименования переменных, имеющих наибольшие нагрузки по этому фактору. После такого просмотра всех факторов каждому из них присваивается наименование, обобщающее по смыслу включенные в него переменные. Для анализируемого примера это будет выглядеть так:

Исходные

переменные

Факторные

нагрузки

h2 (общность)

*1

Рг

1

0,97

0,20

0,99

2

0,86

0,20

0,78

3

0,18

0,76

0,62

4

0,09

0,74

0,56

5

0,26

0,69

0,55

Собственные значения

1,79

1,70

3,5

Доля дисперсии

0,36

0,34

0,7

Применив факторный анализ, мы выделили два фактора. По фактору 1 (F,) максимальные нагрузки имеют переменные 1 и 2. Следовательно, фактор 1 и определяется этими переменными. Поскольку переменная 1 - счет в уме, а переменная 2 - продолжение числового ряда, то фактору 1 может быть присвоено значение «арифметические способности» как показателю легкости оперирования числовым материалом. Точно так же фактору 2 (F2) можно присвоить название «вербальные способности» как показателю словесного понимания. Нетрудно заметить, что переменные 1 и 2, определяющие фактор 1, сильнее связаны друг с другом, чем переменные 3, 4, 5.

Рекомендуемая литература

  • 1. Кулаичев А.П. Методы и средства анализа данных в среде Windows Stadia. М., 202.
  • 2. Многомерный статистический анализ в экономических задачах: компьютерное моделирования в SPSS: Учеб, пособие / Под ред. И.В. Орловой. М., 2009.
  • 3. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных: Учеб, пособие. СПб., 2008.
  • 4. Сотникова Л.А. и др. Многомерный статистический анализ в экономике: Учеб, пособие для вузов. М., 1999.
  • 5. Суходольский Г.В. Математические методы в психологии. Харьков, 2004.
  • 6. Суходольский Г.В. Основы математической статистики для психологов: Учеб. СПб., 1998.
 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>