ФАКТОРНЫЙ АНАЛИЗ КАК МЕТОД КОНЦЕНТРИРОВАННОГО ОТОБРАЖЕНИЯ ЗАКОНОМЕРНОСТЕЙ И ТЕНДЕНЦИЙ РАЗВИТИЯ РЕГИОНА
Факторный анализ предполагает дальнейшее углубление знаний о регионе, полученных в результате применения метода системного и корреляционного анализа. За множеством показателей часто бывает трудно разглядеть небольшое количество основных, как правило, непосредственно не наблюдаемых, но определяющих характерные свойства и особенности объекта. В этом случае возникает необходимость, с одной стороны, выделить как можно меньшее число скрытых общих факторов, с другой стороны, стремятся, чтобы выделенные факторы как можно точнее приближали наблюдаемые переменные, точнее описывали связи между ними [27, С. 491]. Таким образом, вычисляемые факторы «являются некоторой комбинацией от большего числа непосредственно замеряемых на объекте переменных» [6, с. 143].
Одной из основных задач при диагностике региональных различий является выявление обобщенных компонентов, которые в наибольшей степени влияют на существование межрегиональной дифференциации. Под обобщенными компонентами региональных различий будем понимать факторы, получаемые на основе модели факторного анализа из исходных показателей, используемых для оценки состояния каждой из региональных подсистем.
Алгоритмы вычисления, реализующие данную модель, достаточно широко освещены в литературе как учебного [6; 60; 61; 100; 170; 195], так и монографического |4; 5; 11; 18; 23; 29; 62; 63; 72; 77; 121; 152; 212] характера по многомерному статистическому анализу и прикладной статистике.
Характеристика сущности бифуркационного состояния, рассмотренная ранее, должна быть расширена: бифуркация — такой момент, когда региональные различия достигают такого уровня, что соотношение между регионами переходят в качественно иное состояние. Проявляются регионы в большей степени готовые принять инвестиционные вложения и обеспечить необходимые условия для реализации инвестиционных проектов. Для выявления таких регионов нужно упорядочить, сжать информацию, то есть перейти от реальных, принятых и популярных в хозяйственной практике показателей к латентным сущностям.
В связи с применением для оценки состояния каждой подсистемы большого количества показателей, корреляционная матрица должна подвергнуться дальнейшей обработке [28, с. 7]. Факторный анализ как раз и представляет собой набор моделей и методов, предназначенных для «сжатия» информации, содержащейся в корреляционной матрице. А.П. Кулаичев отмечает, что переменные, значения которых можно измерять в эксперименте, имеют для исследуемого объекта или явления нередко достаточно условный характер, лишь опосредованно отражая его внутреннюю структуру, движущие силы (механизмы) или факторы [109, с. 268].
Модель метода главных компонент имеет вид
Ъ = АР' или ц = ап/и + ар_/21 +... + а]Г/п , (3)
где Ъ — матрица стандартизированных значений исходных показателей; А — матрица факторного отображения, элементы которой а]г — весовые коэффициенты г-й главной компоненты для у-го исходного показателя; Г— матрица значений главных компонент (матрица счетов).
Первой главной компонентой Р, исследуемой системы показателей
Х = (х1,...,х/я)Т называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нор-мированно-центрированных линейных комбинаций показателей х1,...,хт обладает наибольшей дисперсией. Следовательно, она включает в себя множество показателей, изменение которых обуславливает наиболее серьезные региональные различия. Первая главная компонента является главной потому, что выполняет роль ядра формирования региональных различий. Концентрируя в себе наибольшую дисперсию, она является ориентиром при определении направлений по выработке региональной политики в целях сокращения региональных различий. Аналогичную роль выполняют и другие главные компоненты, но, в отличие от первой, несут меньшую ответственность за тенденции в изменениях условий развития, поскольку содержат в себе меньшую дисперсию показателей.
г-й главной компонентой Рг (г = 2,3,...,ш) исследуемой системы показателей Х = называется такая нормированно-центриро
ванная линейная комбинация этих показателей, которая не коррелиро-вана с г -1 предыдущими главными компонентами и среди всех прочих
нормированно-центрированных и некоррелированных с г-1 главными компонентами обладает наибольшей дисперсией 1170, с. 5281.
Поскольку алгоритм формирования обобщенных компонентов условий развития региона основан на модели метода факторного анализа, а проблема региональных различий рассматривается в контексте синергетической парадигмы, в дальнейшем в данном и последующих параграфах «обобщенный фактор» и «параметр порядка» представляют для нас синонимичную пару. Рассмотрим алгоритм вычисления параметров порядка региональных различий (рисунок 4):

Рис. 2.2. Алгоритм вычисления параметров порядка региональных различий
Шаг 1. На данном шаге формируется матрица исходных данных вида
'*11 |
*12 |
Г ^ лт |
|
х = |
|
|
|
Л1 |
*я2 |
* * * лпт / |

где X— матрица исходных данных размерностью пхт х. — значение у-го показателя на /'-м статистически обследованном объекте (так что /-ая строка этой матрицы Х1 -[хп,хп,...,х1т) характеризует объект О., т.е. представляет результат его статистического обследования по всем т анализируемым показателям);
/ = 1;я; у = 1 т .
Под статистически обследованными объектами здесь и далее понимаются регионы Центрального федерального округа.
Шаг 2. Стандартизация массива данных включает в себя центрирование и нормирование исходных величин. Необходимость центрирования обусловлена облегчением дальнейших расчетов. Центрирование представляет собой перенос центра координатной системы исходных показателей оценки в точку со средними значениями всех исходных показателей, т.е. тем самым устанавливается центр новой координатной системы — системы главных компонент.
Необходимость нормирования обусловлена тем, что, как правило, исходные показатели имеют различную размерность. Это приводит к тому, что дисперсия одних показателей оказывается больше на несколько порядков, чем дисперсия других показателей. В результате переменные с большей дисперсией (величина которой, прежде всего, обусловлена единицами измерения) доминируют над переменными с меньшей дисперсией. Нормирование стандартным отклонением позволяет придать всем исходным показателям одинаковую значимость, т.к. дисперсия нормированной величины равна 1. Поскольку определение обобщенных показателей связано с выявлением систематических вариаций в массиве исходных данных, постольку нормирование позволяет играть показателям с незначительной дисперсией (измеренной в исходных единицах измерения) такую же роль в анализе, как и показателям со значительной дисперсией.
Стандартизация переводит матрицу X в матрицу Z, элементы которой определяются по формуле (5):

х и ~


где 1у — стандартизированное значениеу'-го показателя у /-го объекта наблюдения.
Шаг 3. Матрица Я имеет размерность тхт. Каждый элемент данной матрицы представляет собой коэффициент парной корреляции между исходными показателями и показывает тесноту линейной статистической связи между ними. Матрица коэффициентов парной корреляции рассчитывается по формуле:

К = -Х'Х, п
где Ъ — матрица стандартизированных значений исходных показателей.
Шаг 4. Данный шаг обусловлен тем, что «незначимые корреляционные связи исходных показателей оценки не дают вообще основания для поиска обобщенных показателей оценки (главных компонент)» 1195, с. 3931. Проверка значимости матрицы парных корреляций осуществляется при помощи критерия Уилкса — у2, его наблюденное значение оценивается по формуле:

/
Л
п--(2т + 5) 1п|Д|.

/
Наблюденное значение критерия Уилкса сравнивается с табличным, для у2 -распределения при заданном уровне параметра а (обычно принимается равным 0,05) и числе степеней свободы V = — т[т -1). Значи-
2 2
мость корреляционной матрицы подтверждается при %=>%а у .
Шаг 5. Диагональная матрица собственных чисел имеет вид
% 0 0 ... 0 ^

- 0 Х2 0 ... 0
- 0 0 Х3 ... 0 ’
ч0 0 0 ... т/
где Xj — это характеристики доли объясненной каждой главной компонентой дисперсии, определяющие ее место в иерархии обобщенных факторов региональных различий.
Суммарное значение Х*У равняется сумме дисперсий исходных показателей, а поскольку после шага 2 анализируются стандартизированные данные (дисперсия каждого из исходных показателей равна 1),
то суммарное значение ^Х • равно числу исходных показателей оценки т.
Шаг 6. Первоначально число выделенных обобщенных факторов равно числу исходных показателей оценки т. Необходимо оставить в дальнейшем анализе лишь те, которые обнаруживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта (региона) к другому, т.е. объясняют наибольшую долю дисперсии исходных показателей.
Если рассматривать комплекс исходных показателей как адекватно характеризующий региональные различия, то обобщенные факторы будут определять относительно независимые региональные подсистемы — трудовые ресурсы, обрабатывающие производства и инфраструктуру. Выделяемые подсистемы при рассмотрении их в рамках факторного анализа будут представлять собой целостность, упорядоченную по уровню значимости подсистем с точки зрения вносимого ими вклада в силу и уровень региональных различий.
Исходные показатели, связанные с первым обобщенным фактором, являются характеристиками социально-экономического состояния, которые наиболее сильно различаются у регионов ЦФО. Это значит, что выделенные показатели в рассматриваемом периоде и пространстве достигли максимального изменения по сравнению с другими показателями (величина накопленной дисперсии наибольшая). В данном случае можно говорить о «бифуркационном ядре», то есть таком образовании, которое является источником самых сильных изменений и неустойчивостей в ЦФО, что обуславливает наиболее значительные различия между регионами. Показатели, которые связаны с остальными обобщенными факторами, характеризуясь меньшими изменениями и в меньшей мере обуславливая региональные различия, формируют «бифуркационный фон», то есть образование, состоящее из одной или нескольких обобщенных факторов, производящих средние и слабые (по сравнению с первым обобщенным фактором) изменения в ЦФО. «Бифуркационный фон», образованный несколькими обобщенными факторами, содержит несколько разновеликих источников изменений, уступающих «бифуркационному ядру», однако в совокупности могут его превосходить. По этой причине необходимо с одинаковой степенью подробности содержательно анализировать выделенные обобщенные факторы.
Для определения необходимого и достаточного числа обобщенных факторов совместно используются графический критерий отсеивания («каменистой осыпи») и критерий Кайзера 193, с. 36—391. В качестве дополнительного может использоваться критерий, основанный на величине доли воспроизводимой дисперсии 1170, с. 532—533]. До начала анализа задаются некоторым минимально приемлемым уровнем объясненной дисперсии. Оставляют такое число обобщенных факторов, чтобы суммарная дисперсия, объясненная ими, превышала заданный минимально приемлемый уровень.
Для построения графического критерия по оси абсцисс откладывается число выделенных обобщенных факторов, а по оси ординат — собственные значения матрицы парных корреляций, соответствующие выделенным обобщенным факторам. Число выделенных обобщенных факторов, соответствующее точке на оси абсцисс, в районе которой наблюдается уплощение кривой на графике, является необходимым и достаточным для описания пространства результатов в терминах обобщенных факторов.
На основании критерия Кайзера следует оставлять для дальнейшего анализа только обобщенные факторы с собственным значением > 1. Данное требование обусловлено тем, что дисперсия каждого исходного показателя после стандартизации в точности равна 1, т.е. обобщенный фактор должен как минимум объяснять дисперсию одного исходного показателя.
Минимально приемлемый уровень для критерия, основанного на доле воспроизводимой дисперсии, обычно принимается равным 0,75—0,80 от величины дисперсии исходных показателей.
Следует отметить, что далеко не всегда решение о числе необходимых и достаточных обобщенных факторов, обладающее практической значимостью, удовлетворяет требованиям всех вышеперечисленных критериев. В конечном итоге именно требование практической значимости определяет окончательное решение о числе обобщенных факторов, оставляемых для дальнейшего анализа. Естественно, при этом необходимо приближенное соблюдение требований рассмотренных выше формальных критериев.
Шаг 7. Матрица собственных векторов и используется для расчета матрицы факторного отображения. Собственные векторы ?/. находятся из следующего матричного уравнения
- (9)
- (Я-Я.Е)и = 0.
Реально это означает решение т систем линейных уравнений для каждого 'kj при у = 1; т . В общем виде система уравнений имеет вид



(Ю)

При решении системы (8) конкретные значения собственных векторов можно найти, задавая произвольно, по крайней мере, величину одной компоненты каждого вектора. Данная матрица имеет размерность тхт .
Шаг 8. На данном шаге находится матрица нормированных собственных векторов V. Необходимость повторного, после получения матрицы 2, нормирования пространства теперь уже обобщенных показателей Яр объясняется механическим появлением в ходе предыдущих расчетов результатов, искажающих нормированное пространство.
Число векторов V. первоначально равно т, т.е. у = 1 ;т . Получают К. преобразованием ненормированных собственных векторов и.
где

— норма вектора

(П)
и.
иЬ + и2/ + • • • + и1у

Шаг 9. Каждый из элементов матрицы факторного отображения представляет собой, с одной стороны, вклад данного исходного показателя в дисперсию данного обобщенного фактора; с другой стороны, коэффициент частной корреляции между исходным показателем и обобщенным фактором. Следовательно, по величине элемента матрицы факторного отображения мы можем судить о степени тесноты статистической связи между показателем и фактором. Величина коэффициентов данной матрицы колеблется в диапазоне от-1 до 1. Значение коэффициента близкое к 1 свидетельствует о существенной прямой статистической связи между исходным показателем и обобщенным фактором. Значение коэффициента, близкое к - 1, свидетельствует о существенной обратной статистической связи между исходным показателем и обобщенным фактором. Значение коэффициента, близкое к 0, свидетельствует об отсутствии статистической связи между исходным показателем и главной компонентой.
Вначале матрица факторного отображения А имеет размерность т х т — по числу элементарных признаков X., затем в анализе остается р наиболее значащих факторов, р<т. Вычисляют матрицу Л по известным данным матрицы собственных чисел Л и нормированных собственных векторов Vпо формуле

А = УЛ2.
Шаг 10. Реализация данного шага процедуры обусловлена требованием экономного описания обобщенных факторов в терминах исходных показателей. Требование экономного описания формализуется при помощи понятия простой структуры Терстоуна [212, с. 114-115].
Матрица факторного отображения имеет простую структуру, если выполняются (приблизительно выполняются) следующие условия:
- 1. Каждая строка матрицы факторного отображения должна содержать хотя бы один нулевой элемент;
- 2. В каждом столбце матрицы должно быть не менее т нулей (т — число выделенных обобщенных факторов);
- 3. Для каждой пары столбцов матрицы найдется несколько признаков, соответствующие элементы которых в матрице равны 0 в одном столбце и не равны в другом;
- 4. Если число факторов равно или превышает четыре, то достаточно велика доля признаков, имеющих в любой паре столбцов одновременно нулевые элементы;
- 5. Для любой пары столбцов найдется мало параметров, соответствующие элементы которых в обоих столбцах отличны от нуля.
Следует отметить, что в большинстве реальных ситуаций анализа в качестве нулевого элемента могут рассматриваться элементы со значениями до 0,10—0,15 включительно.
Необходимость вращения системы обобщенных факторов возникает в случае несоответствия матрицы факторной структуры требованиям простой структуры Терстоуна. С геометрической точки зрения вращение представляет собой поворот новых координатных осей (обобщенных факторов) в пространстве исходных наблюдений (структурных элементов). Поворот осуществляется таким образом, чтобы большинство наблюдений находились вблизи координатных осей. Более предпочтительным с точки зрения возможности содержательной интерпретации обобщенных факторов является ортогональное вращение, при котором неизменными остаются расстояния отточек до начала координат (длина векторов) и углы между векторами. Основываясь на геометрическом представлении рассматриваемой задачи, поиск однозначного решения называют задачей вращения факторов 133, с. 3681.
С одной стороны, в результате вращения достигается экономное описание компонент в терминах исходных показателей. С другой стороны, новые повернутые «главные компоненты» не являются главными компонентами и называются обобщенными факторами [61, с. 225]. Это связано, прежде всего, с тем, что у обобщенных факторов не обязательно сохраняется одно из основных свойств главных компонент: жесткое упорядочение по величине доли объясненной дисперсии исходных показателей, т.е. в результате вращения наиболее значимым может оказаться, например, второй обобщенный фактор. Из этого следует, что прием вращения не всегда полезен. Но очевидно, что он необходим, в случае, если главные компоненты мало различаются по величине накопленной дисперсии, то есть исследуемая проблема «размыта», неочевидны группы показателей (главные компоненты), которые несут ответственность за состояние проблемы в целом.
При ортогональном вращении матрица И переходит в матрицу И' посредством преобразования

АТ = А',
где Т — ортогональная матрица преобразования.
Наиболее часто удается получить практически ценные решения о структуре обобщенных факторов на основе использования варимакс-критерия следующего вида [66, с. 224]:
т п

г=7=1
/ / */г
V

Ґ ,2
а.
№
V
= гпах ,

где а'г — элементы матрицы факторного отображения после вращения; И — общность у-го исходного показателя (к главным компонентам приводят преобразования исходных показателей с общностями, равными 1).
Максимум (15) удовлетворяет требованиям ортогональной простой структуры.
Шаг 11. Содержательная интерпретация выделенных обобщенных факторов подразумевает содержательное объяснение установленных статистических связей на основе знания закономерностей анализируемой предметной области. Результатом данного шага должно стать определение названия для каждого из выделенных обобщенных факторов. Название обобщенного фактора должно отражать существенные связи между показателями, имеющими большие нагрузки по данному фактору.
Для каждого обобщенного фактора Рг множество значений условно разбивается на четыре подмножества с нечеткими границами [195, с. 358]:
Ж, — подмножество незначимых весовых коэффициентов;
Ж2 — подмножество значимых весовых коэффициентов;
И/3 — подмножество значимых весовых коэффициентов, не участвующих в формировании названия главной компоненты;
И/4 = И/2 - ?3 — подмножество значимых весовых коэффициентов, участвующих в формировании названия. Общий состав множества весовых коэффициентов представлен на рисунке 5:
1 |
IV А2 |
I |
|||
У( |
! |
||||
1 |
|||||
0 |
і |
У |
У |
||
1 |
Щ |
' Щ-Ц-Ц |
|||
акр1 |
Зкр2 |
Рис 2.3. Состав множества весовых коэффициентов
а ? , у = 1 ,т , для /*-ой главной компоненты (обобщенного фактора) [195].
Дополнительное выделение подмножества Ж3 объясняется стремлением к более простой структуре обобщенного фактора, всегда легче поддающейся интерпретации. На своих границах подмножество Ж3 имеет критические значения: в акр 1 — максимальное число показателей, объясняющих главную компоненту, в акр 2 — минимальное число объясняющих показателей.
Подтверждение значимости признаков (X. или 2^.), участвующих в формировании названия обобщенного фактора, можно получить расчетным путем при определении коэффициента информативности:
24 {^2-ж,}


Набор объясняющих признаков считается удовлетворительным, если значения Ки лежат в пределах 0,75—0,95. Как правило, для определения границ нечетких подмножеств критические значения аг. выбираются на основе простой визуальной оценки элементов матрицы факторного отображения с таким расчетом, чтобы коэффициент информативности по каждому обобщенному фактору находился в удовлетворительных пределах.
В целях облегчения интерпретации сущности обобщенных факторов, выявления связей между ними и углубления содержательного анализа в целом, построим двумерный график оценок значения факторов для регионов по нормированным значениям (рис. 2.4).
Таким образом, на данном шаге осуществляется переход от представления объектов в /д-мерном пространстве к представлению объектов в /^-мерном пространстве, что позволяет существенно облегчить сопоставление объектов между собой по отдельным показателям.
Следует отметить, что в общем случае определение счетов объектов осуществляется с использованием весовых коэффициентов всех исходных показателей. Однако использование только значимых весовых коэффициентов дает возможность учесть в счете влияние коэффициентов тех исходных показателей, которые непосредственно участвуют в формировании названия данного обобщенного фактора. Весовые коэффициенты, не значимые для данного обобщенного фактора, учитываются при формировании счетов по другим факторам.
Данный прием упорядочивает оцениваемые объекты по паре обобщенных факторов. Регион, расположенный в верхнем правом квадрате, расположенный в положительном направлении по рассматриваемой паре, является наиболее результативным по направлению деятельности, определяемому данной парой обобщенных факторов, что означает его сильное преобладание над другими регионами. При этом не обязательно, чтобы данный объект имел положительные значения по всем
—ХГ

л
2
=
- § -0.4 -
- 0:4

Х4
о
Х9
ХЗ
о
Х7
..о .. Х5
о
Х8 о
о

- -0:3
- -1,0
- -1,2"-
- -1,0 -0,6


ПзрЕый сообщенный фактор
0,6 1,0
Рис. 2.4. Двумерный график оценок значения факторов для регионов по нормированным
значениям (XI, Х2,Х9 — регионы ЦФО)
значимым для данного обобщенного фактора показателям. Его лидирующее положение может быть обусловлено существенными положительными значениями только некоторых из исходных показателей. Регионы, расположенные в нижнем левом квадрате наименее успешны, их отставание от других регионов может быть наиболее сильным и опасным.
Обобщая изложенное, можно сказать, что использование факторного анализа в диагностике региональных различий позволяет:
- • минимизировать описание, то есть определить основные аспекты различий между регионами;
- • обосновать существование доминирующих факторов региональных различий;
- • осуществить позиционирование регионов по уровню региональных различий в разрезе вычисленных главных факторов.