Полная версия

Главная arrow Социология arrow Методология и методы социологического исследования

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Проверка гипотезы о независимости признаков на основе критерия согласия

При статистических исследованиях зависимости признаков интерес представляет гипотеза о независимости двух номинальных переменных, для которых традиционно строится таблица сопряженности. Для ее проверки устанавливают, как выглядело бы совместное распределение переменных X и У (т. е. какие значения должны были бы составлять содержание таблицы), если бы они статистически не зависели друг от друга.

Таблицу сопряженности в предположении независимости переменных легко построить. Две переменные по определению независимы тогда и только тогда, когда вероятность попадания их в любую ячейку данной таблицы сопряженности является результатом произведения вероятностей появления значений обеих переменных, определяющих структуру этой ячейки. Статистическая независимость предполагает, что все условные распределения в таблице как по столбцам, так и по строкам идентичны. Это означает, что условные распределения как по X, так и по У также идентичны.

Если, например, в табл. 14.9 степень удовлетворенности не зависит от уровня дохода, то вероятность того, что случайно отобранный респондент имеет низкий доход и полностью удовлетворен условиями жизни, была бы равна произведению вероятности получения им низкого дохода на вероятность высокой удовлетворенности. Из таблицы видно, что 26,9% всех опрошенных имеют доход меньше 500 руб. и 32,3% довольны условиями жизни. Отсюда в предположении независимости уровня дохода и степени удовлетворенности вероятность того, что самые низкооплачиваемые респонденты довольны условиями жизни, рассчитывается как

Р = РгхР2 = 0,269x0,323 = 0,087,

где Рх — вероятность получения дохода менее 500 руб.;

Р2 — вероятность высокой удовлетворенности условиями жизни.

При статистической независимости ожидаемое значение переменной должно быть равно 80,9, что составляет 8,7% от всех 930 наблюдений выборочной совокупности. Из табл. 14.9 следует, что наблюдаемое реальное число удовлетворенных условиями жизни и получающих малый доход составляет всего 50 человек (5,4%), что на 30,9 меньше, чем можно было бы ожидать, если бы обе переменные были независимыми.

При конструировании статистического теста для проверки гипотезы о независимости переменных все описанные ранее расчеты повторяются для каждой ячейки таблицы. При независимости обеих переменных вероятность того, что результат наблюдения попадет в ячейку (г, у), оценивается как

где г — строка, у -— столбец; т, тгу — общее число наблюдений, приходящихся соответственно на строку г и столбец у, N — общий объем выборочной совокупности.

Для получения ожидаемого числа наблюдений для ячейки (г, у) определенная по выше приведенной формуле вероятность умножается на общий объем выборочной совокупности N1

Таблица 14.10 содержит наблюдаемые (верхнее значение в ячейке) и ожидаемые значения частот (второе значение), а также их разность (нижнее значение).

Таблица 14.10

Наблюдаемые и ожидаемые частоты

Доход,

руб.

Удовлетворенность жизнью

Всего

Низкая

Средняя

Высокая

1

2

3

4

5

Менее 500

100

100

50

250

69,9

99,5

80,6

250,0

30,1

0,5

-30,6

Окончание табл. 14.10

1

2

3

4

5

500-1000

100

150

100

350

97,8

139,2

112,9

350,0

2,2

10,8

-12,9

1000-1500

50

100

100

250

69,9

99,5

80,6

250,0

-19,9

0,5

19,4

Более 1500

10

20

50

80

22,4

31,8

25,8

80,0

-12,4

-11,8

24,2

Всего

260

370

300

930

260,0

370,0

300,0

930,0

Далее эти теоретические значения сравниваются с фактическими с помощью статистики х2 Пирсона. Она рассчитывается следующим образом. Прежде всего для каждой ячейки вычисляется значение квадрата разности между ожидаемым и наблюдаемым значениями частоты, деленное на ожидаемое значение. Затем все эти значения суммируются:

Данное значение имеет распределение х2 с числом степеней свободы df (degree freedom) равным (iV—1) х (М-1), где N— число строк, М — число столбцов (рис. 14.7).

Распределение х с числом степеней свободы п

Рис. 14.7. Распределение х2 с числом степеней свободы п

Далее устанавливается уровень статистической значимости ошибки I рода. Она имеет место, когда гипотеза о независимости отвергается, в то время как она верна. Традиционно используются уровни значимости 0,05 и 0,01. Для первого значения выводы о независимости будут верны в 95, а для второго — в 99 случаях из 100.

Технически процедура проверки гипотезы на основе статистики х2 заключается в расчете наблюдаемой значимости, равной вероятности случайно получить большее значение, чем рассчитанное значение х2- Соответственно гипотеза о независимости отвергается, если она меньше уровня статистической значимости ошибки I рода а (0,01 или 0,05) (рис. 14.8).

Проверка гипотезы о независимости с помощью критерия х

Рис. 14.8. Проверка гипотезы о независимости с помощью критерия х2

Результаты расчета статистики х2 для примера на базе вРвв приведены в табл. 14.11.

Критерий х2

Таблица 14.11

Статистики

Значение

Число степеней свободы

Асимптотическая

значимость

(2-сторонняя)*

X2 Пирсона

71,193

6

0,000

Отношение

правдоподобия

69,371

6

0,000

Количество валидных наблюдений

930

Примечание: статистическая оценка наблюдаемой значимости, рассчитываемая программой SPSS.

Существует эмпирическое правило корректности использования статистики х2‘ не более 20% ячеек таблицы сопряженности должны иметь ожидаемые частоты меньше 5, и минимальная ожидаемая частота не может быть меньше 1. Приведенные данные подтверждают корректность использования метода. В 0 (0,0%) ячейках ожидаемая частота меньше 5. Минимальная ожидаемая частота равна 22,37.

Интерпретация результатов расчета /2-статистики приведена в табл. 14.12.

Таблица 14.12

Интерпретация результатов расчетов х2-статистики

Асимптотическая значимость теста

Интерпретация

Меньше 0,05

Гипотеза отвергается

0,05-0,1

Трудно сказать

Больше 0,1

Гипотеза принимается

Так как наблюдаемая значимость теста в табл. 14.12 очень незначительна (практически равна 0), можно засомневаться в предположении о независимости. Вероятность этого события при условии, что исходная гипотеза о независимости верна, не должна быть такой малой. В таком случае она отвергается — предполагается, что признаки зависимы, что и следовало ожидать. Интуитивно понятно, чем выше уровень доходов, тем выше удовлетворенность трудом.

Альтернативой к обычно используемой оценке х2 является оценка, основанная на методе максимального правдоподобия, так называемое отношение правдоподобия (см. табл. 14.11). Этот тест базируется на функции максимального правдоподобия и часто используется при анализе категориальных данных. Для выборки большого объема обе статистики дают близкие результаты.

Тест х2 является тестом на независимость. Он несет мало информации о силе зависимости между двумя переменными. Величина х2 зависит не только от того, в какой мере наблюдаемые частоты соответствуют модели независимости, но и от объема выборки. Если, например, объем выборки увеличить в п раз, сохраняя отношения между переменными (увеличивая частоты пропорционально во всех ячейках данной таблицы), то нетрудно видеть, что соответственно возрастет и значение критерия х2 в п раз. Поэтому большое значение х2 можно получить, даже если разность ожидаемых частот незначительна, но объем выборки достаточно велик.

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>