Методы статистики в подготовке исследования и обработке данных

В современной науке методы статистики применяются и на подготовительном и на аналитическом этапе исследований. Существуют формулы для расчета объемов и ошибок выборки, а также статистические методы анализа полученных данных, направленные на оценку достоверности выявленных различий и тенденций.

Для начала познакомимся с основными описательными статистическими параметрами генеральной и выборочной совоку пностей, их обозначениями и формулами расчета (Таблица 2).

В приведенной таблице под альтернативным признаком понимают показатель, значения которого определяются по номинальной шкале (например, мужчина-женщина, холостой - состоящий в браке), а под количественным признаком тот, который выражен в показателях метрической шкалы (например, возраст, выраженный в годах). Признак в статистике обозначается латинскими буквами: х, у, гит. д., а значение признака (варианта) у конкретной единицы наблюдения -латинскими буквами с подстрочными индексами /, /, которые соответствуют порядковому- номеру' единицы наблюдения (респондента). Со-136

ответственно, получаем запись, например, х, («икс итое», что обозначает значение признака х у /-того респондента).

Таблица 2

Основные параметры генеральной и выборочной совокупностей

Характеристика параметров распределения

Совокупность

Генеральная

Выборочная

Объем выборки

N

п

Количественный признак

Среднее значение

признака

Z*<

_ Z*(

х =---

п

Дисперсия

Z(^-p)2 ст=------

N -1

Z(^i - х)2 s =----—

п — 1

Среднее квадратическое отклонение

а =

Л

- /О2

  • S =
  • 5

Z(*i - x)2

N - 1

n — 1

Альтернативный (качественный) признак

Численность единиц совокупности, обладающих признаком

Nx

Пх

Доля (частота, вес) единиц, обладающих изучаемым признаком

*1* II р.

Пх W = — п

Дисперсия

сг2 = р(1 — р)

S2 = w(l - w)

Среднее квадратичное отклонение

о =

s =

Vp(i -р)

Jw(l — w)

Как видно из таблицы, для анализа количественных и качественных данных в статистике применяются разные показатели и формулы.

Так. при обработке качественных данных (определенных в значениях номинальной шкалы) исходным показателем является доля единиц. обладающих изучаемым признаком, - часто та (или «вес») признака в изучаемых совокупностях: р - в генеральной совокупности, и’ - в выборке. Рассчитывается путем деления количества единиц, обладающих данным признаком на общий объем совокупности. Выражается в процентах или долях от единицы (в формулы подставляются доли от единицы).

Для количественного показателя такой отправной точкой является среднее значение: // - для генеральной совокупности их - для выборки. Рассчитывается как арифметическое среднее от всех значений данного признака в совокупности.

Среднеквадратпческое отклонение (<г или х) и дисперсия (D или Var = <г) - это меры разброса значений признака относительно средней величины. Формулы расчета приведены в таблице 2. Измеряются они в тех же величинах, что и сам признак. Среднеквадратичное отклонение используется для оценки плотности вариационного ряда (совокупности значений признака): чем меньше <т. тем плотнее ряд, то есть тем ближе реальные значения признака к его среднему значению. Кроме того, знание среднеквадратического отклонения позволяет определить границы значений признака, в которые попадает большая часть единиц совоку пности. При этом основываются на «правиле трех сигм», согласно которому в интервале р±3о находится 99,7% всех вариант ряда, в интервале ц±2о — 95,5% и в интервале ц±1о — 68,3% вариант ряда[1].

Если выборка репрезентативна, то считается, что s = а и таким образом результаты могут быть перенесены на гснсральну ю совоку пность.

Ошибка выборочного наблюдения е есть разность между значением параметра в генеральной совокупности и се выборочным значением. Для среднего значения количественного признака она равна: = |д — х|, а для доли (альтернативного признака): ?w = |р — w|.

График нормального распределения вариант и процент попадания случайной величины на отрезки, равные среднеквадратическому отклонению

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения х и s2 являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку.

Средняя (стандартная) ошибка среднего по выборке есть ве-личина т = I—. Стандартная ошибка при соблюдении принципа случайного отбора зависит, прежде всего, от объема выборки п и от степени варьирования признака: чем больше п и чем меньше вариация признака (следовательно, и значение <г), тем меньше величина средней ошибки выборки т Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

2 2 П

О’ - S2 X-----

П - 1

т. е. при достаточно больших п можно считать, что о = s. Стандартная ошибка выборочного среднего показывает возможные отклонения параметра выборочной совокупности от параметра генеральной.

В таблице 3 приведены выражения для вычисления средней ошибки пг выборки при разных методах организации наблюдения.

Таблица 3

Средняя ошибка (т) выборочных средней и доли для разных видов выборки

Вид выборки

Отбор

Повторный

Бесновторный

Количественный признак

Случайная

тх —

__________А

| ^0 1

_________A

*2(1-7лР

n

Механическая (статистическая)

тх =

А

mx —

A

s2(l-n/w)

n

Стратифицированная (типическая)

тх —

А

n

mx —

A

n

Серийная (гнездовая)

тх —

А

8X2

mx —

______________Al

Sx2a~r/R)

r

r

Альтернативный (качественный) признак

Случайная

тр =

[ w(l — w)

n

mp

A

w(l — w)(l — n/N')

n

Механическая (статистическая)

тр =

А

w(l — w)

mp

n

A

w(l — w)(l — n/N) n

Стратифицированная (типическая)

тр =

wt(l-wt)

n

mp

___AL

yi/t(l - wt)(l -n/LV) n

Серийная (гнездовая)

тх — _______1

KI

=

___________AL

sw2a-r/R)

r

r

где s2 - средняя внутригрупповая выборочная дисперсия для непрерывного признака; s2 = s2 — s2, где s2 - это общая дисперсия по выборке рассчитываемая без учета стратификации (как для простой случайной выборки, см. таблица 2), s^- - это межгрупповая дисперсия, которая рассчитывается как дисперсия средних по стратам xL (s*-2 = У (Xr—х^

-------, и str— количество страт);

nstr

wt (1 — wt) — средняя из внутригрупповых дисперсий доли;

г— число отобранных серий (гнезд), R— общее число серий (гнезд) г2 2ХхГ -*)2

Ох =---~--межгрупповая дисперсия,

где х* — средняя z’-й серии;

х — общая средняя по всей выборочной совокупности для непрерывного признака;

о 2 = Z(wf-vv)2

°Х г ?>

где — доля признака в 7-й серии;

w — общая доля признака по всей выборочной совоку пности.

Однако о величине средней ошибки т можно судить лишь с определенной, вероятностью Р (Р < 1) или на определенном уровне значимости (достоверности) р = 100% - Р. При этом Р равна специальной функции f(i) (или где z-критсрий (или t-критсрий) - это "коэффициент доверия"[2], значения которого для разного объема выборки п сведены в специальную таблицу’ (Таблица 4). z-критерий используется в тех случаях, когда известна дисперсия генеральной совокупности или объем выборки больше 30, в других случаях используется l-критсрий, аналогичный по смыслу, но высчитывающийся по другой формуле. Нам же достаточно знать пороговые значения z и t критериев, которые для равных уровней значимости равны.

Таблица 4

Значения функции f(z) при некоторых значениях z1 (для выборки объемом больше 30):

Z

f(z)

z

f(z)

1

0,683

1,5

0,866

1,96

0,95

2,5

0,988

2

0,954

2,58

0,99

3

0,997

3,29

0,999

Зная необходимый нам уровень вероятности Р и значение z, соответствующее ему, можно высчитать предельную ошибку выборки (предел погрешности) (или Dx) - показывающую с определенной степенью вероятности (Р), максимальное значение, на которое результаты выборки могут отличаться от результатов генеральной совокупности.

л F

Дх = z х т = z —

В таблице 5 приведены формулы для вычисления предельной ошибки выборки.

Таблица 5

Предельная ошибка (D или Д) выборки для средней и доли (р) для разных видов выборочного наблюдения

Вид выборки

Отбор

Повторный

Бесповторный

Количественный признак

Случайная

Z

А

Е п

Z

А

®2(l-n/w)

п

Механическая (статистическая)

Z

________N

Е

И

Z

А

s2O--n/?T)

п

Стратифицированная (типическая)

Z

Б

Z

А

п

n

Серийная (гнездовая)

Z

А

v г

Z

N

V(1 ~Г/^ r

Альтернативный (качественный) признак

Случайная

Z

______А

w(l — w)

Z

и/(1 — w)(l — n/N)

п

п

Механическая (статистич сс кая)

Z

______А

w(l — W)

Z

А

w(l — w)(l — n/N)

п

п

Стратифицированная

(типическая)

Z

___i

^(1 - Ю

Z

W((l — wt)(l — n/N)

п

n

Серийная (гнездовая)

Z

_________А

V

г

Z

___У

swi-r/R)

r

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров и w) могут существенно отклоняться от их истинных значений (ц и р). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров (х и w) лежат истинные значения (ц и р).

Доверительных! интервалом какого-либо параметра генеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью) содержит истинное значение этого параметра.

Предельная ошибка выборки А позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы, которые равны:

- для среднего значения: // = х + Ах

- для доли: р - w ± Aw

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Необходимый объем выборки

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки. Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении, исходя из заданной вероятности Р. гарантирующей допу стимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки п легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки п: 2 2 Z О п — ---

л2

Эта формула показывает, что для уменьшения предельной ошибки выборки А увеличивается требуемый объем выборки п. который пропорционален дисперсии и квадрату z-критсрия (или критерия Стью дента /).

Для конкретного способа организации наблюдения требуемый объем выборки п выводится из формул, приведенных в таблице 5.

Аналитические статистические показатели

Часто в научных исследованиях бывает необходимо определить, случайны ити достоверны (существенны), т. е. обусловлены какой-то причиной, различия между' двумя средними величинами или относительными показателями (полученными в результате обследования выборок из разных генеральных совокупностей).

Для решения данной задачи также можно обратиться к расчету t-критерия Стьюдента. Обязательным условием для применения дан ного способа является нормальное распределение значений признака и репрезентативность выборочных совокупностей.

Следует отличать зависимые и независимые выборки, так как для них используются разные критерии при проверке гипотез[2].

Выборки считаются независимыми, если они никак не связаны друг с другом.

Зависимыми считаются выборки, которые состоят из единиц наблюдения естественным образом образующих некоторые пары, (близнецы, супруги и т. д.) или же если два ряда данных содержат данные обследования одной и того же гру ппы респондентов до и после эксперимента.

Общая формула t-критерия для оценки достоверности различий средних значений признака в двух независимых выборках (непарный t-критерий):

= Од ~ *7) ~ - д2)

где и - средние первой и второй выборок; gi и ц? -средние, существующие в реальности в генеральной совокупности. (При нулевой гипотезе - Но : щ - цг = О, поэтому7 нередко можно встретить формулу7 для z-критсрия, где числитель состоит только из *7 ~ *2 ); si и S2 - величины стандартных отклонений генеральных совоку пностсй, для первой и второй гру пп; ш и п? - число наблюдс-ний в первой и второй гру ппах (объем выборок). Так как — - m (стандартная ошибка среднего), то знаменатель может приобретать вид д/mJ + m2 •

Аналогичная формула для долей имеет вид:

t_ Р1-Р2

y/ml + ml

Парный t-критерий Стьюдента рассчитывается по следующей формуле:

CTcZ/Vn

гдеЛ/rf- средняя арифметическая разностей показателей, измеренных в связанных выборках, <7 - среднее квадратическое отклонение разностей показателей, и - число исследуемых.

Интерпретация полученного значения непарного и парного t-критерия Стьюдента производится одинаково.

Прежде всего, необходимо найти число степеней свободы к — для непарного и f - для парного по следующим формулам:

к = П1 + П2- 2

f=n- 1

После этого определяем критическое значение t-критерия Стьюдента для требуемого уровня значимости (например. р<(),()5) и при данном числе степеней свободы по таблице 6.

Далее сравниваем критическое и рассчитанное значения критерия:

  • • Если рассчитанное значение парного t-критерия Стьюдента равно или больше критического, найденного по таблице, делаем вывод о статистической значимости различий между сравниваемыми величинами.
  • • Если значение рассчитанного парного t-критсрия Стьюдента меньше табличного, то различия сравниваемых величин статистически нс значимы.

Как и в случае сравнения независимых выборок, для применения парного l-критсрия необходимо, чтобы исходные данные имели нормальное распределение. При несоблюдении этого условия для сравнения выборочных средних должны использоваться методы непараметрической статистики. Рассмотрим некоторые из них.

U-критерий Манна-Уитни - непараметрический статистический критерий, используемый для сравнения двух независимых выборок по уровню какого-либо признака, измеренного количественно. Метод основан на определении того, достаточно ли мала зона перекрещиваю-146

щихся значений между двумя вариационными рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.

Таблица 6

Значения t-критерия Стьюдента (р<0,05)

Число степеней свободы, f или к

Значение t-крите-рия

Число степеней свободы, f или к

Значение 1-крите-рия

Число степеней свободы, f или к

Значение t-крите-рия

Число степеней свободы, f или к

Значение t-крите-рия

Число степеней свободы, f или к

Значение 1-крите-рия

1

12.706

15

2.131

29

2.045

48-49

2.011

76-77

1.992

2

4.303

16

2.120

30

2.042

50-51

2.009

78-79

1.991

3

3.182

17

2.110

31

2.040

52-53

2.007

80-89

1.990

4

2.776

18

2.101

32

2.037

54-55

2.005

90-99

1.987

5

2.571

19

2.093

33

2.035

56-57

2.003

  • 100-
  • 119

1.984

6

2.447

20

2.086

34

2.032

58-59

2.002

  • 120-
  • 139

1.980

7

2.365

21

2.080

35

2.030

60-61

2.000

  • 140-
  • 159

1.977

8

2.306

22

2.074

36

2.028

62-63

1.999

  • 160-
  • 179

1.975

9

2.262

23

2.069

37

2.026

64-65

1.998

ISO-199

1.973

10

2.228

24

2.064

38

2.024

66-67

1.997

200

1.972

11

2.201

25

2.060

40-41

2.021

68-69

1.995

00

1.960

12

2.179

26

2.056

42-43

2.018

70-71

1.994

13

2.160

27

2.052

44-45

2.015

72-73

1.993

14

2.145

28

2.048

46-47

2.013

74-75

1.993

U-критерий Манна-Уитни является непараметрическим критерием, поэтому, в отличие от l-критсрия Стьюдснта. нс требует наличия нормального распределения сравниваемых совокупностей.

U-критсрий подходит для сравнения малых выборок: в каждой из выборок должно быть не менее 3 значений признака. Допускается, чтобы в одной выборке было 2 значения, но во второй тогда должно быть нс менее пяти.

Условием для применения U-критерия Манна-Уитни является отсутствие в сравниваемых группах совпадающих значений признака (все числа - разные) или очень малое число таких совпадений.

Порядок расчета U-критсрия Манна-Уитни следующий:

  • - Сначала из обеих сравниваемых выборок составляется единый ранжированный ряд, путем расставления единиц наблюдения по степени возрастания признака и присвоения меньшему значению меньшего ранга. В случае равных значений признака у нескольких единиц каждой из них присваивается среднее арифметическое последовательных значений рангов.
  • - В составленном едином ранжированном ряду общее количество рангов получится равным: N = т + П2, где ni - количество элементов в первой выборке, а Пг- количество элементов во второй выборке.
  • - Далее вновь разделяем единый ранжированный ряд на два, состоящие соответственно из единиц первой и второй выборок, запоминая при этом значения рангов для каждой единицы. Подсчитываем отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно - на долю элементов второй выборки. Определяем большую из двух ранговых сумм (Тх), именно се объем далее обозначается как Их элементов.
  • - Наконец, находим значение U-критсрия Манна-Уитни по формуле:

„ Пх-(Пх+1)

и = • п2 +--------Тх

Интерпретация значения U-критсрия:

Полученное значение U-критерия сравниваем по таблице 7 для избранного уровня статистической значимости (р=0.05 или р=0.01) с критическим значением U при заданной численности сопоставляемых выборок:

Таблица 7

Значения U-критерия Манна-Уитни (р<0,05)

П1

П2

7

8

9

10

11

12

13

14

15

16

17

18

19

20

3

1

2

2

3

3

4

4

5

5

6

6

7

7

8

4

3

4

4

5

6

7

8

9

10

11

11

12

13

13

5

5

6

7

8

9

И

12

13

14

15

17

18

19

20

6

6

8

10

11

13

14

16

17

19

21

22

24

25

27

7

8

10

12

14

16

18

20

22

24

26

28

30

32

34

8

10

13

15

17

19

22

24

26

29

31

34

36

38

41

9

12

15

17

20

23

26

28

30

34

37

39

42

45

48

10

14

17

20

23

26

29

33

36

39

42

45

48

52

55

11

16

19

23

26

30

33

37

40

44

48

51

55

58

62

12

18

22

26

29

33

37

41

45

49

53

57

61

65

69

13

20

24

28

33

37

41

45

50

54

59

63

67

72

76

14

22

26

30

36

40

45

50

55

59

64

67

74

78

83

15

24

29

34

39

44

49

54

59

64

70

75

80

85

90

16

26

31

37

42

48

53

59

64

70

75

81

86

92

98

17

28

34

39

45

51

57

63

67

75

81

87

93

99

105

18

30

36

42

48

55

61

67

74

80

86

93

99

106

112

19

32

38

45

52

58

65

72

78

85

92

99

106

ИЗ

119

20

34

41

48

55

62

69

76

83

90

98

105

112

119

127

- Если полученное значение U меньше табличного или равно ему, то признается статистическая значимость различий между уровнями признака в рассматриваемых выборках (принимается альтернативная гипотеза). Достоверность различий тем выше, чем меньше значение U.

- Если же полученное значение U больше табличного, принимается нулевая гипотеза.

Критерий Уилкоксона (Вилкоксона) (Т-критерий) - непараметрический статистический критерий, используемый для сравнения двух связанных (парных) выборок по уровню какого-либо количественного признака, измеренного в метрической или в порядковой шкале.

Суть метода состоит в том, что сопоставляются величины выраженности сдвигов значений признака в том или ином направлении.

Порядок расчета Т-критсрия Уилкоксона:

  • 1. Определяются значения сдвигов по каждой паре признаков.
  • 2. Производится ранжирование модулей всех сдвигов.
  • 3. Вычисляется Т-критерий путем суммирования рангов нетипичных сдвигов.
  • 4. Значение Т-критсрия сравнивается с табличным (таблица 8). Если полученное значение меньше табличного, то принимается альтернативная гипотеза, если больше - нулевая.

Ограничения применения Т-критерия заключаются в том, что:

  • 1. Число обследуемых при использовании Т-критерия Уилкоксона должно быть нс менее 5 и нс более 50.
  • 2. Данный критерий используется только в случае сравнения двух рядов измерений.
  • 3. Не применяется для качественных показателей

Для оценки достоверности различия долей применяется критерий Фишера.

Точный критерий Фишера - это критерий, который используется для сравнения двух относительных показателей, характсризу ющих частоту определенного признака, имеющего два значения.

Условия использования критерия Фишера:

  • 1. Переменные измеряются в номинальной шкале и имеют только два значения.
  • 2. Сравниваться могут только две независимые группы.
  • 3. Критерий подходит для сравнения очень малых выборок.
  • 4. Точный критерий Фишера бывает односторонним и двусторонним. При одностороннем варианте точно известно, куда отклонится один из показателей. Двусторонний тест оценивает различия частот по двум направлениям. То есть оценивается вероятность как большей, так и меньшей частоты явления в экспериментальной группе по сравнению с контрольной группой.

Таблица 8

Значения Т-крнтерня Уилкоксона

п

р=0.05

р=0.01

п

р=0.05

р=0.01

п

р=0.05

р=0.01

5

0

21

67

49

37

241

198

6

2

22

75

55

38

256

211

7

3

0

23

83

62

39

271

224

8

5

1

24

91

69

40

286

238

9

8

3

25

100

76

41

302

252

10

10

5

26

НО

84

42

319

266

11

13

7

27

119

92

43

336

281

12

17

9

28

130

101

44

353

296

13

21

12

29

140

110

45

371

312

14

25

15

30

151

120

46

389

328

15

30

19

31

163

130

47

407

345

16

35

23

32

175

140

48

426

362

17

41

27

33

187

151

49

446

379

18

47

32

34

200

162

50

466

397

19

53

37

35

213

173

20

60

43

36

227

185

Порядок расчета точного критерия Фишера:

  • - Составляется четырехпольная таблица сопряженности (Таблица 9);
  • - Точный критерий Фишера рассчитывается по формуле:

_ (Л + В)! ? (С + В)! • (Л + С)! • (В + В)!

Р ~ Л! - В! - С! - В! - 7V! где N - общее число исследуемых в двух группах;

! - факториал, представляющий собой произведение числа на последовательность чисел, каждое из которых меньше предыдущего на 1 (например, 4! = 4 • 3 • 2 • 1).

Интерпретация значения точного критерия Фишера не требует сопоставления с критическими значениями, так как полученное по рассчстной формуле число соответствует уровню значимости р. Остается только решить удовлетворяет ли нас такой уровень значимости или нет, помня, что чем меньше р, тем выше Р — вероятность существования истинных различий между сравниваемыми выборками по исследуемому показателю.

Таблица 9

Шаблон четырехпольной таблицы сопряженности

^^~~^-4ндчснис контрольной пере-менно й Значение фактора -

1

2

Всего

1

А

В

(А + В)

2

С

D

(C + D)

Всего

(А + С)

(B + D)

(А + В + С + D)

Методы измерения связи между явлениями

Помимо оценки значимости различий не менее часто к использованию статистических показателей прибегают при необходимости установить наличие или отсутствие связи между7 двумя переменными. В этом случае проводят корреляционный анализ.

Наличие корреляционной связи между переменными означает, что изменению одной переменной сопутствуют однонаправленные (в том же или противоположном направлении) изменения другой переменной. Важно понимать, что речь идет о некоторой синхронности изменений, а не о непосредственной причинно-следственной связи между соответствующими признаками. Синхронность изменений может быть обусловлена не только непосредственным влиянием одного параметра на другой, но и их совместной зависимостью от третьей переменной (фактора).

Характер корреляционной связи устанавливают по значению коэффициента корреляции, который принимает значения от -1 до +1. Существует два основных критерия корреляции.

Критерий корреляции Пирсона - это метод параметрической (требующей нормального распределения) статистики, позволяющий определить наличие или отсутствие линейной связи между количественными показателями двух признаков одной выборки, а также оценить тесноту и статистическую значимость данной связи. Обозначается коэффициент корреляции обычно как Гхгили Rxy.

Формула для расчета коэффициента корреляции Пирсона:

X (х dy)

где dx = х — х, dy = у — у.

Для оценки тесноты, или силы, корреляционной связи общепринятый подход к интерпретации, согласно которым абсолютные значения Гху < 0.3 свидетельствуют о слабой связи, значения гху от 0.3 до 0.7 -о связи средней тесноты, значения г^ > 0.7 - о сильной связи.

Более точное значение статистической значимости коэффициента корреляции получают путем расчета ^-критерия по формуле:

г-гул/п — 2

tr = у у/1-rfy

Затем значение tr сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы п-2. Если tr превышает критическое (Таблица 4), то делается вывод о статистической значимости выявленной корреляционной связи.

В случае, когда распределение значений признаков нс соответствует нормальному', используют непараметрический метод Спирмена.

Коэффициент ранговой корреляции Спирмена - это нспарамст-рический метод, который используется с целью статистического изучения связи между' явлениями, измеренными по метрической или порядковой шкале. Обозначается как rs.

Порядок расчета коэффициента корреляции Спирмена:

  • 1. Производится ранжирование значений каждого из признаков по возрастанию или убыванию.
  • 2. В каждой парс сопоставляемых значений высчитывается разность рангов (
  • 3. Полученные разности возводятся в квадрат и суммируются.
  • 4. Производится вычисление коэффициента корреляции рангов по формуле:

б-?с/2 г=1--

  • 5 п(п2 1)
  • 5. Определяется статистическая значимость коэффициента при помощи /-критерия, рассчитанного по следующей формуле:

г/п — 2

V1 — г2

Интерпретация значений коэффициента Спирмена осу ществляет-ся так же, как и коэффициента Пирсона.

Таким образом, статистические методы имеют большое значение в современных научных исследованиях. Практически все описанные в данном параграфе показатели могут быть рассчитаны с использованием специальных компьютерных программ, среди которых наиболее доступным является пакет Microsoft Excel. Кроме того, стоит отмстить такие программы как Statistica и SPSS, которые содержат расширенный пакет статистических методов анализа данных. Однако, чтобы грамотно пользоваться статистическими методами, необходимо знать их предназначение и условия применимости, а также понимать принципы интерпретации полученных показателей.

Задания для подготовки к семинарскому занятию:

Общие задания

1. В городе X в 2018 году' проведено изучение удовлетворенности жизнью. Субъективные оценки удовлетворенности по пятибалльной шкале (0 - абсолютно неудовлетворен: 5 - полностью удовлетворен) представлены в таблице ниже. По данным аналогичного исследования, выполненного в том же городе двадцатью годами ранее, средняя 154

оценка удовлетворенности жизнью составила 3,0 балла, s ± 1,2 балла. Вычислите среднее арифметическое значение (х), среднеквадратическое отклонение (s), а также коэффициент вариации признака «удовлетворенность жизнью» Сх = s/x‘ 100% по данным 2018 года, сравните показатели с показателями предыдущего исследования. Сделайте выводы.

Удовлетворенность жизнью, баллы

Количество респондентов.

чел.

0

10

1

90

2

160

3

200

4

400

5

140

Итого:

1000

  • 2. Произведено исследование простой случайной выборки объемом 500 человек. Объем генеральной совокупности - 1 000 000 человек. По результатам исследования, лица, собирающиеся принять участие в голосовании, составили 45 % выборочной совокупности. Рассчитайте среднеквадратичное отклонение, дисперсию, предельную ошибку' выборки и доверительный интервал с вероятностью Р = 95 %.
  • 3. Произведен социологический опрос выборочной совокупности объемоу! 20 семей с детьми-старшеклассниками, объем генеральной совокупности - 50 000 семей. Изучался объем ежемесячных финансовых вложений в образование ребенка. По показателям уровня материального достатка в выборке были выделены на 5 страт. Полученные результаты приведены в таблице ниже.

Семья

Группа

I.

II.

III.

IV.

V.

Расходы на образование ребенка, руб.

1.

500

700

500

4000

10000

2.

200

1200

1500

2200

8000

3.

1000

800

2000

500

25000

4.

400

600

1000

1000

5000

*1

525

825

1250

1925

12000

На основании приведенных данных произведите расчеты:

среднего значения ежемесячных расходов на ребенка-

старшсклассника в целом по выборке (х),

средних значений ежемесячных расходов на ребенка-

старшеклассника в отдельных стратах (xt),

  • - общей дисперсии по выборке s2,
  • - межгрупповой дисперсии s~,
  • - средней внутригрупповой дисперсии s2,
  • - среднеквадратического отклонения s,
  • - стандартной ошибки выборочной средней тх,
  • - предельной ошибки выборки Дх с вероятностью Р — 95%,
  • - доверительного интервала.
  • 4. Рассчитайте объем выборки, необходимой для получения результата с предельной ошибкой, не превышающей 5 %, с вероятностью 95%. При расчете дисперсии качественных признаков w принять равной 0,5.
  • 5. В ходе социологического опроса лиц с высшим образованием полностью удовлетворенных своим профессией оказалось 25% (т - ± 3%). Частота аналогичных ответов респондентов без высшего образования составила 15% (ш = ± 2,5%). Рассчитайте критерий Стьюдента и оцените достоверность различий в доле полностью удовлетворенных трудом в двух опрошенных выборках.
  • 6. При изучении воздействия материальной стимуляции на производительность труда было установлено, что средняя выработка 25 работниц швейного цеха после введения повышающего коэффициента составила 1000 единиц: m = ± 100 единиц в сутки. Средняя выработка у тех же швей до введения материальной стимуляции равнялась 750 единиц в сутки; m = ± 50. Рассчитайте коэффициент Стьюдента и оцените достоверность различий средней выработки до и после введения материальной стимуляции.
  • 7. В ходе исследования ценностных ориентаций студентов ВУЗов и ССУЗов по методике Рокича были получены данные относительно ранга ценности «удовольствия», приведенные в таблице ниже. Рассчитайте U-критерий. сделайте выводы о достоверности различий.

Выборка

Место «удовольствия» в системе жизненных ценностей

Студенты ВУЗов

7

9

8

13

10

9

11

7

9

8

Студенты ССУЗов

8

5

7

1

4

7

5

2

4

-

8. В ходе исследования образа жизни молодых супругов изучалось среднесуточное время, которое мужья и жены проводят в социальных сетях. Полученные результаты приведены в таблице ниже. Рассчитайте критерий Вилкоксона и сделайте выводы о достоверности различий.

Выборка

Среднесуточная продолжительность времени, проводимого в соцсетях

Мужья

2

4

2

1

3

4

2

1,5

1

2

Жены

3

3

5

1

1

2

4

5

3

2

9. В ходе опроса 750 студентов ВУЗов (400 женского пола, 350 мужского пола) было установлено, что имели одну или более задолженностей по завершении последней сессии 82 девушки и 80 парней. Рассчитайте точный критерий Фишера и сделайте вывод о том, есть ли различия в количестве неуспевающих среди студентов разного пола.

10. Определите тесноту и статистическую значимость корреляционной связи между7 двумя количественными показателями: уровнем заработной платы работающих студентов и их успеваемостью. Данные полученные на выборке, состоящей из 5 респондентов, приведены в таблице:

N

Уровень заработной платы, тыс. р.

Средний рейтинг успеваемости

1.

7

90

2.

15

85

3.

25

65

4.

20

62

5.

18

75

Дополнительная литература по теме:

  • 1. Рабочая книга социолога / под рсд Г. В. Осипова. — 3-е изд. — М.: УРСС, 2003, —477 с.
  • 2. Чуриков А. Случайные и неслучайные выборки в социологических исследованиях // Социальная реальность. - №4. - 2007. - С. 89 -109.

Учебное издание

Громакова Виктория Георгиевна

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЕ

ОБЕСПЕЧЕНИЕ В КОНФЛИКТОЛОГИИ

  • [1] Данное правило справедливо только при нормальном распределении значений признака. Однако согласно центральной предельной теоремы теории вероятностей, если результат наблюдения является суммой многих случайных слабо взаимозависимых величин (такими величинами являются значения наблюдаемого признака у разных респондентов), то при увеличении числа слагаемых распределение центрированного и нормированного результата стремится к нормальному. Соответственно, в любой случайной выборке достаточного объема (не меньше 30) распределение значений признака можно считать нормальным.
  • [2] Теория измерений в социологии: учебная программа, рекомендации по проведению семинарских занятий и организации самостоятельной работы студентов, инструкции по проведению лабораторных работ / Учебное пособие / МГУ. М.. 2001. - 167 с.
  • [3] Теория измерений в социологии: учебная программа, рекомендации по проведению семинарских занятий и организации самостоятельной работы студентов, инструкции по проведению лабораторных работ / Учебное пособие / МГУ. М.. 2001. - 167 с.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ