Анализ документов

Среди методов сбора эмпирической информации в социальных науках и психологии большое значение имеют методы анализа документов.

Прежде всего, обратим внимание на то, что понятие документа в данном контексте отличается от обыденного. Так в повседневной жизни словом «документ» мы обозначаем только официальные материалы. В социальных науках документ — это любой материальный объект, содержащий фиксированную в нем информацию. Так, в качестве документов могут рассматриваться любые тексты, изложенные на бумаге (бересте, папирусе, стене здания и т. п.) или на цифровом носителе (дискета, компакт-диск, флеш-карта, жесткий диск компьютера), а также фотографии, аудио- и видеозаписи.

Существуют различные основания для классификации документов.

По своему' статусу документы бывают:

  • - официальные (законы, распоряжения, заявления, стенограммы заседаний правительственных органов, отчеты служб государственной и ведомственной статистики, внутренние документы организаций ит. п.);
  • - неофициальные (письма, дневники, мемуары, художественная, научная литература, статьи, заметки, репортажи в СМИ, статистические обобщения, выполненные не государственными службами).

По источнику информации различают документы:

  • - первичные - имеют непосредственное отношение к объекту исследования и не являются результатом научного анализа. К ним относятся все документы, составленные в ненаучных целях, а также первичные данные эмпирических исследований, подученные в ходе прямого наблюдения, опроса.
  • - вторичные - это результаты анализа и обобщения первичных данных: нау чные статьи, отчеты по научным исследованиям.

По степени персонификации выделяют документы:

  • - личные (персонифицированные), которые имеют отношение к конкретной личности: письма, дневники, характеристики, рекомендательные письма;
  • - безличные', статистические или событийные отчеты, сообщения в прессе, протоколы заседаний, нормативные акты.

С чем связана репрезентативность документов? С тем, что каждый предмет созданный человеком, является, в больше или меньшей степени, проекцией его психики и окружающей его социальной реальности. Любой текст несет нс только ту информацию, которую хотел передать автор, но также содержит признаки, указывающие на его интересы, ценностные ориентации, эмоциональное состояние. Поэтому7, даже составляя вымышленный текст, человек передает и часть истинной информации о себе и своем времени. Тем более это справедливо в отношении документов, в которых человек стремился отразить объективную реальность. С другой стороны, информация, представленная в документах никогда нс является абсолютно точным и полным отражением реальности. Это связано не только и не столько с умышленными искажениями, сколько с субъективностью восприятия. Поэтому, чтобы нс сделать ошибочных выводов, нужно знать принципы и владеть методами анализа документов.

Перед тем как присту пить к анализу документов, важно убедиться в их подлинности и надежности. При этом подлинность документа - это соответствие его происхождения тому, которое указывается. Конечно. исследователь изучающий, к примеру, письма эмигрантов должен быть уверен, что эти письма действительно написаны эмигрантами. Надежность - это. как правило, характеристика информации, содержащейся в документе, степень ее достоверности. Например, характеристика с места работы может быть подлинной, но содержащаяся в ней информация недостоверной (неправдивой).

Считается, что надежность первичных документов выше, чем вторичных, а официальных документов - выше, чем неофициальных[1].

При оценке степени достоверности информации исследователь должен учитывать следующие моменты:

  • 1.Что представляет собой информация: описания событий или мнения о них (интерпретации, оценки)? Описания обладают большей достоверностью, чем мнения.
  • 2. Какими могли быть мотивы составителя документа? Что ему было выгодно: представить события более благоприятно, негативно или объективно? Если автор документа составлял отчет о проделанной работе, то негативным аспектам можно доверять, а позитивные могут быть «приукрашены».
  • 3. Какой период времени прошел между описываемыми событиями и их описанием? Чем этот промежуток меньше, тем более достоверной будет информация, поэтому дневники более надежный источник, чем мему ары.
  • 4. Оказывалось ли давление на автора? Документы, составленные в обстоятельствах, располагающих к объективности, заслуживают большего доверия. Если речь идет об отчете проверяющей комиссии, то хорошо бы знать, какие им были даны установки (ориентироваться можно по результатам работы этой же комиссии или того же проверяющего лица в другие периоды времени, в других организациях).
  • 5. В личных документах большего доверия заслуживают описания тех событий, которые не затрагивают интересы автора или наносят емут ущерб, а также в среднем более достоверны описания общеизвестных событий[2].

Существует два подхода к анализу документов: качественный и количественный. Качественный анализ подразумевает выявление в тексте содержательных моментов, проясняющих состояние того аспекта социальной реальности или внутренних переживаний автора, который связан с исследуемой научной проблемой. В отличие от обыденного прочтения текста с целью расширения знания научный анализ направлен на выявление скрытых смыслов, логики текста, взаимосвязей с внешними обстоятельствами его написания и все это осуществ

ляется не хаотично, а по заранее определенному плану’ в рамках проверки рабочей гипотезы исследования.

Количественный анализ текста - это метод перевода смысловой информации, содержащейся в документе, в количественные показатели с их последующей статистической обработкой. Количественный анализ обычно применяют для документов большого объема, а также в тех случаях, когда имеется значительный массив однотипных документов: например, выпуски газеты за определенный период или ответы на открытые вопросы в массовом социологическом опросе.

Самым распространенным методом количественного анализа текстов является контент-анализ, разработанный Гарольдом Лассуэл-лом1.

«Контент-анализ - это методика выявления частоты появления в тексте определенных интересующих исследователя характеристик»[3] .

Для того чтобы контент-анализ был эффективным инструментом, необходимо соблюдение следующих условий:

  • - однозначность-, каждый выделенный индикатор должен соответствовать только одной единице смысла: инструкция кодировщику должна быть настолько точной, чтобы два разных человека, анализируя один документ, получили примерно одинаковые результаты;
  • - систематичность-, анализ документа является частью системы научного исследования и производится на основании результатов концептуального анализа объекта и предмета исследования, диктуется необходимостью проверки гипотезы и осуществляется с учетом результатов операционализации понятий; результаты контент-анализа сопоставляются с данными полученными другими методами;
  • -'репрезентативность', выборка единиц наблюдения должна быть настолько разнообразной и объемной, чтобы максимально полно охватывать все проявления предмета исследования.

Порядок действий при осуществлении контент-анализа заключается в следующем:

1. На основании проведенного анализа научной проблемы и объекта исследования, с учетом рабочей гипотезы, а также концептуального и операционального содержания ключевых понятий выбираются единицы наблюдения, определяются категории анализа и смысловые единицы.

Единицы исследования - это документы, подлежащие анализу: выпуски газет, записи телепередач, ответы на открытые вопросы анкет и т. п.

Категории анализа - это ключевые понятия, раскрывающие содержание объекта, предмета и гипотезы исследования. Определяются в результате концептуализации понятий.

Единицы смысла (подкатегории) - это эмпирические признаки ключевых понятий, выделенные в ходе операционализации’.

2. Составляются списки индикаторов и устанавливаются единицы счета.

Индикаторы (единицы анализа) - здесь это слова, выражения и суждения, соответствующие определенной единице смысла. Список индикаторов может составляться непосредственно в ходе анализа первых документов. При этом каждый новый индикатор включается в уже имеющийся перечень индикаторов определенной смысловой единицы. Пополнение списков продолжается до тех пор, пока не перестанут встречаться новые индикаторы. Для компьютерных программ контент-анализа разработаны специальные семантические словари?

Как уже упоминалось, документом может быть не только печатный или рукописный вербальный текст, но и видеозаписи, фотографии. Для их анализа определяются и соответствующие индикаторы. Так, при анализе видео-документа могут учитываться не только слова (вербальные индикаторы), но и другие виды индикаторов:

  • 1 В данном случае удобнее использовать операционализацию через выделение смысловых аспектов содержания понятия. См. стр. 40.
  • 2 Stone P.J., Dexter С., Dunphy D.C., Smith M.S., Ogilvie D.M. The General Inquirer: A Computer Approach to Content Analysis. Cambridge, MA: The M.I.T. Press, 1966. http://www.wjh.harvard.edu/~inquirer.
  • - невербальные (кинесические: позы, жесты, мимические действия; такссичсскис: прикосновения, похлопывания, рукопожатия, поцелуи),
  • - паравербальные (характеристики речи: высота, громкость, темп),
  • - экстравербальные (неречевые звуки: вздохи, покашливания, паузы, смех, плач),
  • - определенные предметы в кадре.

При анализе фото-документов в качестве индикаторов могут выступать запечатленные объекты, способы взаимного расположения объектов в пространстве и т. п.

Единица счета - это способ количественного учета индикаторов: учет каждого индикатора по отдельности или количества строк, абзацев, авторских листов, статей, единиц исследования в целом, в которых они представлены; при этом может быть простой подсчет или определение доли (удельного веса) от общего объема текста в процентах. Способом счета в анализе видео-доку мента может быть нс только количество упоминаний (появлений в кадре), но и время, в течение которого представлялась соответствующая смысловой единице тема, или объект-индикатор находился в кадре.

3. Разрабатывается инструкция кодировщика и таблица контент-анализа.

Инструкция кодировщика - это методические указания по поводу того, как работать с текстом.

Смысл инструкции заключается в следующем: перед тем, как непосредственно приступить к анализу документа, нужно ознакомиться с категориями анализа и смысловыми единицами, просмотреть список индикаторов. Затем нужно вписать название единицы исследования в строку над таблицей контент-анализа. Если документов много, то целесообразно составить пронумерованный список и затем вписывать порядковые номера. Если предполагается в дальнейшем определять удельный вес каждой смысловой единицы во всем объеме текста, то нужно сосчитать и рядом с названием указать количество слов в единице исследования. Текст необходимо читать внимательно и при обнаружении индикатора из списка делать в таблице напротив соот ветствующей смысловой единицы пометку (например, вертикальную черточку). Если в тексте встречается слово или выражение, которое, по мнению кодировщика, соответствует одной из смысловых единиц, но при этом отсутствует в списке, то его нужно вписать внизу таблицы и также отмечать при каждом упоминании в документе. Иногда также в таблице прису тствуют специальные столбцы для указания с какой оценкой упоминается единица смысла: положительно (+), отрицательной (-), или нейтральной (0).

Результатом работы является заполненная таблица. Если документы анализируются в общем массиве, то закончив делать пометки по одной единице исследования, в той же таблице и том же столбце кодировщик продолжает делать пометки по другой. Но, если документы поделены на гру ппы или предполагается сравнение отдельных документов между собой, то для каждой выделенной гру ппы или отдельных документов выделяются отдельные столбцы в таблице или заполняется отдельная таблица.

Таблица контент-анализа выглядит примерно так:

Название (или порядковый номер) единицы исследования (статьи, журнала, письма и т. п.)____________________________________________

Катсгори> анализа

Единиць смысла

Количество споминаниг

Лоложительна?

оценка(+)

Этрицательна> оценка (-)

4ейтральна> оценка (0)

1.

1.1.

1.2.

1.3.

2.

2.1.

2.2.

2.3.

  • 4. Осуществляется непосредственный анализ документов. В таблицах подсчитываются пометки, у казываются соответствующие числа.
  • 5. Осуществляется статистическая обработка полученных данных в соответствии с задачами исследования.

Статистическая обработка данных контент-анализа может быть представлена самым простым подсчетом частот встречаемости смысловых единиц или категорий анализа в тексте (массиве документов). Частота (/) смысловой единицы (г?) в тексте (/) будет обозначаться:

Ограничиться подсчетом таких частот можно в случае, если нужно просто сравнить частоты встречаемости различных смысловых единиц в одном тексте или наборе текстов без сравнения этих текстов между собой. Например, если мы хотим выяснить, что больше интересует конкретного человека, политика или искусство, можно вычислить и сравнить частоты соответствующих категорий в контенте страниц, открываемых им в Интернете.

Если нужно сравнить два текста между собой по частоте определенных смысловых единиц, то необходимо, чтобы либо тексты были равной длины (что практически невозможно), либо сравнивать удельные веса категорий (иногда их называют условные частоты). Удельный вес категории - это доля единиц счета, в которых эта категория представлена в общей длине (объеме) текста, выраженной в таких же единицах счета (словах, предложениях, строках, абзацах и т. п.). Обозначается удельный вес (условная частота) категории а в тексте t, какp(a,t) и рассчитывается по формуле:

p(a,t) =f{a,t) I L(t), где L(t) - длина текста.

Условные частоты можно перевести в проценты, просто умножив на 100%, тогда часто говорят о процентном распределении частот.

Путем сравнения условных частот мы может проследить изменение значимости определенной смысловой единицы в документах одного человека или одной организации на определенном промежутке времени, а далее делать выводы, к примеру, об изменении ведущей мотивации, динамике уровня агрессии и т. п.

Следующую группу возможностей открывает контекстный контент-анализ. Смысл его заключается в том, что нс просто подсчитывается частота упоминаний определенной единицы смысла или конкретного слова в тексте, а анализируется контекст, сопровождающий данное слово. В качестве единицы контекста может быть предложе ние, в котором обнаружен индикатор, абзац. 5 слов до и 5 слов после индикатора. Такой прием анализа позволяет выявить связи между смысловыми единицами или то, с чем ассоциируется конкретное слово или выражение.

Предположим, что в качестве единицы контекста выбрано предложение. Тогда, контекст смысловой единицы или категории С в тексте t будет выражен формулой:

Ctx(C,t) = {s-{m’}| set, we С, wes}1, где w - слова-индикаторы, s - предложения в которых они встречаются.

Если мы хотим выявить, насколько категория С в тексте t ассоциируется с категорией а, то мы может высчитать по отдельности частоту категории а в контексте категории С (1), и частоту’ этой же категории а в остальном тексте (2):

  • (1) p(a,ctx(C,t)) =f(a, ctx(C,t)) I L(ctx(C,t))
  • (2) p(a, t-ctx(C,t)) =f(a, t-ctx(C,t)) I L(t-ctx(C,t))

Множество слов {w}, которые в контексте категории С встречаются гораздо чаще, чем в остальном тексте обозначаются как col(C.t), от английского collocation — словосочетание, совместное размещение. Таким способом возможно выявление ближайшего семантического пространства слова.

Связи между разными категориями в текстах могут выявляться также посредством другого приема - отображения расположения сопоставляемых категорий в тексте в виде булевых векторов[4] . Осуществляется это следующим образом:

Текст t рассматривается как последовательность предложений , в нем рассматриваются категории С и а. Соответственно, им сопоставляются булевы векторы: р(7,С) и 6 Длины векторов - количество компонент - равны количеству предложений в тексте - п.

P(f.C’) = n>, при этом bi=l, если в z-том предложении имеется индикатор категории С, иначе Ьг=0. Так получаем последовательность нулей и единиц, количество которых равно числу' предложений в тексте. Такжс строим вектор 6 (t,a) = n>, где d; = 1, если в /-том предложении имеется индикатор категории а.

Далее можно рассчитать расстояние Хемминга между' векторами -число компонент, по которым векторы различаются*. Чем, меньше расстояние между векторами, тем сильнее связаны рассматриваемые категории.

Фактически такой же принцип сравнения лежит в основе методики анализа случайностей, предложенной Ч. Осгудом. Чаше она используется в том, случае, если в качестве единицы счета выступает целый текст (документ). Например, анализируются газетные статьи на предмет присутствия в их текстах определенных категорий анализа. Пусть это будут политика, экономика и спорт. Вначале определяются условные частоты по каждой категории. Затем ожидаемые и реальные частоты совместного попарного присутствия категорий. Например, оказалось, ЧТО Рполигика 0,4, Рэкономика 0,5 И Репорт = 0,1. Ожидаемые частоты совпадений рассчитываются путем перемножения частных частот: Рпэо = 0,4*0,5 = 0,2; РПСо = 0,4*0,1 = 0,04; Рзсо = 0,5*0,1 = 0,05. Допустим, реальные частоты оказались Рпэр- 0,3; РпСр = 0,07; Рэср - 0,01. Сравнивая реальные совпадения с ожидаемыми, находим, что в парах категорий: политика - экономика и политика - спорт, - реальные совпадения чаще ожидаемых. Это указывает на связь соответствующих категорий.

Наконец, широко распространен коэффициент Яниса (с), который предназначен для вычисления соотношения положительных и отрицательных (относительно анализируемой смысловой единицы) оценок[5] . В случае, когда число положительных оценок превышает

число отрицательных, коэффициент Яниса подсчитывается по формуле:

f2~f-n с =--------

г • t

где f— число положительных оценок; п — число отрицательных оценок: г — объем контекста анализируемой категории; t — общий объем анализируемого текста.

В случае, когда число положительных оценок меньше, чем отрицательных, коэффициент Яниса находится по формуле

f ? п — п2 с =--------

г ? t

При интерпретации полученных значений коэффициента принимают во внимание знак и числовой модуль. Чем больше последний, тем сильнее выражена соответствующая негативная или позитивная окраска текста.

Посредством контент-анализа при наличии соответствующей документальной базы конфликтолог может решать следующие задачи[6]:

  • - восстанавливать и дополнять сведения о конфликтной ситу ации и динамике конфликта;
  • - выявлять специфику субъективного видения ситу ации участниками взаимодействия, точки совпадения и расхождения взглядов;
  • - выявлять мотивы, интересы, ценностные ориентации участников конфликта;
  • - выявлять конфликты на латентной стадии;
  • - прогнозировать развитие и вероятную форму завершения конфликта.

Вышесказанное определяет значение методов анализа документов в конфликтологии и необходимость овладения ими.

Задания для подготовки к семинарскому занятию:

I. Общие задания

  • 1. Как Вы думаете, могут ли в качестве документов использоваться произведения искусства (картины, скульптуры, музыкальные произведения)? Поясните Ваш ответ.
  • 2. Вновь вернитесь к общим заданиям для подготовки к семинарским занятиям по параграфу 1. Вспомните предложенную вами гипотезу и результат операционализации ключевых понятий. Применимы ли для проверки гипотезы методы анализа документов? Объясните Ваш ответ. Если использование метода анализа документов уместно, то:
  • 2.1. Ответьте на вопрос, какой подход Вы бы предпочли: качественный или количественный. Почему?
  • 2.2. Независимо от ответа на предыдущий вопрос разработайте список единиц исследования, категорий анализа, единиц смысла и индикаторов для проведения контент-анализа, направленного на проверку рабочей гипотезы вашего исследования. Подготовьте таблицу анализа.
  • 2.3. Выберите одну (в слу’чае, если необходимо сравнение, то две) единицы исследования из разработанного Вами списка и проведите их контент-анализ. Данные заносите в таблицу’.
  • 2.4. Произведите расчет частот встречаемости и удельных весов выделенных категорий анализа.
  • 2.5. Оцените степень связи между категориями тремя способами: контекстным анализом, оценкой расстояний между’ булевыми векторами, по методике анализа случайностей. Сравните полученные результаты. Сделайте выводы: во-первых, относительно того, какие категории оказались связанными и о чем это говорит, во-вторых, совпадают ли результаты оценки связей категорий, полученные разными способами. Какой способ оценки связей между категориями Вам понравился больше и почему?
  • 2.6. Определите, с каким отношением автор текста упоминал ана-лизиру емые Вами категории. Если отношение не было нейтральным, то рассчитайте коэффициент Яниса и объясните смысл полученного значения.

Если метод анализа доку ментов не подходит для проверки вашей гипотезы, то помогите с выполнением заданий данного пункта кому-либо из ваших однокурсников.

3. Как бы Вы оценили полезность метода контент-анализа для решения задач конфликтологического исследования в свете выполненного Вами предыду щего задания? Поясните Ваш ответ.

II. Индивидуальные задания

Подготовьте сообщения на темы:

  • 1. Конте нт-а нал из в психологии и социологии: сходства и различия.
  • 2. Мсжкодировочная надежность контент-анализа. способы се оценки.
  • 3. Автоматизированный и ручной контент-анализ: преимущества и недостатки.

Дополнительная литература по теме:

  • 1. Ядов В. А. Стратегия социологического исследования. Описание, объяснение, понимание социальной реальности. 7-е издание. М.: «Добросвет», 2003. - 596 с.
  • 2. Федотова Л. Н. Анализ содержания - социологический метод изучения средств массовой коммуникации. - М.: Институт социологии РАН, 2001.
  • 3. Хогенраад Р. Прогнозирование развития конфликтов при помощи компьютерного контент-анализа // Социология: 4М. — 2004. — №19.— С.158-175.
  • 4. Шалак В. И. Контент-анализ. Приложения в области: политологии, психологии, социологии, культурологии, экономики, рекламы. — М.: Омега-Л, 2004. - Т11 с.

  • [1] Ядов В. А. Стратегия социологического исследования. Описание, объяснение, понимание социальной реальности. 7-е издание. М.: «Добросвет», 2003. - 596 с. С. 212.
  • [2] Gottshalk L., Kluckhahn С.. Angell R. The use of personal documents in History, Anthropology and Sociology // Bull. Soc. Sci. Res. CouciL 1945. № 53.
  • [3] Lasswell H.D. Analyzing the content of mass communication: A brief introduction. N.Y. Prentice-Hall. 1942. 2 Федотова Л. II. Анализ содержания - социологический метод изучения средств массовой коммуникации. - М.: Институт социологии РАН. 2001.
  • [4] Читается: контекст категории С в тексте t равен множеству предложений s минус множество слов w. при условии, что (предложение) s принадлежит (тексту)Г (слово) w принадлежит (категории) С и (слово) w принадлежит (предложению) s. Условные обозначения: {} - задание множества единиц. | - пояснение условий задания множества. 2 Булев вектор - это число или множество, заданное в двоичном коде, т.е. в последовательности нулей и единиц, которые называются его компонентами
  • [5] Такие компоненты называются ортогональными в данной паре векторов: i-я компонента считается ортогональной для векторов р и 8, если bi ± di. 2 Щеткина М. А. Совершенствование системы социального обслуживания в Республике Беларусь: оценка общественного мнения // Проблемы управления. 2010. №2. С. 86-89; КОНТЕНТ-АНАЛИЗ СОЦИАЛЬНЫХ Ветитнев А. М..Ашкинадзе Я. А. Сетей как метод изучения удовлетворенности отдыхающих санаторно-курортным сервисом // Вестник СГУТиКД. 2010. № 4 (14). - С. 9 - 15.
  • [6] Хогенраад Р. Прогнозирование развития конфликтов при помощи компьютерного контент-анализа // Социология: 4М. — 2004. —№19. — С.158-175; Шалак В. И. Контент-анализ. Приложения в области: политологии, психологии, социологии, культурологии, экономики, рекламы. — М.: Омега-Л. 2004. - 272 с.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >