Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
В.И. Тихонов
ПРОБЛЕМЫ КАТЕГОРИЗАЦИИ ПРИ КОНТЕНТ-АНАЛИЗЕ[1]
Историческая наука в России в настоящий момент переживает не самое лучшее
время. С одной стороны, происходит ломка прежних исторических и методологических
стереотипов, с другой стороны, от историков требуют четкого и однозначного ответа на
ряд вопросов, которые ранее избегала советская историография. Эти обстоятельства
проявляются при изучении всех периодов русской истории. Одним из ответов историков
на возросшие запросы общества стало их обращение к проблеме "человеческого фактора"
в истории - быту людей, их отношение к органам власти, восприятие и оценка ими всего
происходящего в стране.
Подобные проблемы привлекательны и тем, что существует широкая источниковая
база для их изучения: челобитные, прошения, письма и жалобы в административные
органы. Массовость и нарративный характер этих источников открывают широкие
перспективы применения контент-анализа. Между тем, примеры подобных исследований
крайне немногочисленны, если не сказать единичны. То немногое, что сделано с помощью
контент-анализа настороженно воспринимается не только традиционными историками, но
и в среде квантификаторов, усматривающих в нем преобладание субъективизма и насилие
над источником. Данная статья является попыткой анализа противоречий и недостатков
контент-анализа, а также предлагает один из путей их преодоления.
Недостатки традиционного метода контент-анализа.
Общепринято, что контент-анализ состоит из трех основных этапов: 1) выделяются
единицы анализа, которые затем сводятся в категории анализа и переводятся в
машиночитаемых вид; 2) проводится подсчет частот категорий, применяется различный
математический аппарат для выявления взаимосвязей между ними; 3) осуществляется
интерпретация полученных результатов. В этой аналитической цепочке наиболее
уязвимым является ее первое звено. Проблема в том, что выбор единиц контент-анализа
(т.е. выбор того, что считать) зависит от исходных методологических принципов
исследователей, которые могут не совпадать. Это обусловлено рядом причин.
Во-первых, исследователи могут не сходиться в выборе предмета своего
исследования. Согласно теории информации, любое сообщение содержит как
потенциальную, так и актуальную информацию. Актуальная информация - та, которая
выявлена и осознана субъектом, из чего вытекает его активная роль в информационном
процессе. Направленность субъекта на поиск информации определяется его нуждами,
целями и задачами. Исходя из своего представления о смысле и пружинах истории,
историк ищет и находит значимую для него информацию. Поэтому разные исследователи
могут зафиксировать разные единицы анализа.
Во-вторых, сведение единиц контент-анализа в категории является их своеобразной
классификацией. При этом критерии такой классификации бывают чрезвычайно
расплывчаты и туманны. Они опираются на экспертные оценки историка, зависят от
общего уровня его подготовки и знания исторических реалий данного периода.
Количество самих категорий будет зависеть от степени допускаемого обобщения
исторического материала. Таким образом, основной недостаток традиционного метода
контент-анализа заключается в том, что в основе категоризации лежат экспертные оценки
историка. Именно это обстоятельство и вызывает сомнения в объективности контент-
анализа. Нарушается один из основных методологических принципов научного
исследования: возможность воспроизведения условий и результатов опыта разными
исследователями[2].
Постановка проблемы.
Возможен ли другой подход? Допустима ли формализация при выборе категорий
контент-анализа? В 70-80-е годы в советской историографии на эти вопросы сложился
2
г. Москвы, в объединении "Мосгорархив" была создана база данных. Текст заявлений был
полностью представлен в одной из групп базы данных[6]. Единственным отступлением от
источнико-ориентированной идеологии в этом случае было то, что внутри элементарной
информации каждое предложение текста заявлений отделялось точкой с запятой. Таким
образом, каждое предложение стало самостоятельной записью базы данных, что открыло
возможность их выуживания и кодирования. Всего было введено 494 заявления от 364
человек.
Предлагаемая методика.
Первый этап работы состоял в создании каталога и формировании списков
словоформ. Изначально планировалось брать словоформы, обладающие частотой более 5.
Однако, в этом случае число словоформ, а значит и число анализируемых взаимосвязей,
оказывалось чрезвычайно высоким. Учитывая то, что работа носила экспериментальный
характер и была направлена на отработку методики, было решено ограничиться анализом
взаимосвязей между словоформами, обладавшими частотой не менее 30. Русский язык
обладает очень развитой структурой и морфологическим разнообразием. Поэтому
отбираемые словоформы подверглись некоторой формализации. Так, в единые списки
сводились существительные, прилагательные и причастия в косвенных падежах. Глаголы
и деепричастия сводились в зависимости от формы времени. Учитывались только те
списки, в которых общая сумма частот составлявших их словоформ была более 30. Таким
образом, образовалось 215 списков словоформ.
KLEIO не располагает продвинутым математическим аппаратом для анализа
взаимосвязей показателей. Однако, она имеет хорошие возможности для экспорта данных
в другие статистические пакеты, в частности в SPSS. Для получения таблицы, в KLEIO
был создан макет кодировки с числом переменных равным числу списков словоформ.
Каждое предложение в нем было закодировано в зависимости от наличия (1) или
отсутствия (0) одной из 215 переменных. Затем макет кодировки был транслирован в
SPSS PC+ 4.0.1. Получилась таблица показателей из 3395 объектов и 215 переменных.
Выбор коэффициента связи пал на Asymmetric Uncertainty Coefficient (AUC в SPSS)
- ассиметричный коэффициент неопределенности. Он позволяет не только определить
круг приоритетных связей для каждой переменной, но и установить иерархические связи
внутри пар зависимых переменных. Рассматривались только те пары переменных, частота
совместного появления которых была более 5. Из 92450 (215 x 215 x 2)
проанализированных взаимосвязей значимыми (T > 1.0) оказалось 1674. При этом 20
переменных не проявили сколько-нибудь заметных связей. В зависимости от силы,
взаимосвязи были разделены на 3 группы: 1) низкие, при 1.0 < T < 1.9; 2) средние, при 2.0
< T < 2.9; и 3) высокие, при 3.0 < T. Самым высоким значение T оказалось для
словосочетания "избирательные права" (12.9), что выглядит вполне естественным.
Для распутывания клубка взаимосвязей в матрице был применен графологический
метод. За основу каждого графа принимались средние и высокие взаимосвязи, а затем к
ним достраивались низкие, так, чтобы все вершины графа по возможности оказались бы
связанными. Графы строились направленными: направление зависело от отношения
значений AUC в паре связанных переменных. Если значение коэффициента одной
переменной было на порядок выше значения другой (т.е. первая переменная теснее
связана со второй, а не наоборот), то направление выстраивается от первой. Например, в
паре переменных "без" и "труда" значение AUC равно 0.08, если "без" зависимая
переменная, и - 0.02, если зависимая "труда". Это значит, что вероятность появления
переменной "без" при появлении переменной "труда" гораздо выше, чем наоборот, и
следовательно, первая переменная подчиняется второй. Если же значения коэффициентов
сравнимы, то ребра графа будут равнонаправлены. Таким образом, в графах
устанавливалась иерархическая структура и определялись доминирующие вершины.
4