Вы находитесь на странице: 1из 9

1

В.И. Тихонов
ПРОБЛЕМЫ КАТЕГОРИЗАЦИИ ПРИ КОНТЕНТ-АНАЛИЗЕ[1]
Историческая наука в России в настоящий момент переживает не самое лучшее
время. С одной стороны, происходит ломка прежних исторических и методологических
стереотипов, с другой стороны, от историков требуют четкого и однозначного ответа на
ряд вопросов, которые ранее избегала советская историография. Эти обстоятельства
проявляются при изучении всех периодов русской истории. Одним из ответов историков
на возросшие запросы общества стало их обращение к проблеме "человеческого фактора"
в истории - быту людей, их отношение к органам власти, восприятие и оценка ими всего
происходящего в стране.
Подобные проблемы привлекательны и тем, что существует широкая источниковая
база для их изучения: челобитные, прошения, письма и жалобы в административные
органы. Массовость и нарративный характер этих источников открывают широкие
перспективы применения контент-анализа. Между тем, примеры подобных исследований
крайне немногочисленны, если не сказать единичны. То немногое, что сделано с помощью
контент-анализа настороженно воспринимается не только традиционными историками, но
и в среде квантификаторов, усматривающих в нем преобладание субъективизма и насилие
над источником. Данная статья является попыткой анализа противоречий и недостатков
контент-анализа, а также предлагает один из путей их преодоления.
Недостатки традиционного метода контент-анализа.
Общепринято, что контент-анализ состоит из трех основных этапов: 1) выделяются
единицы анализа, которые затем сводятся в категории анализа и переводятся в
машиночитаемых вид; 2) проводится подсчет частот категорий, применяется различный
математический аппарат для выявления взаимосвязей между ними; 3) осуществляется
интерпретация полученных результатов. В этой аналитической цепочке наиболее
уязвимым является ее первое звено. Проблема в том, что выбор единиц контент-анализа
(т.е. выбор того, что считать) зависит от исходных методологических принципов
исследователей, которые могут не совпадать. Это обусловлено рядом причин.
Во-первых, исследователи могут не сходиться в выборе предмета своего
исследования. Согласно теории информации, любое сообщение содержит как
потенциальную, так и актуальную информацию. Актуальная информация - та, которая
выявлена и осознана субъектом, из чего вытекает его активная роль в информационном
процессе. Направленность субъекта на поиск информации определяется его нуждами,
целями и задачами. Исходя из своего представления о смысле и пружинах истории,
историк ищет и находит значимую для него информацию. Поэтому разные исследователи
могут зафиксировать разные единицы анализа.
Во-вторых, сведение единиц контент-анализа в категории является их своеобразной
классификацией. При этом критерии такой классификации бывают чрезвычайно
расплывчаты и туманны. Они опираются на экспертные оценки историка, зависят от
общего уровня его подготовки и знания исторических реалий данного периода.
Количество самих категорий будет зависеть от степени допускаемого обобщения
исторического материала. Таким образом, основной недостаток традиционного метода
контент-анализа заключается в том, что в основе категоризации лежат экспертные оценки
историка. Именно это обстоятельство и вызывает сомнения в объективности контент-
анализа. Нарушается один из основных методологических принципов научного
исследования: возможность воспроизведения условий и результатов опыта разными
исследователями[2].
Постановка проблемы.
Возможен ли другой подход? Допустима ли формализация при выборе категорий
контент-анализа? В 70-80-е годы в советской историографии на эти вопросы сложился
2

однозначно отрицательный ответ. Западные исследователи были не столь категоричны.


Еще в 60-е годы появился ряд работ, авторы которых стремились избежать всякой
априорной категоризации. В качестве единиц анализа они брали слова, а категоризацию
проводили с помощью тематических словарей или каталогов. Американцы H.P. Iker и N.I.
Harway предложили автоматизированную компьютерную систему для контент- анализа, в
основе которой было использование факторного анализа[3]. Впрочем, успехи были более,
чем скромными. Критики справедливо указывали на трудности учета контекста при
использовании машинных словарей, и проблемы с интерпретацией получаемых факторов
[4]. Но, если главная проблема применения в контент-анализе каталогов слов заключалась
в их контекстном употреблении, то можно попытаться провести категоризацию с учетом
этого контекста. Так возникла идея настоящей работы. Коротко она состоит в следующем.
Определение историком единиц контент-анализа происходит путем приписывания
группе связанных словоформ определенного общего смысла. Эти словосочетания тем
ближе друг к другу, чем устойчивее в них связи между словоформами. Они и будут
составлять категории контент- анализа, а их количество будет определять количество
категорий. Выявление устойчивых связей словоформ в словосочетаниях, кроме того,
позволяет учесть их контекст: синонимичность и амонимичность. В основе подобного
подхода к категоризации лежит убеждение, что категории выражают собой отдельные
стороны исторического явления. Если это явление массовое и устойчивое, оно найдет
отражение во многих документах в ограниченном количестве контекстных
словосочетаний, которые можно зафиксировать.
Полигоном для апробации метода стала источнико- ориентированная база данных
"Лишенцы", созданная в KLEIO на основе личных дел жителей Москвы,
ходатайствовавших на рубеже 20-30-х годов XX в. о восстановлении в избирательных
правах. KLEIO является мощным орудием источнико- ориентированной обработки
данных и обладает рядом несомненных достоинств для проведения намеченного способа
контент-анализа: возможностями контекстного поиска словосочетаний и их
последующего кодирования.
Прежде, чем перейти к более детальному рассмотрению предлагаемого способа
категоризации, необходимо несколько слов сказать об источнике и базе данных.
Источник и база данных.
Личные дела лишенцев отразили одно из самых драматичных явлений советской
истории: проведение Советским государством дискриминационной социальной политики
по отношению части своих граждан. Лишение избирательных прав в 20-30-х годах стало
эффективным средством проведения такой политики, главной целью которой было
уничтожение "нетрудовых и эксплуататорских элементов". Согласно Советской
Конституции 1924 г., лишению избирательных прав подвергались лица, применявшие
наемный труд и жившие на нетрудовые доходы: от торговли, от собственности и проч.
Таким образом, лишенцами становились многие категории советских граждан - торговцы,
ремесленники, крестьяне-середняки и кулаки, священники, так называемые "бывшие", а
так же их иждивенцы. Статус лишенца означал не только потерю права на голосование,
но, самое главное, потерю всех социальных привилегий. Лишенцы облагались высокими
налогами, лишались пенсий, бесплатной медицинской помощи, продовольственных
карточек. Их увольняли с работы, выселяли из крупных городов, их детей не допускали в
средние и высшие учебные заведения[5].
Вот почему лишенцы прилагали все усилия, чтобы восстановить свои
избирательные права. Для этого они обращались в избирательные комиссии с жалобами и
другими документами, чтобы доказать свою трудовую деятельность, что сделало личные
дела необычайно ценным источником по социальной истории Советской России. На
основе личных дел, сохранившихся в архивном фонде одной из избирательных комиссий
3

г. Москвы, в объединении "Мосгорархив" была создана база данных. Текст заявлений был
полностью представлен в одной из групп базы данных[6]. Единственным отступлением от
источнико-ориентированной идеологии в этом случае было то, что внутри элементарной
информации каждое предложение текста заявлений отделялось точкой с запятой. Таким
образом, каждое предложение стало самостоятельной записью базы данных, что открыло
возможность их выуживания и кодирования. Всего было введено 494 заявления от 364
человек.
Предлагаемая методика.
Первый этап работы состоял в создании каталога и формировании списков
словоформ. Изначально планировалось брать словоформы, обладающие частотой более 5.
Однако, в этом случае число словоформ, а значит и число анализируемых взаимосвязей,
оказывалось чрезвычайно высоким. Учитывая то, что работа носила экспериментальный
характер и была направлена на отработку методики, было решено ограничиться анализом
взаимосвязей между словоформами, обладавшими частотой не менее 30. Русский язык
обладает очень развитой структурой и морфологическим разнообразием. Поэтому
отбираемые словоформы подверглись некоторой формализации. Так, в единые списки
сводились существительные, прилагательные и причастия в косвенных падежах. Глаголы
и деепричастия сводились в зависимости от формы времени. Учитывались только те
списки, в которых общая сумма частот составлявших их словоформ была более 30. Таким
образом, образовалось 215 списков словоформ.
KLEIO не располагает продвинутым математическим аппаратом для анализа
взаимосвязей показателей. Однако, она имеет хорошие возможности для экспорта данных
в другие статистические пакеты, в частности в SPSS. Для получения таблицы, в KLEIO
был создан макет кодировки с числом переменных равным числу списков словоформ.
Каждое предложение в нем было закодировано в зависимости от наличия (1) или
отсутствия (0) одной из 215 переменных. Затем макет кодировки был транслирован в
SPSS PC+ 4.0.1. Получилась таблица показателей из 3395 объектов и 215 переменных.
Выбор коэффициента связи пал на Asymmetric Uncertainty Coefficient (AUC в SPSS)
- ассиметричный коэффициент неопределенности. Он позволяет не только определить
круг приоритетных связей для каждой переменной, но и установить иерархические связи
внутри пар зависимых переменных. Рассматривались только те пары переменных, частота
совместного появления которых была более 5. Из 92450 (215 x 215 x 2)
проанализированных взаимосвязей значимыми (T > 1.0) оказалось 1674. При этом 20
переменных не проявили сколько-нибудь заметных связей. В зависимости от силы,
взаимосвязи были разделены на 3 группы: 1) низкие, при 1.0 < T < 1.9; 2) средние, при 2.0
< T < 2.9; и 3) высокие, при 3.0 < T. Самым высоким значение T оказалось для
словосочетания "избирательные права" (12.9), что выглядит вполне естественным.
Для распутывания клубка взаимосвязей в матрице был применен графологический
метод. За основу каждого графа принимались средние и высокие взаимосвязи, а затем к
ним достраивались низкие, так, чтобы все вершины графа по возможности оказались бы
связанными. Графы строились направленными: направление зависело от отношения
значений AUC в паре связанных переменных. Если значение коэффициента одной
переменной было на порядок выше значения другой (т.е. первая переменная теснее
связана со второй, а не наоборот), то направление выстраивается от первой. Например, в
паре переменных "без" и "труда" значение AUC равно 0.08, если "без" зависимая
переменная, и - 0.02, если зависимая "труда". Это значит, что вероятность появления
переменной "без" при появлении переменной "труда" гораздо выше, чем наоборот, и
следовательно, первая переменная подчиняется второй. Если же значения коэффициентов
сравнимы, то ребра графа будут равнонаправлены. Таким образом, в графах
устанавливалась иерархическая структура и определялись доминирующие вершины.
4

На рисунке 1 представлены примеры некоторых построенных графов. Граф под


литтерой "a" следует интерпретировать следующим образом: НАЕМНОГО ТРУДА НЕ
ИМЕЛ, НЕ ИМЕЮ, НЕ ЭКСПЛУАТИРОВАЛ; БЕЗ НАЕМНОГО ТРУДА - т.е.
утверждения о неприменении наемного труда. Граф 1b означает: ТОРГОВАЛ БЕЗ
ПАТЕНТА. Граф 1c - НАХОЖУСЬ на ИЖДИВЕНИИ ДЕТЕЙ или МУЖА или СЫНА или
ДОЧЕРИ.
На основе данных матрицы было построено 106 графов. Эти графы и следовало
воспринимать как категории контент анализа. То, что в расчет принимались
словосочетания с частотой более 5, гарантировало их появление в нескольких заявлениях.
Тем самым устанавливалась нижняя граница обобщения элементов анализа в категории. С
другой стороны, выявилось определенное число семантически близких категорий. Так,
например, четыре категории относились к высказываниям о неприменении лишенцем
наемного труда; шесть категорий - о вынужденном характере торговли; высказывания о
непрерывной трудовой деятельности были представлены в четырнадцати вариантах.
Объединение этих семантических вариантов в единые категории означало установление
верхней границы обобщения. В итоге, реально получилось 63 категории анализа (примеры
некоторых из них см. в Приложении), из которых только 46 категорий поддавались четкой
интерпретации. Остальные же, как выяснилось в последствии, могли принимать самое
широкое толкование, в зависимости от употребления словоформ, невошедших в
предварительную выборку.
Завершающий этап категоризации состоял в определении комбинаций словоформ в
графах, с целью последующего выявления и кодирования соответствующих им
предложений. Метод комбинации словоформ зависел от типа графа. В замкнутых графах
(Рис. 1b.) в комбинацию включались все словоформы: and and . В открытых графах (Рис.
1c.) комбинация была бы следующей: ( and ) and ( or or or ). Следовало также учитывать
иерархические связи внутри графов, а также отрицательный или утвердительный характер
категорий контент-анализа, т.е. наличие или отсутствие в предложении отрицательных
частиц и слов. Эти обстоятельства делали данный этап работы очень сложным и
ответственным. От его правильного проведения, в конечном итоге, зависел успех всех
последующих процедур при контент-анализе.
Верификация методики.
При отборе предложений в зависимости от наличия ключевых слов могут
возникнуть ошибки двух видов: 1) включение в список предложений, которые
противоречат поставленным критериям поиска; 2) невключение в список предложений
удовлетворяющих критериям поиска. Анализ причин появления таких ошибок помогает
свести их до минимума и определить эффективность применения предложенной методики
категоризации.
KLEIO обладает возможностью поиска предложений в зависимости от контекста
употребления двух или более терминов. "Широта" контекста зависит от количества слов в
предложении, в рамках которого употребляются эти термины. Сужая или расширяя
контекст можно подобрать оптимальные условия для снижения ошибок обоих видов.
Изначально при формировании списков комбинаций словоформ использовались
стандартные для KLEIO критерии контекстного поиска: 20 слов до и 20 слов после
термина. Такой широкий контекст привел к появлению для некоторых категорий
большого числа ошибок первого вида. В подавляющем большинстве случаев эти ошибки
были связаны с неправильным употреблением отрицательной частицы "не": эта частица
относилась не к намеченному ключевому слову, а к какому-либо другому. Именно
поэтому ошибки первого вида в отрицательных категориях доходили до 60 %. Изменив
критерий контекстного поиска - 0 слов до и 4 слова после частицы "не" - удалось
практически полностью решить эту проблему. Подобным же образом "гибко"
5

редактировался контекст и в других категориях. В итоге, ошибки первого вида удалось


снизить максимум до 3-4 % по отдельным категориям. В среднем каждая из 63 категорий
состояла из 36 единиц анализа (min - 5; max - 218). Всего намеченные категории покрыли
2270 предложений, или 65 % всех предложений. Эти категории присутствуют в 94.6 %
заявлений лишенцев.
Предложений, которые не содержали комбинаций словоформ, было обнаружено
1207. Семь процентов от этого числа составляли ошибки второго вида. Большую часть
оставшихся предложений экспертно можно было распределить между намеченными
категориями. Выявлены они не были потому, что их основу составляют словоформы, не
вошедшие в первоначальную выборку (т.е. имеющие частоту менее 30). Лишь из
оставшихся 12 % предложений можно было составить дополнительные категории анализа.
Таких категорий было определено 57, но только 14 из них имели частоту более 5.
Таким образом, всего при анализе заявлений лишенцев можно выделить 120
категорий. Только 77 из них имели частоту, достаточную для последующих процедур
контент- анализа. И только 14 категорий не были выявлены при применении
предложенной методики, в связи с большим разнообразием вариантов их представления.
Заключение.
В целом можно считать, что эксперимент прошел успешно, не смотря на то, что не
удалось достичь стопроцентного результата. С помощью предложенной методики
категоризации было выявлено 63 из 77 значимых категорий контент-анализа. KLEIO
также оказалась довольно эффективным орудием контекстного поиска. Ошибки обоих
видов не превысили 3-5 % по отдельным категориям. Причем, этот процент может быть
еще более снижен. Основную причину, почему значительное число предложений не
попало ни в одну из намеченных категорий, следует искать в изначальных ограничениях:
завышенных требованиях к частоте отбираемых словоформ. Снижая частотный уровень,
можно увеличить семантическое разнообразие морфологической модели и тем самым
повысить эффективность метода.
Однако, на этом пути возникает одна существенная проблема. Дело в том, что
основной объем работы (70-80 % рабочего времени) уходит на анализ взаимосвязей в
полученной матрице. С увеличением числа словоформ прогрессивно увеличивается и
время на обработку этой матрицы. Выход видится в полной компьютеризации этой
процедуры, что станет одним из главных направлений совершенствования предлагаемой
методики категоризации.
Другим уязвимым местом методики является построение и интерпретация графов.
Здесь по-прежнему остается больше от искусства, чем от науки. Однако, следует
подчеркнуть, в том, что графы строятся на основе данных матрицы, заложена
возможность их неоднократной проверки и коррекции. Тогда как категоризация на основе
экспертных оценок такой возможности не предоставляет.
Последнее, что хотелось бы отметить, - это выбор оптимального коэффициента
сопряженности. Во-первых, применявшийся коэффициент неопределенности AUC, хотя и
позволил выявить существенные взаимосвязи, но оставил ряд нерешенных вопросов. В
частности, не удалось до конца выяснить математический аппарат, применяемый для
данного коэффициента в пакете SPSS; границы его применения и его ограничения не
имеют в настоящее время достаточниго обоснования[7]. Во-вторых, спорным остается
вопрос об уровне значимости применяемого коэффициента: можно ли при анализе
семантической структуры текста считать значимым коэффициент, если T > 1.0 (т.е. с 70 %
вероятностью) ? Поиск ответов на эти вопросы также останется в центре дальнейших
исследований в области применения контент-анализа.
Приложение
6
7
8

1Работа проводилась при поддержке РГНФ (проект N 95-06-17010)


2С данным выводом автора можно не согласиться: каким бы образом ни были
введены исследователем категории, воспроизведение проделанных им далее частотных
процедур контент-анализа осуществимо. (Прим. ред.)
3H.P. Iker, N.I. Harway. A Computer Systems Approach Toward the Recognition and
Analysis of Content // G. Gerber at.all. The Analysis of Communication Content. N.-Y., 1969; в
России сходный метод предложил С.Ф. Гребениченко в статье: Как повысить
объективность контент- анализа? // Информационный бюллетень Ассоциации "История и
компьютер". Специальный выпуск. Тезисы докладов и сообщений III конференции
Ассоциации "История и компьютер". Звенигород, 31 марта - 2 апреля 1995 г. N.14, апрель
1995. М., 1995. С.114-117.
4См.: Л.И. Бородкин. Контент-анализ и проблемы изучения исторических
источников // Математика в изучении средневековых повествовательных источников. М.,
1986. С.24.
5Более подробно о лишении избирательных прав см.: И.Ф. Юшин. Кодирование
занятий и принципы интегральной социальной классификации общества // Круг идей:
развитие исторической информации. Труды II конференции Ассоциации "История и
компьютер". М., 1995. С.257- 293.
6Об особенностях личных дел лишенцев и структуре базы данных см.: В.И.
Тихонов, В.С. Тяжельникова, И.Ф. Юшин. Об адекватном представлении структуры
источника в базе данных // Компьютер и историческое знание. Барнаул, 1994; они же:
Методика оценки информационного потенциала комплексов массовых источников // Круг
идей: новое в исторической информатике. Труды I конференции Ассоциации "История и
компьютер". М., 1994.
9

7См.: Количественные методв в исторических исследованиях. М., 1984. С.215-216.

Вам также может понравиться