Вы находитесь на странице: 1из 36

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное автономное образовательное учреждение


высшего образования
«Дальневосточный федеральный университет»

ШКОЛА ИСКУССТВ И ГУМАНИТАРНЫХ НАУК

Департамент философии и религиоведения

Беспалов Илья Геннадьевич

ВОЗМОЖНОСТИ ПРОГРАММЫ QDA MINER ПРИ АНАЛИЗЕ


ФИЛОСОФСКИХ ТЕКСТОВ

КУРСОВАЯ РАБОТА

Студент гр. Б4201 __________________


(подпись)

Руководитель ст. преподаватель


_____________ Конончук Д.В.

Регистрационный № ________ Оценка _________________________


___________ ___________________
подпись И.О.Фамилия ____________ ___________________
« _____» ___________________ 20 г. подпись И.О.Фамилия

«_____» ________________ 20 г.

г. Владивосток
2018
Оглавление

Введение....................................................................................................................................................2
Глава 1 Технология Text Mining и её применение при анализе философских текстов...............5
1.1Общие механизмы реализации технологии...................................................................................5
1.2. Программа QDA Miner и её возможности..................................................................................10
Глава 2. Практическое применение программы QDA Miner при анализе философских
текстов.....................................................................................................................................................12
2.1. Стадия формулировки алгоритма решения задачи.................................................................12
2.2 Стадия анализа..........................................................................................................................13
Заключение.............................................................................................................................................20
Приложения.............................................................................................................................................22

2
Введение
Актуальность исследования состоит в следующем: проблема
толкования текста стоит крайне острозаключается в первую очередь в
необходимости новых методов для выявления в философских текстах
скрытых в них авторских смыслов. Тогда как художественный текст открыт
для интерпретации (а иногда и прямо подразумевает ее, в том или ином
ключе), научный дискурс настаивает на максимальной определенности и
однозначности понятий, философская риторика находится на иной,
специфической позиции. Она подразумевает изначальное включение всех
возможных способов интерпретаций текста, что однозначно ведет к
появлению проблемы поиска и представления поля этих возможных
интерпретаций. Методом частичного разрешения данной проблемы служит
использование технологии Text Mining.
Технология Text Mining представляет собой одну из разновидностей
методов Data Mining (или интеллектуальный анализ текста) и подразумевает
процессы извлечения информации из текстовых массивов. Технология
глубинного анализа текстов способна «просеивать» большие объемы
неструктурированной информации и выявлять из них только самое значимое,
чтобы человеку не приходилось самому тратить время на добычу ценных
знаний «вручную».
Анализ текстов включает себя извлечение информации и
лингвистический анализ для выявления частоты вхождений различных
выражений и понятий, техники Data Mining, включая анализ связей и
ассоциаций, визуализацию анализа отношений выражений. В конечном
счете, общая цель всего этого состоит в том, чтобы превратить текст в
данные, доступные для анализа.
Наибольшее применение технология Text Mining получила в анализе
дискурса политического, что не удивительно, ведь в своей речи политик
практически никогда не может говорить о своих истинных мотивах прямо.
Однако, благодаря применению широкого инструментария Text Mining-

3
программ, вскрытие того, что политик хотел утаить становится задачей
вполне разрешимой. В отличии от политика, философ, не имеет намерения
что-либо утаить, однако он не всегда может выразить словами мысль во всех
ее аспектах, либо не всегда даже сам осознает какие темы и интенции вложил
в текст. Это есть скрытые смыслы. Взаимная критика, которая является
одной из основных движущих сил развития философской мысли, всегда
подразумевала поиск и критику противоречий в учении оппонента, причиной
которых были скрытые смыслы, которых автор, не замечал.
Степень разработанности проблемы. Доктор философских наук,
профессор С.Е. Ячин С.Е говорит об этом следующее: «Ставшие наиболее
известными в современной философии методы деструкции истории
философии М. Хаидетгера Хайдетгера и деконструкции Ж. Деррида, которые
предполагают самую тщательную работу с текстом, еще более подчеркивают
значении технической стороны аналитической работы интерпретации.».
Насколько нам известно, специальных русскоязычных работ, посвящённых
применению технологии Text Mining, пока нет.
Таким образом, проблема является пока не разработанной, а
проведенное исследование оригинальным.
Объект работы – программа QDA Miner.

Предмет работы – возможности программы QDA Miner для


количественного анализа философских текстов.

Цель работы – исследование и демонстрация возможностей


программы QDA Miner и приложения WordStat для количественного анализа
философских текстов.

Задачи работы:

1) Проанализировать степень эффективности технологии Text Mining;

2) Изучить функциональные возможности таких инструментов, как


Text Retrieval и Codes Co-occurrences программы QDA Miner и функций

4
Frequencies, Extraction Topics, Extraction Phrases, Extraction Named Entities
программы WordStat при текстовом информационном поиске;

3) Применить данные инструменты практически для выяснения


возможностей программы в разных видах количественного анализа
конкретных философских произведений: статистическом, лексическом и
контент-анализе.

 Изучение функциональных возможности таких инструментов, как


Text Retrieval и Codes Co-occurrences программы QDA Miner и
функций Frequencies, Extraction Topics, Extraction Phrases, Extraction
Named Entities программы WordStat при текстовом
информационном поиске.
 Применения вышеперечисленных инструментов для
статистического, лексического и контент-анализа философских
произведений.

Особенностью работы является невозможность выполнения задач


независимо друг от друга.

Источниками работы служат тексты, являются следующие текстына


примере которых выяснялись возможности программы QDA Miner:

1. Сборник статей о русской интеллигенции «вехи». 
Сборник статей русских философов начала 20 века о русской
интеллигенции и её роли в истории России.
2. Материализм и эмпириокритицизм. Критические заметки об
одной реакционной философии» — главная работа В.И.
Ленина по философии

Структура работы. Работа состоит из введения, двух глав по два


параграфа в каждом и заключения.

5
Глава 1 Технология Text Mining. Область применения и её
применение при анализе философских текстов
1.1Общие механизмы реализации технологии.

Впервые «ручные» техники Text Mining появились в середине 1980-х, а


в следующее десятилетие развитие технологий позволило значительно их
усовершенствовать. В междисциплинарном смысле Text Mining лежит на
стыке поиска информации, машинного самообучения, статистики и
компьютерной лингвистики. Необходимость в использовании огромных
объемов информации, которая существует в неструктурированной форме,
известна уже давно. Но специальные технологии, которые позволяют
работать именно с текстами, а не с количественными данными, появились
только в конце 90-х годов.

Технологии Text Mining используются для анализа знаний в различных


областях, и потому в каждом случае имеет свою специфику – это может быть
использование в правительственных, исследовательских, корпоративных
целях. Наиболее типичные отрасли использования этого подхода:

1. Корпоративная бизнес-аналитика и Data Mining, корпоративная


разведка.
2. Делопроизводство и электронные исследования.
3. Национальная безопасность и разведка.
4. Научные исследования, особенно в естественнонаучной и
гуманитарной сфере.
5. Смысловой анализ.
6. Исследование естественных языков и их семантики.
7. Издательское дело.
8. Автоматизированное размещение рекламы.
9. Поиск информации и предоставление доступа к информации.
10.Мониторинг социальных медиа.

6
Очевидно, что появление столь перспективной технологии, как Text
Mining не могла не повлечь за собой активизацию в сфере программного
инжиниринга, что вылилось в наличие разнообразных программных
решений, каждое со своими достоинствами и недостатками. В основном они
используют базовые механизмы (алгоритмы) анализа текста:

 Классификация – механизм необходим для построения правил,


в соответствии с которыми, тексты будут распределены по
классам. Особенностью классификации в контексте названной
технологии является высокое количество текстов и лексики в
них. Это влечет определенные сложности в плане
интеллектуальной обработки массивов данных. Таким образом
присутствует два аспекта в реализации такого подхода. Это
одновременно и перспективность и тяжесть практического
осуществления механизма: методы статистического анализа
приемлемы, когда речь идет о числах, однако понятия
естественного языка и их семантика поддаются
интеллектуальной обработке и последующей классификации
гораздо тяжелее.

 Кластеризация. Кластеризация – анализ и создание кластеров из


текста, на основании определенного понятия или ряда понятий.
Для реализации также используются математические и
логические методы. В результате получается примитивная
когнитивная карта частотности, выраженная в визуальной форме.
Однозначным достоинством данного механизма является
возможность визуально охватить большой объем данных
помеченных с помощью определенного тэга. Однако, стоит так
же учитывать, что, как и в ситуации с механизмом

7
классификации, в кластеризации нет идеального и однозначного
технического метода.

 Построение семантических сетей. Ни что иное, как поиск


семантических связей в тексте. Практически всегда работает по
принципу ключевых слов. Применяется для облегчения
навигации в тексте.

 Извлечение понятий. Данный вспомогательный механизм


позволяет улучшить работу вышеназванных алгоритмов
классификации, кластеризации и построения семантических
сетей.

Особенностью данных алгоритмов является проблематичность их


технической реализации. Исходя из этого, автор каждой утилиты
решает эту проблему на основании той или иной специфики созданной
им программы.

Среди существующих программных средств реализации технологии


интеллектуального анализа текста можно выделить следующие:1

1. GATE – масштабный программный продукт, который включает в себя


инструменты для поддержания всего жизненного цикла ПО – от
проектирования и разработки до совместного использования
множеством серверов в целях аннотации документов. Плюс ко всему
инструмент предоставляет интерфейс для приложений внутри
организации – при помощи библиотеки объектов Java. Среди

Информация взята с ресурса www.datareview.info


1

8
плюсов GATE – не только развитая «экосистема», но и почти
двадцатилетний опыт существования на рынке и перевод на десяток
языков (в том числе, русский). Из чисто практических преимуществ –
обработка документов не перегружает память, поскольку
осуществляется последовательно – но скорость работы системы от
этого существенно падает.
2. KNIME. Система интеллектуального анализа данных KNIME
содержит плагин для обработки текста KNIME Text Processing. Плагин,
как и вся система, имеет открытый код и поддерживает
шестиступенчатый процесс обработки текста – от чтения и
синтаксического анализа через распознавание категорий, фильтрации и
манипуляции до подсчета количества слов, выделения ключевых
понятий и, наконец, визуализации. Все это дает пользователю широкие
возможности работы с текстом, однако он найдет у KNIME пару
существенных недостатков. К примеру, KNIME не читает данные
из MS Excel и не работает с технологией OLAP.
3. Orange. Инструмент для интеллектуального анализа данных Orange
включает в себя расширение для работы с неструктурированными
массивами данных – в том числе, с текстами. При этом широкие
возможности визуализации Orange используются в целях text mining.
Расширения подобного рода удобны тем, что можно не отказываться от
привычного ПО, когда появляются новые задачи. Удобный
графический пользовательский интерфейс и инструменты визуального
программирования делают Orange привлекательным для юзеров,
однако тот факт, что базируется он на Python не всем может прийтись
по душе.
4. RapidMiner понравится консерваторам. Оно отличается широкими
возможностями в решении задач text mining. Упор делается на
статистический анализ, а данные выгружаются из множества
популярных форматов – в том числе, PDF. Несомненный плюс –

9
графический интерфейс, позволяющий управлять потоками данных,
буквально просто «перетаскивая» их с места на место. Правда, вместе с
достоинствами, аддон унаследовал и недостатки «родительской
системы» — ограниченный объем данных, которые можно обработать
при помощи бесплатной версии ПО.
5. LPU – система текстового обучения и классификации, использующая
технологии SVM и EM. Вкратце, система обучается только на
положительных и неопределенных примерах, тогда как классические
алгоритмы классификации/обучения подразумевают использование как
положительных (верных), так и отрицательных (неверных) примеров.
По иронии, предыдущие четыре инструмента могут похвастаться
отменным пользовательским интерфейсом – LPU же запускается в
DOS-овском окне. Можно ли простить этот недостаток за
оригинальный подход к работе с текстом – решать пользователям.
6. QDA Miner. QDA Miner – легкая в использовании компьютерная
программа, предназначенная для проведения качественных
исследований.

Основные функции:

 Создание категориального аппарата, набора кодов по каждой из


категорий

 Кодирование текстовых файлов

 Комментирование кодов и категорий

 Проведение подсчёта представленности каждой из единиц анализа по


заданным кодам и категориям

 Отображение результатов качественного анализа пересечения кодов в


графическом формате

10
 Выгрузка выборки по категориям и параметрам в файлы (разных
форматов) и просмотр материала в самой программе

QDA Miner можно использовать при анализе интервью, официальных


документов, периодических изданий, книг, также картин, фотографий,
зарисовок и других визуальных источников. Однако, подробнее речь о
нем пойдет дальше.

1.2. Программа QDA Miner и её возможности

Для реализации метода интеллектуального анализа текста был выбран


пакет программы QDA Miner. Такой выбор был сделан из-за широкого
функционала данной программы.

Возможности QDA Miner связанные с текстом:

 Возможность содержать до 2030 различных файлов в проекте,


организованных в дела.
 Импорт файлов различных форматов (Excel, Access, Paradox, DBase,
SPSS, NVivo, N6, Atlas.ti, Transana, Transcriber и т.д.).
 Копирование, резервное копирование и восстановление существующих
проектов.
 Легкая фильтрация.

Особенности QDA Miner связанные с кодированием:

 Простое создание и редактирование кодовых книг.


 Интуитивное перетаскивание присвоенных кодов в сегменты текста и
изображения.
 Заметки пользователя могут быть отнесены к проектам, кодам и
закодированным сегментам.
 Слияние, разделение, поиск, замена и прочие операции с кодами.

11
 Возможность импорта кодовых книги из других проектов.

Дополнительные приложения пакета QDA Miner:

1. Simstat – статистический модуль, позволяющий проводить анализ


количественных данных.
2. WordStat производит контент-анализ и глубинный анализ текста. Этот
пакет проводит анализ слов и фраз, содержащихся в различных
документах или сегментах текста. WordStat проводит описательный
анализ и устанавливает взаимосвязи между словами и категориями
слов, также проводит анализ других количественных переменных.

Таким образом пакет программы QDA Miner подходит для реализации


поставленных целей, а сама программа обладает необходимым для
статистического, лексического и контент-анализа инструментарием.

12
Глава 2. Исследование Практическое применение программы
QDA Miner при практическом анализе философских
текстовприменении

2.1. Стадия Фформулировкаи алгоритма решения задачи

Ввиду особенности постановки задач, первоначально необходимо было


сформулировать какие именно скрытые смыслы и в каких именно текстах
предстоит искать и только уже в процессе приступать к комплексному
решению поставленных задач. В качестве скрытых смыслов было решено
исследовать экзистенциальное отношение авторов двух разных критических
текстов к объектам своей критики. Критерием того или иного
экзистенциального отношения является непосредственно употребляемая, по
отношению к критикуемым, лексика.

Сами тексты были выбраны по следующим критериям:

 Синхронность появления текстов


 Наличие противоположных философских установок и
стилистических различий
 Известность текстов
 Оригинал текста должен был быть написан на русском языке

Таким образом были выбраны следующие тексты:

1. Ленин - «Материализм и эмпириокритицизм»


2. Сборник статей о русской интеллигенции «Вехи».

Следующим шагом является создание непосредственного плана


работы, алгоритма действий, который не только поможет свести выполнение
задачи к конкретным техническим операциям, но и позволит подробно
изучать сами технические инструменты, во время их применения.

13
Алгоритм решения поставленной задачи:

1. Использование инструментов WordStat для поиска в текстах


непосредственно критикуемых личностей и групп личностей.
2. Анализ текстов на предмет выражений, которые условно можно
будет поделить на «хамскую» и на «объективную» критику с
помощью инструментов статистического модуля WordStat.
3. Выявление смысловых пересечений найденной лексики с
помощью кластерного анализа инструментами QDA Miner.

Главной задачей является прояснение возможностей программы в


отношении работы непосредственно с лексикой. С технологической точки
зрения, методом решения поставленной задачи является именно частотный
анализ, использованной авторами текстов, лексики.

2.2 Практическое применениеСтадия анализа

При первом запуске программы отображается первоначальное


приветственное окно (приложение 1). Выбрав опцию создания нового
проекта (Create a new project), появляется новое окно. Создать проект можно
из списка имеющихся файлов на жестком диске. Также можно
импортировать данные из других источников. Кроме того, есть возможность
добавить в существующий проект нужные для анализа документы.
Добавленные в проект файлы отныне именуются документами (Cases). В
данном случае это документы с названиями «вехи» и «Ленин». Их полный
список отображается в боковом меню в соответствующем окне (приложение
2).

Как уже было упомянуто, к пакету программы QDA Miner прилагается


также статистические модули - программы WordStat и Simstat. Последний
модуль может быть вызван прямо из панели инструментов QDA Miner

14
(Analyze - Statistical Analysis). Программа отображает широкий спектр
статистических переменных для анализа количественных данных.
Подпрограмма WordStat аналогично может быть вызвана прямо из панели
инструментов QDA Miner (Analyze -Content Analysis). Согласно
разработанному алгоритму решения поставленной задачи, начать
необходимо с ознакомления с инструментами подпрограммы WordStat и их
практического применения.

Во время выполнения практической части работы были использованы и


исследованы функции и следующих инструментов WordStat:

1. Extraction Topics.
2. Frequencies.
3. Extraction Phrases.
4. Extraction Named Entities.

Первым использованным инструментом является инструмент Extraction


Topics. Функция обрабатывает массив текстовой информации, составляя
группы близких по смыслу кластеров. Таким образом составляются
примерные планы (топики) относительно поднятых в тексте тем. Работает по
принципу ключевых слов. Анализ происходит автоматически.

Использование инструмента дает следующие результаты при обработке


сборника «Вехи» (приложение 3), и при обработке «материализма и
эмпириокритицизма» Ленина (приложение 4). В окне видно, что ключевыми
словим, означена основная лексика, которая употребляется в контексте той
или иной темы. Темы, однако, так же обозначаются конкретным ключевым
словом (близкими по смыслу ключевыми словами). Можно видеть,
результаты могут быть упорядочены сразу по нескольким характеристикам.
Так, отмечаем, что основные три темы, выведенные программой из текста
«Вехи» называются «Европейской, Духовное», «Благо, Большинства»,
«Конституционного, Государстве». Основная относящаяся к этим темам
лексика выглядит следующим образом: к первой – «Европейской, Духовное,
15
Духовным, Делает, Культуры, Вместе, Историческая, Столь, Исторического,
Казалось», ко второй – «Благо, Большинства, Смысл, Служения, Морализм,
Интересам, Мораль, Состоит, Мысли, Интеллигента, Народа, Имеет»
соответственно, к третьей – «Конституционного, Государстве, Государство,
Интересы, Вопросов, Внимания, Государства, Несмотря, Зрения, Власти».
Аналогичным образом, основные три темы произведения Ленина –
«Объективная, Истина», «Конец классической, Немецкой», «Кант, Канту».
Соответствуют им следующе ключевые наборы ключевых слов –
«Объективная, Истина, Объективную, Истину, Истины, Истине,
Объективной, Критерии», «Конец, Немецкой, Людвиг, Классической,
Изданию, Науке, Маркс», «Кант, Канту, Кантианства, Критиковал, Канта,
Неокантианцев, Критика, Ланге, Объективное».

Следует отметить, что не смотря на метод технической реализации


подобной задумки, что подразумевает выведение результатов в большей
степени именно частотного анализа (в меньшей степени, конечно, анализа
логической взаимосвязи), результат, выраженный в форме всего двух-трех
ключевых слов, является на удивление эффективным для восприятия
продуктом проведенного контент-анализа. Даже сами названные темы,
состоящие из двух-трех слов, подчас синтаксически друг с другом не
согласованных, при осмыслении их в форме словосочетания, сразу дают
ясное представление о содержании текста. Следовательно, наиболее часто
употребляемые понятия, обладают большей логической важностью. Это
означает, что алгоритм действий был разработан правильно.

Следующий инструмент – Frequencies. С его помощью производится


исключительно статистический анализ. Так-же, как и в случае с прошлым
инструментом (и со всеми последующими), программа воспринимает слова
исключительно, как набор букв, потому не учитывает различные
грамматические формы одного и того же слова.

16
Применение Frequencies выдает следующие результаты по тексту
Ленина (приложение 5) и по сборнику «Ввехи» (приложение 6). Самые часто
употребляемые слова в тексте Ленина – Зрения, ибо, материализм, идеализм,
объективной. В Сборнике Вехи самые частые – интеллигенции, жизни,
русской, интеллигенция. Логичным является вывод, что основная критика и
в «Вехах» направленна на непосредственно интеллигенцию.

Аналогичным образом работает и инструмент Extraction Phrases,


выявляющий из текста статистику наиболее часто встречающихся
словосочетаний. В интерфейсе программы (приложение 7) есть возможность
задать параметры поиска, включающие в себя такие показатели, как
«минимальное количество слов в словосочетании», «максимальное
количество слов в словосочетании» и «частота повторения словосочетания».
Замечу, что частота повторения словосочетаний не может быть выставлена
ниже показателя в 2 единицы, так как иначе программа бы искала все
существующие словосочетания слов, то бишь каждое с каждым, а
программный пакет QDA Miner не рассчитан на подобные запросы.

При заданных параметрах программа выдает нам следующий результат


(приложение 8) по «Материализм и эмпириокритицизму». Чаще всего
употребляются фамилии «Маркс и ф.(ридрих) Энгельс», «Маха и
Авенариуса», а значит, что это и есть искомые объекты критики.

Extraction Named Entities .Так – же, как и все инструменты, он


выводит статистику. Но в данном случае это статистика имен собственных.
На слайде вы можете видеть статистику Имен собственных по тексту
Ленина. Чаще всего встречаются следующие фамилии – Мах, Энгельс
Авенариус, Маркс, Кант, Беркли, Богданов, Ильин.

Используя все вышеназванные инструменты с различными


настройками, был составлен перечень основных критикуемых личностей и
групп личностей. Следующим шагом стало многократное повторение
проделанного, с целью выявить не объекты критики, но лексикон, оценочные
17
суждения, с помощью которых критика и осуществлялась. К сожалению, не
всю лексику удалось выявить с помощью программных средств. До
определенной степени это все еще требует «ручной» обработки.

В результате, вся отсортированная лексика была превращена в перечь


кодов (основных единиц, с которыми работает QDA Miner), (приложение 9,
приложение 10). Коды - это обозначения для совокупности кластеров,
включающих в себя ключевые слова. Коды, которые включают в себя пустое
множество кластеров считаются «пустыми». Само «заполнение» кода
происходит с помочью инструмента Text Retrieval.

Text Retrieval позволяет производить индексацию текстовых единиц в


документе и кластеризировать их. Во время этого процесса контекст
текстовой единицы (это может быть предложение, абзац или весь текст
документа целиком) превращается в кластер, а сама текстовая единица в
ключевое слово. Все происходит по принципу наличия самого ключевого
слова в контексте. В зависимости от выбранной величины контекста, в
пределах которого будет происходить кластеризация, в малых текстах
принято разделять коды с большой смысловой погрешностью и с малой. Как
и все инструменты QDA Miner, Text Retrieval работает исключительно с
семантикой, но не с грамматикой, благодаря чему имеет возможность не
только поиска по слову целиком, но и по части слова или, например,
конкретной морфеме, что расширяет область применения данного
инструмента. Следует добавить, что при вводе ключевого слова, для
последующей кластеризации есть возможность использования логических
операторов. Это позволяет использовать несколько ключевых слов сразу или,
например, выбрать конкретное слово, которое не будет проиндексировано.
Проиндексированные кластеры выводятся в отдельном окне (приложение
11), откуда они могут быть добавлены в любой из имеющихся кодов.

Каждый кластер отображается в боковой панели и обозначается общим


именем и цветом кода. Кластеры могут пересекаться друг с другом– это

18
означает что одни и те – же ключевые слова находятся в разных кластерах
(приложение 12). Эти пересечения – логические отношения выделенных
понятий. Таким образом, необходимо найти частоту их пересечения. Для
обработки подобного рода данных существует отдельный инструмент

Codes Co-occurrences - позволяет произвести кластерный анализ и


частотный анализ перекрестного кодирования. Инструмент может выводить
результаты в своей работы в визуальные данные: 2Dкарты 3Dкарты,
дендрограммы, линк-карты (пример – приложение 13) и так далее. Наиболее
наглядно результат работы инструмента представляет таблица
интенсивности пересечений кодов (приложение 14). Для примера высчитаем
количество пересечений в тексте Ленина. В таблице представлены
пересечения кодов первых двух подгрупп («личности» и «группы») с
наложенной на нее картой частотности. Чем ярче ячейка – тем выше частота
перекрестного кодирования. Таким образом можно заметить, что чаще всего
вместе употребляются такие слова как Энгельс и Маркс, на втором месте
Мах и Махисты и так далее. Однако для решения поставленной задачи
подобная подробность не нужна, потому можно совместить первые две
группы кодов в два обобщённых кода и найти частоту их пересечения с
кодами критической лексики.

Рассмотрим таблицы интенсивности пересечения критикуемых и кодов


субъективной критики в обоих текстах (приложение 15, 16). Мы можем
видеть, что в тексте Ленина интенсивность сочетаний слов гораздо выше,
чем в «Вехах», наиболее ярко выделяются такие слова, как «путанность» (в
отношении групп и личностей) и «ошибочность» (в отношении групп). Что
касается второго текста, то слово «ошибочно» также является лидером по
интенсивности, однако на втором месте стоит слово «неудачно». Это говорит
нам о большей мягкости и сдержанности в лексике.

Далее, рассмотрим таблицы интенсивности пересечений, но уже по


критике, которая условно названа «хамской» (приложение 17,18). Сразу

19
стоит отметить существенную разницу в размерах двух таблиц. Следует
учитывать тот факт, что они составлялись по идентичным кодам. Числовое
поле в таблице, содержащее ноль свидетельствует об отсутствии пресечений
между кодами. Лексика действительно существует, но нигде нет конкретных
точек пересечения кластеров, которые можно было бы отобразить таблице.
Отсутствие самих же строк кодов, как рядов и столбцов в таблице, которое
мы можем наблюдать на второй таблице говорит об отсутствии подобной
лексики в тексте, как таковой. Это и есть, то, что мы искали.

Основываясь на этих данных, можно сделать вывод, что авторы вех не


просто гораздо сдержаннее и интеллигентнее Ленина, но и относятся к
объекту своей критики гораздо мягче и терпимей, не используя резких
грубых слов, которые, как можно увидеть, позволяет себе вождь мирового
пролетариата

Таким образом, были изучены функциональных возможности


программы QDA Miner и WordStat при текстовом информационном поиске.
Выявленные инструментальные возможности действительно подходят для
статистического, лексического и контент-анализа философских
произведений.

20
Заключение

Были изучены функциональных возможности инструментов


программы QDA Miner и подпрограммы WordStat при работе с лексикой и,
непосредственно, текстовом информационном поиске.

На практике доказано, что посредствам программы можно производить


такие операции, как контент-анализ (Extraction Topics), частотный анализ
текстовых единиц (Frequencies, Extraction Named Entities), кодирование и
статистический анализ (Text Retrieval и Codes Co-occurrences), а так-же она
пригодна для анализа философских произведений.

Программы QDA Miner подходит для реализации поставленных целей,


и обладает необходимым для статистического, лексического и контент-
анализа инструментарием.

Следует отметить, что обязательным пунктом использования


программы в контексте анализа философских текстов являет стадия чёткого
формулирования алгоритма действий. Существует действительная
необходимость разработки сценария, по которому инструменты будут
применяться. Необходимо учитывать особенности именно технической
стороны выполнения той или иной функции, так как возможности
программы узко определены и только грамотно составленный план поможет
минимизировать или вовсе устранить необходимость «ручной» обработки
текста.

Исходя из всего вышесказанного, можно сделать следующий


результирующий вывод: правильное применение технологии может изменить
подход к толкованию и анализу философских текстов, а также скрытых в нем
смыслов.

21
Список использованной литературы:

Источники:
1. Вехи. М., Изд-во Азбука, 2011
2. Материализм и эмпириокритицизм. Л., Изд-во Политической
литературы ,1968

Исследования:

1. QDA Miner: пособие по работе – 21 с [Электронный ресурс]. URL:


www.academics.hse.ru/data/2011/11/10/1272135857/QDAMiner%20-
%20руководство.pdf

22
Приложения

Приложение 1

Приложение 2

23
Приложение 3

24
25
Приложение 4

26
27
Приложение 5

Приложение 6

Приложение 7

28
Приложение 8

Приложение 9

29
Приложение 10

30
Приложение 11

Приложение 12

31
Приложение 13

32
Приложение 14

Приложение 15

33
Приложение 16

34
Приложение 17

Приложение 18

35
36

Оценить