КУРСОВАЯ РАБОТА
«_____» ________________ 20 г.
г. Владивосток
2018
Оглавление
Введение....................................................................................................................................................2
Глава 1 Технология Text Mining и её применение при анализе философских текстов...............5
1.1Общие механизмы реализации технологии...................................................................................5
1.2. Программа QDA Miner и её возможности..................................................................................10
Глава 2. Практическое применение программы QDA Miner при анализе философских
текстов.....................................................................................................................................................12
2.1. Стадия формулировки алгоритма решения задачи.................................................................12
2.2 Стадия анализа..........................................................................................................................13
Заключение.............................................................................................................................................20
Приложения.............................................................................................................................................22
2
Введение
Актуальность исследования состоит в следующем: проблема
толкования текста стоит крайне острозаключается в первую очередь в
необходимости новых методов для выявления в философских текстах
скрытых в них авторских смыслов. Тогда как художественный текст открыт
для интерпретации (а иногда и прямо подразумевает ее, в том или ином
ключе), научный дискурс настаивает на максимальной определенности и
однозначности понятий, философская риторика находится на иной,
специфической позиции. Она подразумевает изначальное включение всех
возможных способов интерпретаций текста, что однозначно ведет к
появлению проблемы поиска и представления поля этих возможных
интерпретаций. Методом частичного разрешения данной проблемы служит
использование технологии Text Mining.
Технология Text Mining представляет собой одну из разновидностей
методов Data Mining (или интеллектуальный анализ текста) и подразумевает
процессы извлечения информации из текстовых массивов. Технология
глубинного анализа текстов способна «просеивать» большие объемы
неструктурированной информации и выявлять из них только самое значимое,
чтобы человеку не приходилось самому тратить время на добычу ценных
знаний «вручную».
Анализ текстов включает себя извлечение информации и
лингвистический анализ для выявления частоты вхождений различных
выражений и понятий, техники Data Mining, включая анализ связей и
ассоциаций, визуализацию анализа отношений выражений. В конечном
счете, общая цель всего этого состоит в том, чтобы превратить текст в
данные, доступные для анализа.
Наибольшее применение технология Text Mining получила в анализе
дискурса политического, что не удивительно, ведь в своей речи политик
практически никогда не может говорить о своих истинных мотивах прямо.
Однако, благодаря применению широкого инструментария Text Mining-
3
программ, вскрытие того, что политик хотел утаить становится задачей
вполне разрешимой. В отличии от политика, философ, не имеет намерения
что-либо утаить, однако он не всегда может выразить словами мысль во всех
ее аспектах, либо не всегда даже сам осознает какие темы и интенции вложил
в текст. Это есть скрытые смыслы. Взаимная критика, которая является
одной из основных движущих сил развития философской мысли, всегда
подразумевала поиск и критику противоречий в учении оппонента, причиной
которых были скрытые смыслы, которых автор, не замечал.
Степень разработанности проблемы. Доктор философских наук,
профессор С.Е. Ячин С.Е говорит об этом следующее: «Ставшие наиболее
известными в современной философии методы деструкции истории
философии М. Хаидетгера Хайдетгера и деконструкции Ж. Деррида, которые
предполагают самую тщательную работу с текстом, еще более подчеркивают
значении технической стороны аналитической работы интерпретации.».
Насколько нам известно, специальных русскоязычных работ, посвящённых
применению технологии Text Mining, пока нет.
Таким образом, проблема является пока не разработанной, а
проведенное исследование оригинальным.
Объект работы – программа QDA Miner.
Задачи работы:
4
Frequencies, Extraction Topics, Extraction Phrases, Extraction Named Entities
программы WordStat при текстовом информационном поиске;
1. Сборник статей о русской интеллигенции «вехи».
Сборник статей русских философов начала 20 века о русской
интеллигенции и её роли в истории России.
2. Материализм и эмпириокритицизм. Критические заметки об
одной реакционной философии» — главная работа В.И.
Ленина по философии
5
Глава 1 Технология Text Mining. Область применения и её
применение при анализе философских текстов
1.1Общие механизмы реализации технологии.
6
Очевидно, что появление столь перспективной технологии, как Text
Mining не могла не повлечь за собой активизацию в сфере программного
инжиниринга, что вылилось в наличие разнообразных программных
решений, каждое со своими достоинствами и недостатками. В основном они
используют базовые механизмы (алгоритмы) анализа текста:
7
классификации, в кластеризации нет идеального и однозначного
технического метода.
8
плюсов GATE – не только развитая «экосистема», но и почти
двадцатилетний опыт существования на рынке и перевод на десяток
языков (в том числе, русский). Из чисто практических преимуществ –
обработка документов не перегружает память, поскольку
осуществляется последовательно – но скорость работы системы от
этого существенно падает.
2. KNIME. Система интеллектуального анализа данных KNIME
содержит плагин для обработки текста KNIME Text Processing. Плагин,
как и вся система, имеет открытый код и поддерживает
шестиступенчатый процесс обработки текста – от чтения и
синтаксического анализа через распознавание категорий, фильтрации и
манипуляции до подсчета количества слов, выделения ключевых
понятий и, наконец, визуализации. Все это дает пользователю широкие
возможности работы с текстом, однако он найдет у KNIME пару
существенных недостатков. К примеру, KNIME не читает данные
из MS Excel и не работает с технологией OLAP.
3. Orange. Инструмент для интеллектуального анализа данных Orange
включает в себя расширение для работы с неструктурированными
массивами данных – в том числе, с текстами. При этом широкие
возможности визуализации Orange используются в целях text mining.
Расширения подобного рода удобны тем, что можно не отказываться от
привычного ПО, когда появляются новые задачи. Удобный
графический пользовательский интерфейс и инструменты визуального
программирования делают Orange привлекательным для юзеров,
однако тот факт, что базируется он на Python не всем может прийтись
по душе.
4. RapidMiner понравится консерваторам. Оно отличается широкими
возможностями в решении задач text mining. Упор делается на
статистический анализ, а данные выгружаются из множества
популярных форматов – в том числе, PDF. Несомненный плюс –
9
графический интерфейс, позволяющий управлять потоками данных,
буквально просто «перетаскивая» их с места на место. Правда, вместе с
достоинствами, аддон унаследовал и недостатки «родительской
системы» — ограниченный объем данных, которые можно обработать
при помощи бесплатной версии ПО.
5. LPU – система текстового обучения и классификации, использующая
технологии SVM и EM. Вкратце, система обучается только на
положительных и неопределенных примерах, тогда как классические
алгоритмы классификации/обучения подразумевают использование как
положительных (верных), так и отрицательных (неверных) примеров.
По иронии, предыдущие четыре инструмента могут похвастаться
отменным пользовательским интерфейсом – LPU же запускается в
DOS-овском окне. Можно ли простить этот недостаток за
оригинальный подход к работе с текстом – решать пользователям.
6. QDA Miner. QDA Miner – легкая в использовании компьютерная
программа, предназначенная для проведения качественных
исследований.
Основные функции:
10
Выгрузка выборки по категориям и параметрам в файлы (разных
форматов) и просмотр материала в самой программе
11
Возможность импорта кодовых книги из других проектов.
12
Глава 2. Исследование Практическое применение программы
QDA Miner при практическом анализе философских
текстовприменении
13
Алгоритм решения поставленной задачи:
14
(Analyze - Statistical Analysis). Программа отображает широкий спектр
статистических переменных для анализа количественных данных.
Подпрограмма WordStat аналогично может быть вызвана прямо из панели
инструментов QDA Miner (Analyze -Content Analysis). Согласно
разработанному алгоритму решения поставленной задачи, начать
необходимо с ознакомления с инструментами подпрограммы WordStat и их
практического применения.
1. Extraction Topics.
2. Frequencies.
3. Extraction Phrases.
4. Extraction Named Entities.
16
Применение Frequencies выдает следующие результаты по тексту
Ленина (приложение 5) и по сборнику «Ввехи» (приложение 6). Самые часто
употребляемые слова в тексте Ленина – Зрения, ибо, материализм, идеализм,
объективной. В Сборнике Вехи самые частые – интеллигенции, жизни,
русской, интеллигенция. Логичным является вывод, что основная критика и
в «Вехах» направленна на непосредственно интеллигенцию.
18
означает что одни и те – же ключевые слова находятся в разных кластерах
(приложение 12). Эти пересечения – логические отношения выделенных
понятий. Таким образом, необходимо найти частоту их пересечения. Для
обработки подобного рода данных существует отдельный инструмент
19
стоит отметить существенную разницу в размерах двух таблиц. Следует
учитывать тот факт, что они составлялись по идентичным кодам. Числовое
поле в таблице, содержащее ноль свидетельствует об отсутствии пресечений
между кодами. Лексика действительно существует, но нигде нет конкретных
точек пересечения кластеров, которые можно было бы отобразить таблице.
Отсутствие самих же строк кодов, как рядов и столбцов в таблице, которое
мы можем наблюдать на второй таблице говорит об отсутствии подобной
лексики в тексте, как таковой. Это и есть, то, что мы искали.
20
Заключение
21
Список использованной литературы:
Источники:
1. Вехи. М., Изд-во Азбука, 2011
2. Материализм и эмпириокритицизм. Л., Изд-во Политической
литературы ,1968
Исследования:
22
Приложения
Приложение 1
Приложение 2
23
Приложение 3
24
25
Приложение 4
26
27
Приложение 5
Приложение 6
Приложение 7
28
Приложение 8
Приложение 9
29
Приложение 10
30
Приложение 11
Приложение 12
31
Приложение 13
32
Приложение 14
Приложение 15
33
Приложение 16
34
Приложение 17
Приложение 18
35
36