Вы находитесь на странице: 1из 10

Языковая инженерия: в поиске смыслов

ПроГраММЫ длЯ работЫ с корПУсаМи текстов:

обЗор осНовНЫх корПУсНЫх МеНедЖеров. работа с систеМоЙ DDC

Е.В. Недошивина

Санкт-Петербургский государственный университет Санкт-Петербург

ВВедение

� насто��щее врем�� в современной лингвистике неот�емлемым инструментом дл�� лингвистических исследований и решени�� прикладных задач стали корпусы текстов. Лингвистическим корпусом называют большой массив текстов, собранных в соответствии с определёнными прин�ипами, размеченных по определённому стандарту и обеспеченных спе�иализированной системой управлени�� текстовыми и лингвистическими данными. Корпус служит дл�� решени�� различных лингвистических задач. Применение корпусных методов к анализу лексической сочетаемости позвол��ет создавать словари и грамматики нового типа, в том числе, словари устойчивых словосочетаний. С по��влением и развитием корпусов текстов и наступлением эры корпусной лингвистики у лексикогра�ов по��вилась возможность обращатьс�� к большим коллек�и��м контекстов словоупотреблений. Работа пользователей с корпусом осуществл��етс�� с помощью спе- �иализированных программных средств – конкордансеров (более простой тип программ) и корпусных менеджеров, предоставл��ющих разнообразные возможности по получению из корпуса необходимой ин�орма�ии:

Корпусный менеджер – это спе�иальна�� поискова�� система включающа�� программные средства дл�� поиска данных в корпусе, получени�� статистической ин�орма�ии и предоставлени�� результатов пользователю в удобной �орме. Результаты поиска обычно выдаютс�� в виде конкорданса – списка контекстов, где искома�� едини�а представлена в ее лексическом окружении �1�� Дл�� решени�� различных лингвистических задач требуетс�� также, чтобы тексты содержали в себе разного рода лингвистическую и экстра- лингвистическую ин�орма�ию. Дл�� этого существует разметка, котора�� заключаетс�� в приписывании текстам и их компонентам спе�иальных меток, например сведени�� о частеречной принадлежности слов.

74

Языковая инженерия: в поиске смыслов

Поисковые возможности корпусных менеджеров включают в себ�� поиск конкретных слово�орм, поиск слово�орм по леммам, поиск группы слово�орм в виде разрывной или неразрывной синтагмы, поиск слово�орм по набору мор�ологических признаков и т.д., вывод результатов поиска с указанием контекста заданной длины, сохранение отобранных материалов в отдельном �айле. Использование корпусов позвол��ет не только изучать лексические едини�ы в контекстах, но и получать данные о частоте слово�орм, частоте лексем, грамматических категорий, о совместной встречаемости лексических едини�, особенност��х их сочетаемости, управлени�� и т.д. Самый большой российский корпусный проект – это На�иональной корпус русского ��зыка, созданный в рамках программы «Филологи�� и ин�орматика» РАН (НКРЯ) (�u�����p���.�u).

испОлЬЗОВание кОРпУсОВ

Первым большим компьютерным корпусом считаетс�� Брауновский корпус (БК, англ. B��w� ����pu�, B��), который был создан в Университете Брауна и содержал 500 �рагментов текстов по 2 тыс��чи слов в каждом, которые были опубликованы на английском ��зыке в США в 1961 году. � результате он задал стандарт в 1 млн словоупотреблений дл�� создани�� представительных корпусов на других ��зыках. � св��зи с ростом компьютерных мощностей, способных работать с большими об�емами текстов, в 1980-е годы в мире по��вилась возможность создать корпусы большего размера. Например, в �еликобритании такими проектами были Банк Английского (B���� �� E�g���h) и Британский На�иональный Корпус (B�����h �������� ���� pu�, B���). �11�� Первоначальные лингвистические исследовани��, проводившиес�� с помощью корпусов, сводились к подсчету частот встречаемости различных ��зыковых элементов. Чаще всего этими элементами были слова, в других случа��х – гра�емы, мор�емы, словосочетани��. Статистические методики используютс�� в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки ор�огра�ии и грамматики и т.д. Так, устойчивые словосочетани�� представл��ют собой с семантической точки зрени�� неделимую смысловую едини� у, что очень важно учитывать в лексикогра�ии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаютс�� вместе регул��рно и, таким образом, могут быть отнесены к устойчивым словосочетани��м.�12��

75

Языковая инженерия: в поиске смыслов

По прошествии времени корпусы стали осознаватьс�� как мощные ин�орма�ионные ресурсы, могущие быть использованными в рамках различных лингвистических направлений. Так, корпусы ��вл��ютс�� богатым источником данных дл�� лексикогра�ии. На их основе и с применением компьютера словари могут составл��тьс�� и пересматриватьс�� гораздо быстрее, чем раньше, таким образом �иксиру�� текущее состо��ние ��зыка и не успева�� устаревать за то врем��, которое проходит от момента начала работы над ними до момента выхода их из печати. Так, например, одна из главных �елей создани�� Британского на�ионального корпуса и Банка английского ��зыка заключалась в применении последних в лексико- гра�ии. �12�� «С исследовани��ми по лексикогра�ии тесно св��заны исследовани�� в области семантики. Наблюда�� окружени�� той или иной лингвистической едини�ы в корпусе, можно установить определенные семантические признаки, характеризующие данную едини � у. Часто слово входит сразу в несколько семантических категорий, поэтому следует говорить только о степени принадлежности слова к той или иной категории. Степень же может быть вы��влена путем подсчета частот его распределени�� по разным

категори��м».�12��

��������� ����у��ы� ����������

� насто��щее врем�� существует довольно большое число корпусных менеджеров. Примерами таких программ ��вл��ютс�� M������ (B�����), I�M� ����pu� ����������h (���P), XAI�RA, �EXA, V���u�� ����pu� M���g�� (VM��), EXMAR��DA ����pu�-M���g�� (���-M�) и другие. � �ел��х повышени�� э��ективности исследований к корпусным менеджерам пред���вл��ют следующие общие требовани��: корпусный менеджер должен: строить полные конкордансные списки� искать не только отдельные слова, но и словосочетани��� осуществл��ть поиск по шаблонам (сложные запросы)� сортировать списки по нескольким критери��м, выбираемым пользователем� давать возможность отображать найденные слово�ормы в расширенном контексте� давать статистическую ин�орма�ию по отдельным элементам корпуса� отображать леммы, мор�ологические характеристики слово�орм и метаданные (библио- гра�ические, типологические), зависит от степени размеченности корпуса� сохран��ть и распечатывать результаты� работать как с отдельными �айлами, так и с корпусами, неограниченными по размеру� быстро обрабатывать запросы и выдавать результаты� поддерживать различные

76

Языковая инженерия: в поиске смыслов

�орматы текстовых данных (�x�, ����, ���, h���, x�� и др.)� быть легким (интуитивно пон��тным) в использовании, как дл�� опытного, так и дл�� начинающего пользовател��� и т.д. �1��

Корпусный менеджер Mana�ee (Boni�o) Поискова�� система M������ (корпусный менеджер) представл��ет собой программное обеспечение дл�� работы с корпусами текстов. Система M������ состоит из двух частей: сервера (����������) и гра�ического пользовательского интер�ейса (G�I� - g��ph����� u��� ����������) B�����, работающего на стороне клиента, созданного Павлом Рыхли (P���� Ry��h�y) и группой ��P��� (���u��� ���gu�g� P���������g ���������y) на �акультете ин�орматики Университета им. Масарика. �1�� Система M������легкаиудобнависпользованииипозвол��етпроводить поиск отдельных атрибутов (слово�орма, лемма, тэг)� использовать регул��рные выражени�� и логические операторы� имеет средства задани�� структуры (грани�ы предложени�� и др.)� быстро обрабатывает сложные запросы�ь имеет возможность использовани�� шаблонов. Программа сохран��ет историю запросов пользовател��� имеет возможность просмотра мор�ологических характеристик слово�ормы и отображение лемм. Полученные результаты можно сохранить в �айл или вывести на печать. Имеетс�� возможность сортировки по ключевым словам, контексту, интерактивного неограниченного расширени�� контекста, �ильтра�ии (удаление части построенных конкордансов), удалени�� повторений. Также можно получать сведени�� о частотных распределени��х, частотах слов и других атрибутов в корпусе или контексте. � качестве особенностей системы следует указать возможность выбора кодировок, создани�� пользовательских подкорпусов, произвольный набор тэгов, возможность подключени�� других ��зыков. �4�� К сожалению, разметка дл�� данного корпус менеджера проводитс�� разработчиками и не существует программы автоматической разметки.

Корпусный менеджер IMS Corpus Workbench (CQP) I�M� ����pu� ����������h – это набор программных средств дл�� работы с большими, лингвистически размеченными массивами текстов (корпусами) Одним из этих средств ��вл��етс�� I�M� ����pu� �u��y P��������� (���P) – спе�иальна�� поискова�� программа дл�� лингвистических исследований �6��. � программе реализованы разные способы задани�� запросов:

простой поиск, подобный использованию G��g��, задан по умолчанию�

77

Языковая инженерия: в поиске смыслов

поиск точной последовательности с использованием упрощенного ��зыка запросов (кавычки)� поиск с использованием всех возможностей ���P. � запросе слово может быть представлено: слово�ормой (������g)� леммой – необходим знак % (���% означает ���, ����, ������g)� набором слово�орм или лемм со знаком диз�юнк�ии |, дл�� нахождени�� одного или другого слова запроса, например ����g������|���������� значит ����g������ ИЛИ ����������� дл�� поиска набора лемм используетс�� % в кон�е всего

выражени�� (������|�����u�u����% дл�� поиска ��������, �����u�u����� и т.д.)�

под�епочкой .�, ��.g ������������������������gggggg������.�������.�.�.�.� находитнаходитнаходитнаходитнаходитнаходитнаходит ��������������������������������gggggggg�������������������������������� иииииииии ����������������������������������������gggggggggg����������������������������������������������������������������������� неизвестнымнеизвестнымнеизвестнымнеизвестнымнеизвестнымнеизвестнымнеизвестнымнеизвестнымнеизвестнымнеизвестнымнеизвестным

g.g

g

��

словом. (точка)� последовательностью неизвестных слов, которые могут

быть заданы

(где � и M соответствуют минимальному

и максимальному количеству слов в интервале).�1�� �ерсии программы ���P, работающей в системе �����w� , пока не существует.

словами) или диапазоном

(две точки соответствуют возможному интервалу между

�-M

Корпусный менеджер XAIRA

X���� (XM� Aw��� I����x��g ��� R�������� A���h������u��) – это программа поиска и вывода лингвистической ин�орма�ии в больших или малых документах в �ормате XM�. Она ��вл��етс�� развитием программы �ARA, изначально разработанной в рамках проекта B�����h �������� ����pu� (h��p://www.�������p.�x.�с.u��). X���� осуществл��ет поиск основы по основе слова или конкретного слова, показывает частоту слов, дает возможность вводить ограничени�� по частоте, использовать правила лемматиза�ии, сравнивать частоту данного слова или леммы с частотами других слов, по��вл��ющихс�� в том же контексте. Программа осуществ��лет упор��дочение результатов по статистическим данным, отражающим силу коллока�ионных св��зей, предлагает варианты запросов, ищет по начальным и конечным XM� тэгам, также как и по словам, использует комбина�ии разных запросов. Данна�� система состоит из следующих частей:

- программа ����x��, котора�� индексирует отдельные XM� �айлы�

- ������, программа, котора�� осуществл��ет взаимодействие программы клиента с �айлами данных�

- программа �������, котора�� осуществл��ет взаимодействие сервера и пользовател��. Така�� организа�и�� имеет несколько преимуществ, позвол����, например, развитие различных программ-клиентов дл�� различных �елей использовани��. Кроме того, программа, составл��юща�� индекс,

78

Языковая инженерия: в поиске смыслов

поставл��етс�� вместе с XAI�RA, что упрощает про�есс создани�� базы данных, используемой программой. �16�� � работе с данной программой возникли сложности, т.к. при установке она требовала наличи�� на компьютере определенной версии системы �����w�, которой в нашем распор��жении не было, поэтому мы не смогли проверить возможность использовани�� в ней собственного размеченного или неразмеченного текста. Однако в описании программы говоритс��, что она использует размеченные тексты в XM� �ормате.

Корпусный менеджер DDC

DD�� – это программа поиска контекстов слова или словосочетани�� в некотором корпусе. DD�� использует во врем�� индекса�ии и поиска следующие лингвистические про�ессоры системы Диалинг (www.���.�u):

- гра�ематический про�ессор�

- мор�ологический про�ессор�

- поверхностно-синтаксический про�ессор (�h����w �y���x).

Гра�ематический про�ессор делит входной текст (h��� или p���� �ормат) на слова, предложени�� и абза�ы. Мор�ологический про�ессор дл�� каждого слова создает набор мор�ологических интерпрета�ий, где мор�ологическа�� интерпрета�и�� – это пара <P,G>, где P – часть речи, а G – набор граммем. Сейчас в системе Диалинг есть три мор�ологических словар�� – русский, английский и неме�кий, соответственно входной корпус может быть английским, русским или неме�ким. Поверхностно- синтаксический про�ессор строит дл�� предложени�� проективный набор клауз (простых предложений) и проективный набор синтаксических групп внутри этих клауз.�10�� Работа с программой DD�� и её ��зык запросов будут рассмотрены далее, т.к. только с данной программой нам удалось использовать собственный неразмеченный текст

РабОта с кОРпУснЫм менеджеРОм DDC

Дл�� того, чтобы осуществл��ть поиск необходимой ин�орма�ии, тексты корпуса должны быть размечены соответствующим образом. Подключение и разметка корпусов Один корпус дл�� DD�� системы состоит из трех частей:

- �айл перечн�� всех входных текстов корпуса�

- �айл оп�ий индексировани�� и поиска�

- входныевходные тексты,тексты, каждыйкаждый изиз которыхкоторых лежитлежит вв отдельномотдельном ��айле.айле.

79

Языковая инженерия: в поиске смыслов

Существуют два типа индексов, которые надо построить:

Индексы дл�� предложений и абза�ев, по которым можно по номеру слова в массиве получить грани�ы предложени��, которое это слово содержит. Такой индекс строитс�� довольно быстро и легко, поскольку он имеет небольшой размер относительно индекса второго типа. Индексы дл�� слов, или более обобщенно, индексируемых элементов, с помощью которых можно перейти от слова ко всем его вхождени��м в корпусе. Индексы этого типа существенным образом завис��т от типа индексируемых элементов. Текуща�� верси�� программы способна обрабатывать строки (входна�� слово�орма, лемма)� мор�ологические интерпрета�ии� синтаксические группы или клаузы, номер входа в некоторый тезаурус. Один индекс второго типа состоит из упор��доченного набора уникальных индексируемых элементов, причем от каждого элемента идет ссылка на перечень всех вхождений данного элемента в корпусе. Одно вхождение элемента – это четырехбайтовое число, которое ��вл��етс�� номером этого элемента во входном корпусе, счита�� с самого начала корпуса. Отсюда уже следует, что один корпус в DD�� не может содержать более 2 32 слов. �10�� Программа индекса�ии работает в ограниченной пам��ти, это означает, что она временами сохран��ет данные на диск, освобожда�� таким образом оперативную пам��ть. �10, 9�� Дл�� работы с системой требуетс�� установить программу и запустить ��������������.�x�. На правой панели находитс�� кнопка «A��», котора�� служит дл�� добавлени�� текстов к корпусу. Можно добавл��ть тексты только в �ормате .�x� или .h���. После того как нужные �айлы были выбраны в меню F���\�p����� устанавливаютс�� параметры корпуса и разметки. Затем проект следует сохранить. Далее требуетс�� нажать кнопку «I����x». Надо об��зательно дождатьс�� по��влени�� сообщени�� «I����x��g fi���h�� �u��������u��y!» или сообщени�� об ошибке. Каждый раз, когда мен��ютс�� настройки, добавл��етс�� или убираетс�� текст индекса�ию надо проводить заново. После осуществлени�� индекса�ии можно проводить поиск.

Язык запросов корпус-менеджера DDC Текуща�� верси�� ��зыка запросов DD�� дает возможность проводить не только поиск по заданному слову, но и делать более сложные запросы.

80

Языковая инженерия: в поиске смыслов

Так, результатом запроса хх� будут все предложени��, в которых есть слово, начинающеес�� на «хх», а на запрос �хх будут получены предложени��, в которых есть слово, заканчивающеес�� на «хх». Программа позвол��ет проводить поиск по мор�ологической интерпрета�ии� �орма запроса – �М��, где М – мор�ологическа�� интерпрета�и��, например �С ед, тв�� – существительные в единственном числе, творительном падеже. Запрос �слово позвол��ет искать по заданной слово�орме. Последовательность слов задаетс�� в кавычках, например «мой новый дом», при этом разные запросы можно комбинировать, поэтому на запрос «мой �Г��», мы получим предложени��, в которых за словом «мой» следует какой-нибудь глагол. � ��зыке запросов есть средства дл�� кон�юнк�ии и диз�юнк�ии описаний слов - && и || соответственно. Например, на запрос дом&&�С ед�� будут получены предложени��, в которых есть слово «дом» и существительное в единственном числе, а на запрос �Г 2л�� || �С мн�� - предложени��, в которых есть глагол во втором ли�е или существительное во множественно числе. Могут быть сделаны и более сложные запросы, в которых указано рассто��ние между двум�� словами, проводить поиск предложений с определенными синтаксическими группами или клаузами. �ообще говор��, запрос DD�� может преследовать две разные �ели. �о-первых, пользователь может просить систему выдать ему число предложений, удовлетвор��щих данному запросу, это статистические запросы. �о-вторых, пользователь может хотеть получить только примеры использовани�� данной конструк�ии. Это запросы контекстов. Недостатком системы DD�� ��вл��етс�� то, что она приводит только конкордансы K�I���, а расширенный контекст следует искать другими способами, например, при помощи программы M��������� ����.

Заключение

Корпусна�� лингвистика, ��вл����сь относительно молодым направ- лением, имеет довольно богатый теоретический и практический базис. Об этом свидетельствует по��вление новых, все более об�емных корпусов текстов с достаточно качественным аннотированием. Посто��нно идет разработка и совершенствование программных средств, автоматизирующих многочисленные трудоемкие про�ессы �ормиро- вани�� корпусов.

81

Языковая инженерия: в поиске смыслов

� данной работе были рассмотрены некоторые корпусные менеджеры. Наиболее удобной в использовании оказалась программа DDС. Работа�� с этой программой, мы можем использовать собственные тексты на русском, английском или неме�ком ��зыках, причем программа разметки корпуса входит в систему. Однако имеетс�� и р��д недостатков, например, нет возможности выводить более широкий контекст и дл�� поиска точной �итаты следует пользоватьс�� другими средствами.

литеРат УРа

1. Захаров, В.П. Корпусна�� лингвистика: Учебно-методическое пособие. СПб, 2005

2. Захаров, В.П. Ин�орма�ионные системы (документальный поиск). СПб, 2002.

3. Сухотин, И.А. Создание программы дл�� постредактировани�� размеченных текстов: курсова�� работа. СПб, 2006

4. Васильев, В.М. Исследование и разработка программных средств создани�� корпусов текстов и поиска в них: дипломна�� работа. СПб,, 20042004

5. Stefan Evert T�h� ���P �u��y ���gu�g� T�u������ h��p://www.���.u��- ��u��g���.��/p��j�����/����pu�����������h/���PT�u������/��qp-�u������.p��

6. Oliver Christ, Bruno M. Schullze, Anja Hofmann, Esther Kцnig T�h� I�M� ����pu� ����������h ����pu� �u��y P��������� (���P) h��p://www. ���.u��-��u��g���.��/p��j�����/����pu�����������h/���P����M��u��/ HT�M�/

7. Alexey Sokirko ���� M��u�� ��� D� D�/D�����g ��������������. h��p://www.����-��������������.��g/����u���������/DD��R�����.p��

8. EXMARaLDA ���RP��-MA�AGER (���M�) E��� E���ьhьhh���uuu���ggg ������ Fu��������� u�� A�w���u�g V������ 0.2 hh����p://www1.up://www1.u����-h-h������uu��g.g.����//

�x�������/D����/2D-D�w�����/����pu�-M���g��/V������%

9. Сокирко,А.В. DDDD���� --- программапрограммапрограмма поискапоискапоиска попопо мормормор���ологическиологическиологически иии

hh����pp://www.://www.://wwwwww ���������������.��� �.�������u/u/u/u/u/u/u/u/��/�����������������/�������������������������������//////////

синтаксически размеченному массиву

D����g_��_����xxx��.h�

h.hhh����������

10. Alexey Sokirko A ����h������ �������w �� D�D�/D�����g ��������������.

h��p://www.://wwwwww ������������.��� �.������u/u/u/u/u/u/u/��/���������������/����������������������������//�������///////����������������������������������������������������������������������wwwwwwwwwww������������������.h��������������������������������������������������������������������������������������������������������������������������������������������������������������.h

h.h.h.h.h.h.h.h.hhh��������������������������

11. Корпусная лингвистика стать�� в интеренет-эн�иклопедии �икипеди�� h��p://�u.w����p����.��g/w����/корпусна�� лингвистика

12. Корпусная лингвистика h�� p://���� p���.����g.�w.� u

82

Языковая инженерия: в поиске смыслов

13. Автоматическая обработка текста www.���.�u 14. IMS ����pu� ����������h h��p://www.���.u��-��u��g���.��/p��j�����/ ����pu�����������h/����x.h��� 15. A collection �� Ru����� ����p��� h��p://����pu�.�����.���.u��/�u�����p���. h��� 16. Xaira p�g� h��p://www.�u���.�x.���.u��/���/x����/

83