Вы находитесь на странице: 1из 64

Л.Ю.

Щипицина

Информационные технологии
в лингвистике

Учебное пособие

Москва
Издательство «Флинта»
Издательство «Наука»
2013

1
УДК 800(075.8) Содержание
ББК 81.1я73
Щ85

Р е ц е н з е н т ы: Предисловие ........................................................................................................... 4

д-р филол. наук, проф., зав. кафедрой теории перевода Часть 1. Основные понятия ................................................................................. 6
и межкультурной коммуникации Воронежского
государственного университета В.Б. Кашкин; 1.1. Лингвистика. Язык ....................................................................... 6
канд. техн. наук, доцент кафедры информационных технологий 1.2. Информация. Информационные технологии .......................... 12
и автоматизированных систем Московского государственного института 1.3. Аппаратное и программное обеспечение
электроники и математики Э.С. Клышинский информационных технологий в лингвистике .......................... 21

Часть 2. Области применения информационных технологий


Щипицина Л.Ю. в лингвистике ....................................................................................... 27
Щ85 Информационные технологии в лингвистике : учеб. посо- 2.1. Автоматический анализ и синтез звучащей речи .................... 27
бие / Л.Ю. Щипицина. — М. : Флинта : Наука, 2013. — 2.2. Автоматическое распознавание текста .................................... 35
128 с. 2.3. Автоматическое аннотирование и реферирование текста ...... 38
ISBN 978-5-9765-1431-7 (Флинта) 2.4. Автоматический анализ и синтез текста .................................. 43
ISBN 978-5-02-037776-9 (Наука)
В учебном пособии излагаются основы курса «Информационные техно- Часть 3. Прикладные разделы компьютерной лингвистики ............................ 57
логии в лингвистике», приводятся задания для организации самостоятель- 3.1. Корпусная лингвистика .............................................................. 57
ной работы студентов и глоссарий, включающий необходимые понятия
3.2. Компьютерная лексикография .................................................. 65
курса.
Для преподавателей и студентов филологических и лингвистических 3.3. Компьютерная терминография ................................................. 76
специальностей. 3.4. Машинный перевод ................................................................... 81
3.5. Компьютерное обучение языкам .............................................. 91
УДК 800(075.8)
ББК 81.1я73 3.6. Информационно-поисковые системы ...................................... 98

Заключение ......................................................................................................... 104


Библиография .................................................................................................... 105
Приложения ........................................................................................................ 111
Приложение 1. Глоссарий ........................................................................ 111
Приложение 2. Темы докладов по курсу ................................................. 115
Приложение 3. Тест для проверки знаний по курсу ............................... 117
ISBN 978-5-9765-1431-7 (Флинта) © Щипицина Л.Ю., 2013
ISBN 978-5-02-037776-9 (Наука) © Издательство «Флинта», 2013 Приложение 4. Ключи к тесту ................................................................. 124

2 3
Предисловие образом базовые программы операционной системы и ресурсы Ин-
тернета, что до минимума сводит необходимость привлечения до-
полнительного программного обеспечения в ходе изучения курса.
В библиографическом списке приводится литература, использо-
ванная при подготовке пособия, а также список интернет-ресурсов,
Информационные технологии в настоящее время являются не- который может быть дополнен студентами при работе над курсом.
отъемлемой частью любой сферы профессиональной деятельности, В приложении приводится глоссарий с определениями необхо-
в том числе лингвистики. И если когда-то использование компьюте- димых теоретических понятий курса, сформулированных автором
ров и соответствующих программ в лингвистических исследованиях, пособия с опорой на различные источники, список тем, предлагае-
переводе и в обучении языку не являлось обязательным, то сегодня мых студентам для более глубокой проработки в виде индивидуаль-
уже со студенческой скамьи будущим преподавателям иностранных ных докладов, а также тест для проверки знаний по курсу, снабжен-
языков, переводчикам и лингвистам-исследователям необходимы ный ключами, что позволяет использовать тест для индивидуальной
компетенции, связанные с использованием информационных техно- работы студентов.
логий в своей профессиональной сфере деятельности. Содержание и учебно-методический аппарат пособия позволяют
Первичному знакомству с возможностями информационных рассматривать его как базовое в освоении возможностей информа-
технологий в лингвистике служит настоящее учебное пособие, ко- ционных технологий в лингвистике. В дальнейшем предусматрива-
торое предназначено для студентов лингвистических специально- ется углубленное изучение отдельных разделов курса («Машинный
стей бакалавриата младших курсов. Пособие соответствует рабочей перевод», «Автоматический анализ текста», «Компьютерная линг-
программе дисциплины «Информационные технологии в лингви- водидактика» и т.п.) в зависимости от профиля подготовки обучаю-
стике» и может быть использовано в качестве основного источника щегося в рамках специальных дисциплин профессионального цикла
литературы по этой дисциплине. бакалавриата и магистратуры.
Именно полный охват тем курса, подлежащих изучению студен-
тами, а также наличие системы заданий и упражнений, облегчаю-
щих формирование у обучающихся необходимых компетенций, от-
личает данное пособие от других подобных изданий.
Пособие включает три основных части, библиографический спи-
сок и приложения.
В основное содержание пособия входит часть 1 «Основные по-
нятия», часть 2 «Области применения информационных технологий
в лингвистике» и часть 3 «Прикладные разделы компьютерной
лингвистики». Каждая часть содержит несколько разделов, включа-
ющих перечень основных теоретических вопросов, рассматривае-
мых в разделе, их краткое изложение, вопросы для обсуждения на
семинарских занятиях, список литературы для самостоятельной
подготовки студентов по теме раздела, упражнения и лабораторные
работы. Для выполнения лабораторных работ требуются главным

4 5
Часть 1 обратиться к разграничению теоретической и прикладной лингви-
стики.
Основные понятия
Теоретическая (или фундаментальная) лингвистика — это об-
ласть языкознания, направленная на объективное установление со-
стояния отдельного языка, его истории и закономерностей. Эта
область лингвистики призвана ответить на вопрос «Каков язык?»
1.1. Лингвистика. Язык
[37, 214—215].
Лингвистика как наука о закономерностях строения и раз- Прикладная лингвистика развивается с конца 20-х годов XX в. и
вития естественного языка. Понятие теоретической и при- является областью языкознания, связанной с разработкой методов
кладной лингвистики. Соотношение прикладной и компью- решения практических задач использования языка [13, 397]. При-
терной лингвистики. кладная лингвистика отвечает на вопрос «Как лучше использовать
Язык как знаковая система. Понятие естественного и ис- язык?».
кусственного языка. Виды искусственных языков. Следует отметить, что в России и за рубежом сложились разные
Изучение возможностей применения информационных техноло- интерпретации понятия прикладной лингвистики. Если за рубежом в
гий в лингвистике предполагает знание основных понятий соответ- 1930—1940-е годы под прикладной лингвистикой (Applied Linguistics)
ствующей области знания, среди которых можно выделить понятия прежде всего понимается процесс обучения иностранному языку,
из сферы лингвистики (язык, лингвистика, компьютерная лингви- методика его преподавания, особенности описания грамматики для
стика и т.п.) и информатики (информация, алгоритм, модель и др.). учебных целей, то в России начиная с 1950-х годов, прикладная линг-
Знакомство с этими понятиями начнем с лингвистических терми- вистика ассоциируется с компьютерными технологиями и автомати-
нов, характеризующих непосредственную профессиональную об- ческими системами обработки информации [4, 6]. В связи с этим в
ласть деятельности лингвистов, преподавателей иностранных язы- русскоязычной научной традиции прикладная лингвистика нередко
ков и переводчиков. рассматривается как синоним компьютерной / вычислительной / ав-
Лингвистика (или языкознание) традиционно понимается как томатической / инженерной лингвистики.
наука о естественном человеческом языке [9, 28]. Лингвистов зани- На современном этапе развития науки в рамках прикладной
мают вопросы строения языка (выделение в нем фонетического, лингвистики выделяется несколько направлений по оптимизации
лексического, грамматического уровня и уровня текста), социально- использования языка, которые объединяются исследователями в две
го варьирования языка, вопросы порождения и понимания языковых большие группы: традиционные («вечные») и новые.
высказываний, принципы функционирования языка в обществах К традиционным направлениям и соответствующим задачам
разных типов, происхождения и развития языка и другие его аспек- прикладной лингвистики относятся:
ты [13, 618—622].
l создание и совершенствование письменностей;
В зависимости от изучаемого аспекта языка, национальной тра-
диции и научной методологии выделяются различные разделы линг- l создание систем транскрипции устной речи;
вистики, например структурная лингвистика, социолингвистика, l создание систем транслитерации иноязычных слов;
психолингвистика и т.п.
l создание систем стенографии;
Чтобы определить раздел лингвистики, наиболее тесно связан-
ный с использованием информационных технологий, целесообразно l создание систем письма для слепых;

6 7
l упорядочение, унификация и стандартизация научно-техниче- l создание и поддержка автоматических словарей;
ской терминологии; l создание автоматизированных информационно-поисковых си-
l изучение процессов и создание правил образования названий но- стем;
вых изделий, товаров, химических веществ; l машинный перевод;
l разработка
методов адекватного преобразования текстов в ино- l создание автоматических систем обучения языку;
язычную форму (перевода);
l автоматическая атрибуция и дешифровка анонимных текстов;
l совершенствование методики преподавания языков и др. [13, 397].
l создание лингвистических баз данных;
Новыми задачами прикладной лингвистики считаются:
l разработка программных инструментов для решения задач тео-
l разработка лингвистических основ машинного перевода;
ретической и прикладной лингвистики и т.д. [20; 53 и др.].
l автоматическое индексирование и аннотирование документов;
Лингвистика в целом и компьютерная лингвистика в частности
l автоматический анализ текстов; имеют дело с языками различного типа и их отдельными уровнями.
l автоматический синтез текстов; Язык в наиболее общем виде определяется как знаковая система,
l созданиесловарей-тезаурусов для автоматического поиска инфор- используемая для общения в некотором социуме [13, 604; 29, 5].
мации и др. [ср. 36]. Различают естественные и искусственные языки. Естественный
язык — это исторически сложившаяся и используемая в определенной
Именно те области прикладной лингвистики, которые связаны с этнической группе или национальном государстве знаковая система.
привлечением компьютеров для решения практических задач ис- Примерами естественных языков выступают русский и английский
пользования языка, являются предметом компьютерной лингвисти- (принадлежащие к индоевропейской языковой семье) или финский и
ки, оформившейся в 1960-е годы как особое научное направление. эстонский (принадлежащие к финно-угорской языковой семье).
Компьютерную лингвистику можно определить как область ис- Искусственные языки представляют собой знаковые системы,
пользования компьютерных инструментов — программ, технологий искусственно создаваемые в тех областях, где применение есте-
организации и обработки данных — для моделирования функциони-
ственных языков менее эффективно или невозможно. Среди искус-
рования языка в тех или иных условиях, а также сферу применения
ственных выделяются неспециализированные (или международные)
компьютерных моделей языка в лингвистике и смежных с ней дис-
языки (эсперанто, волапюк и др.) и специализированные языки. К по-
циплинах [4, 13].
следним относятся языки науки (математики, логики, химии и т.д.,
В связи с тем, что язык представляет собой весьма сложное об-
создание которых началось в XVI в.) и языки человеко-машинного
разование, в компьютерной лингвистике сложились и развиваются
общения (получающие распространение в специальных областях
различные направления, примерно сопоставимые с отдельными
человеческой деятельности, связанной с облегчением диалога чело-
уровнями языка, с процессами порождения и восприятия языковых
века и компьютера, начиная с 1940-х годов) [13, 201—202].
сообщений или другими видами человеческой деятельности, связан-
Примеры языков человеко-машинного общения простираются
ной с языком. Соответственно, к направлениям компьютерной линг-
вистики относятся: от простейших систем символического кодирования (ассемблеров)
до специализированных языков программирования (С++, Java,
l автоматический анализ текстов; Python, ErLang и др.). К 1980-м годам в мире насчитывалось около
l автоматический синтез текстов; 500 языков программирования [13, 202]. В настоящее время активно

8 9
используется примерно столько же, хотя общее количество извест- Упражнения
ных языков программирования достигает нескольких тысяч [55]. 1. Определите статистические показатели приведенного ниже текста сме-
Эти факты свидетельствуют об остроте проблемы человеко-машин- шанного языкового типа.
ного общения и о множестве подходов к ее решению.
Подводя итог разделу, констатируем, что лингвистикой следует Проекты Cíbola/Oleada реализуют обширные компьютерные системы линг-
вистического анализа текстов, представленных в Unicode. Компоненты системы
считать науку о закономерностях происхождения, строения и функ- включают средства работы с мультиязыковыми текстами (MUTT), построения кон-
ционирования естественного человеческого языка. Предметом линг- корданса (XConcord) для текстов на более чем 16 языках, статистического анализа,
вистики и компьютерной лингвистики как ее особого раздела высту- автоматического перевода, различные словари и тезаурусы. Некоторые версии этих
пает язык — знаковая система, используемая с различными целями. компонентов доступны для бесплатной загрузки после процедуры формальной ре-
гистрации. Все компоненты реализованы в среде X11 Window System для SunOs и
Solaris (источник: Проекты Cíbola/Oleada http://rvb.ru/soft/catalogue/c01.html).
Вопросы для обсуждения
Слов
1. Что такое лингвистика? Назовите ее разделы. В каком разделе лингвистика
имеет дело с информационными технологиями? Символов (без пробелов)
2. Можно ли считать синонимами прикладную и компьютерную лингвисти- Символов (с пробелами)
ку? Аргументируйте свой ответ. Символов в латинской графике
3. Перечислите основные направления компьютерной лингвистики. Расска- Чисел
жите об одном из направлений.
Средняя длина слов
4. Сравните разные определения языка. Выделите в них ключевые слова. Со-
ставьте на основе повторяющихся ключевых слов свое определение языка. 2. Какому языку соответствует средняя длина слов текста смешанного типа,
5. Подумайте, с естественным или искусственным языком имеет дело ком- приведенного в задании 1? Для выполнения задания вычислите среднюю
пьютерная лингвистика? длину слов русского языка из приведенного текста и среднюю длину слов
в латинской графике.
6. Какие виды естественных и искусственных языков вам известны? Приве-
дите примеры естественных и искусственных языков разных видов. 3. Определите, каким языкам соответствуют следующие специфические бук-
вы, буквосочетания и слова:
а) Ø ö ß ρ ω ё š,
Рекомендуемая литература
б) th sch šč,
1. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд. в) et, the, der, och, için.
М.: ЛКИ, 2007. С. 6—8, 20.
4. Создайте диагностический словарь для определения языка на материале
2. Беляева Л.Н. Лингвистические автоматы в современных гуманитарных текстов на двух разных языках (на ваш выбор). Для этого заполните сле-
технологиях: учеб. пособие. СПб.: Книжный Дом, 2007. С. 36—40. дующую таблицу.
3. Большой энциклопедический словарь. Языкознание. М.: Большая Россий-
ская энциклопедия, 1998. С. 201—202; 604—606, 618—622. Таблица
4. Всеволодова А.В. Компьютерная обработка лингвистических данных: Критерий Язык 1: Язык 2:
учеб. пособие. 2-е изд., испр. М.: Флинта: Наука, 2007. С. 63—64.
Типичные артикли
5. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике:
учеб. пособие. М.: Академия, 2004. С. 5—7. Указательные местоимения

10 11
Окончание таблицы щая некоторое сообщение без учета смыслового содержания этого
Критерий Язык 1: Язык 2: сообщения (в теории передачи информации) или как содержание,
которое получено из внешнего мира и позволяет адекватно реагиро-
Местоимения 3-го лица
вать живому организму (или технической системе) на окружающую
Отдельные формы среду (в кибернетике) [16, 11—12].
вспомогательных глаголов
Обобщая различные определения информации, можно предло-
Основные предлоги и союзы жить следующую трактовку этого понятия: информация — это све-
Другие частотные слова дения об окружающем мире, передаваемые человеком, живыми ор-
ганизмами или техническими системами для регулирования своего
5. Дополните таблицу встречаемости букв в распространенных европейских поведения в окружающей среде.
языках [Всеволодова 2007: 64], добавив в нее данные по русскому языку.
Используйте для этого любой текст на русском языке объемом не менее
Роль информации в современном обществе исключительно ве-
100 символов. лика. Информация, кодируемая с помощью языка, превращается в
знания; знания же передаются от поколения к поколению, тем са-
6. Прочитайте несколько фраз на эсперанто. Назовите морфологические диа-
гностические показатели этого языка, учитывая, что существительные и мым обеспечивая преемственность общественных устоев.
прилагательные на эсперанто всегда имеют одни и те же окончания. Информация может кодироваться вербально или невербально.
Рус. Эсперанто Различие способов кодирования информации (аудитивный, тактиль-
зеленое дерево verda arbo ный, визуальный, густический и т.д.) обусловливает множество спо-
старый человек maljuna viro собов ее представления:
хороший друг bela amiko
l тексты;

l рисунки, чертежи, фотографии;


1.2. Информация. Информационные технологии l световые или звуковые сигналы;
l электрические и нервные импульсы;
Информация как предмет изучения информатики и кибер-
нетики. Понятие информационных технологий в лингвистике. l жесты и мимика;
Виды информации. Способы кодирования и носители ин- l запахи и вкусовые ощущения;
формации. Информационные революции.
Понятие модели и алгоритма в информатике. Понятие ис- l хромосомы, посредством которых передаются по наследству
кусственного интеллекта. признаки и свойства организмов, и т.д.
Одним из основных назначений языка является его использова- Способов представления информации, как показывают приме-
ние для передачи информации между людьми. Поэтому, говоря о ры, достаточно много. Но поскольку человек может воспринимать
языке, невозможно обойти вниманием и понятие информации. информацию лишь с помощью собственных органов чувств, целесо-
Информация в обыденном понимании трактуется как сведения о образно классифицировать виды информации именно на этом осно-
положении дел в окружающем мире, его свойствах, протекающих в вании. По тому, какими органами чувств воспринимаются и какой
нем процессах и т.п. [31]. В специальных науках, изучающих инфор- сигнальной системой закодированы сведения об окружающем мире,
мацию, это понятие определяется несколько иначе: как последова- можно выделить звуковую, вкусовую, тактильную, визуально-об-
тельность сигналов или символов некоторого алфавита, кодирую- разную и визуально-символическую информацию. Именно последние

12 13
два вида информации являются наиболее значимыми для современ- 3) начало 1970-х годов — создание персональных ЭВМ и телеком-
ного человека, при этом если в XX в. человек имел дело в основном муникационных сетей: информация может автоматически обраба-
с визуально-образной, то в XXI в. наиболее значимой становится тываться и доставляться в электронном виде с высокой скоростью.
визуально-символическая информация. Третья информационная революция в значительной степени сти-
Символ (греч. σύμβολον) — это знак, обозначающий некоторый
мулировалась тем, что в середине XX в. появляются специальные
предмет или явление. В лингвистике символами считаются в пер-
науки, изучающие информацию: информатика и кибернетика. Ин-
вую очередь слова, поскольку именно слово является минимальной
форматика — это наука о накоплении, обработке и передаче ин-
единицей, способной обозначать предметы и явления окружающего
формации с помощью ЭВМ. Наука об управлении, связи и перера-
мира. В информатике символами считаются главным образом буквы,
ботке информации называется кибернетикой.
знаки препинания, цифры и другие знаки печатного текста, а также
Именно в рамках теории информации (математической теории
звуковые знаки — фонемы — устного текста, являющиеся составля-
связи) для иллюстрации информационного обмена, осуществляемо-
ющими алфавитов и фонетических систем различных естественных
и искусственных языков. Эти символы складываются в слова и пред- го с помощью технических средств, К. Шенноном и У. Уивером
ложения, кодирующие передаваемую информацию. была предложена наглядная модель (рис. 1).
Процессы, связанные с определенными операциями над инфор- Канал
мацией, называются информационными процессами. В настоящее Сообщение Полученный Сообщение
время над информацией можно производить следующие операции: сигнал
Передатчик Сигнал Приемник
создавать принимать комбинировать Источник (кодирующее (декодирующее Получатель
устройство) устройство)
хранить передавать копировать
искать воспринимать формализовать
измерять использовать делить на части Источник
упрощать разрушать обрабатывать шума

собирать распространять преобразовывать Рис. 1. Модель К. Шеннона и У. Уивера [33, 131]


В связи с постоянным увеличением количества используемой людь- Особо значимым для информационных технологий представля-
ми информации на определенном этапе развития общества потребова- ется указание в данной модели на кодирующее и декодирующее
лось привлечение специальных технических средств для ее обработки и устройство, поскольку одной из важных задач информатики являет-
хранения. Принципиальные изменения в способах фиксации и передачи ся перевод информации, закодированной в «человеческих» симво-
информации, связанные с изобретением новых технических средств лах, в информацию, понятную компьютерам, и наоборот.
получили название информационных революций. Исследователями вы-
Компьютеры в информационном обмене становятся средством
деляются три информационные революции [28, 404—405]:
кодирования, обработки, хранения и передачи больших массивов
1) ок. 3000 лет до н.э. — изобретение письменности (шумерская символьной информации. Совокупность законов, методов и средств
клинопись): информация может накапливаться; получения, хранения, передачи, распространения и преобразования
2) 1453 г. — изобретение книгопечатания: информация становится информации с помощью компьютеров получило обозначение «ин-
массово доступной; формационные технологии».

14 15
При сужении этого понятия для его использования в особой про- Для кодирования компьютером вербальной информации изна-
фессиональной сфере (лингвистика) получаем сочетание «информа- чально использовался код ASCII (American Standard Code for Infor-
ционные технологии в лингвистике», понимаемое как совокупность mation Interchange). Для кодирования одного символа в этом коде
законов, методов и средств получения, хранения, передачи, распро- требуется 1 байт (или 8 битов). В целом в ASCII можно закодировать
странения и преобразования информации о языке и законах его 256 символов, при этом каждому символу ставится в соответствие
функционирования с помощью компьютеров [20, 8]. уникальный десятичный код от 0 до 255. Так, запись слова «КОМ-
Одной из задач соответствующей области знания является сравне- ПЬЮТЕР» в двоичном коде выглядит следующим образом (табл. 1).
ние способов кодирования информации человеком и компьютером.
Под кодированием в целом понимается процесс представления Таблица 1
информации в виде последовательности условных обозначений.
Двоичные коды символов,
Иными словами, кодирование — это сопоставление объектов и от-
составляющих слово «КОМПЬЮТЕР» [43, 62]
ношений между ними с символами или словами какого-либо языка
[16, 39—40]. 1 2 3 4 5 6 7 8 9
В процессе кодирования соотношение слова (символа) и его зна-
К О М П Ь Ю Т Е Р
чения обычно называется семантикой, правила, выражающие об-
щие синтаксические свойства слов и групп слов, позволяющие про- 10001010 10001110 10001100 10001111 10011100 10001110 10010010 10000101 10010000

изводить и/или описывать правильные предложения языка — грам- Для кодирования данного слова в памяти компьютера потребу-
матикой [11, 98; 51, 19]. ется 9 восьмибитовых комбинаций цифр, т.е. 9 байтов. Следует пом-
О способах кодирования информации человеком говорилось
нить о том, что двоичные коды этого же слова, написанного строч-
выше. Компьютер может обрабатывать все известные виды инфор-
ными буквами, будут иными.
мации, включая:
В настоящее время для увеличения количества символов, кото-
l числовую, рые могут быть зашифрованы в одной и той же системе кодирова-
l буквенную (вербальную), ния, используется стандарт UNICODE, в котором для кодирования
l графическую, одного символа используется два байта.
Для кодирования графической информации обычно использует-
l звуковую,
ся 2 способа — представление рисунка в виде растрового или век-
l видеоинформацию. торного изображения. Растровое изображение формируется из опре-
Информация в компьютере представлена в двоичном коде, алфа- деленного количества строк, содержащих определенное количество
вит которого состоит из двух цифр (0 и 1). точек (пикселей). Векторное изображение — графический объект,
Так, числовая информация используемой человеком десятичной состоящий из элементарных графических объектов, например от-
системы счисления предстает в ЭВМ в виде следующих сочетаний резков и дуг. Положение этих элементарных объектов определяется
символов 0 и 1: координатами точек и длиной радиуса.
0 — 0 4 — 100 8 — 1000 Кодирование звуковой информации опирается на материальные
характеристики этой информации. Известно, что звук представляет
1 — 1 5 — 101 9 — 1001
собой звуковую волну с непрерывно меняющейся амплитудой и ча-
2 — 10 6 — 110 10 — 1010 стотой звучания. Чем больше амплитуда сигнала, тем он громче, чем
3 — 11 7 — 111 больше частота сигнала, тем выше тон. Визуально представить зву-

16 17
ковую волну помогает фонограмма, т.е. зафиксированные специаль- ляющих различных уровней и отличаются комплексными целями
ными приборами и отражаемые, к примеру, на экране монитора ко- (ср. параграф 2.4 «Автоматический анализ и синтез текста»).
лебания звуковой волны (рис. 2). Построение компьютерных лингвистических моделей предпола-
гает выполнение некоторой последовательности действий. Формали-
зованное описание такой последовательности действий, приводящей
к решению поставленной задачи, называется алгоритмом [43, 40].
Алгоритмы могут быть записаны в виде вербальных инструкций,
блок-схем, таблиц или на языках программирования. Примеры алго-
ритмов различного рода см. в работе [20, 18—19, 36—37].
С 1970-х годов различные подходы к моделированию человече-
ской деятельности в различных сферах и предметных областях инте-
грируются в усилиях по созданию искусственного интеллекта. Под
искусственным интеллектом (англ. Artificial Intelligence) понимает-
ся междисциплинарная область исследований, связанная с созданием
сложных человеко-машинных и робототехнических систем [13, 14].
Рис. 2. Визуальное представление слова «мама» [2]
Подводя итог содержанию данного раздела, констатируем: ин-
При кодировании видео к звуковой информации добавляются ви- формация, являющаяся непременным условием существования че-
зуальные изображения, представляемые в виде множества отдель- ловеческого общества, представляет собой сведения об окружаю-
ных кадров, плавно переходящих один в другой на временной оси. щем мире, передаваемые человеком, живыми организмами или тех-
Для компьютерной обработки лингвистических данных важно ническими системами для адекватной реакции на изменения в
иметь представление о компьютерной лингвистической модели и об окружающей среде. Компьютерные инструменты получения, хране-
алгоритме решения лингвистических задач. ния, передачи, распространения и преобразования информации, а
Моделью обычно считают материальный или идеальный образ также соответствующие законы и методы получили обозначение
некоторой совокупности предметов или явлений, заменяющий ре- информационных технологий. Если с помощью компьютеров мы
альные предметы и явления и включающий только их наиболее су- получаем, храним, передаем и распространяем любую информацию,
щественные признаки [43, 38]. Примерами материальных моделей касающуюся языка и законов его функционирования, мы имеем
выступают рисунки или трехмерные изображения молекул в химии, дело с информационными технологиями в лингвистике.
солнечной системы в астрономии, организма человека в анатомии.
Лингвистические модели являются большей частью идеальными
конструктами, позволяющими раскрыть особенности строения и Вопросы для обсуждения
функционирования языка, производство и восприятие речи и текста 1. Сопоставьте разные определения информации. Какое из определений, на
[20, 14]. Простейшие лингвистические модели иллюстрируют стро- ваш взгляд, лучше всего подходит к лингвистике?
ение слова из фонем, предложения из именных и глагольных групп, 2. Сравните свойства информации, выделяемые в разных источниках.
текста из единиц сюжета. Так, базовыми элементами текста в сюжет-
ной грамматике выступают экспозиция, событие и эпизод [4, 27]. Слож- 3. Как соотносятся информация, сообщение и данные?
ные лингвистические модели включают большее количество состав- 4. Назовите основные этапы развития информационных технологий.

18 19
5. В чем ученые видят будущее информационных технологий? Что вы дума- 1.3. Аппаратное и программное обеспечение
ете по этому поводу? информационных технологий в лингвистике
6. Что такое задача и правило? Как эти понятия связаны с алгоритмом?
7. Каковы свойства алгоритмов? Компьютер и периферийные устройства как аппаратная
основа информационных технологий. Системное и приклад-
ное программное обеспечение. Лингвистические ресурсы
Рекомендуемая литература (lingware). Автоматизированное рабочее место лингвиста.

1. Всеволодова А.В. Компьютерная обработка лингвистических данных: Для выполнения объемных расчетов над лингвистическими дан-
учеб. пособие. 2-е изд., испр. М.: Флинта: Наука, 2007. С. 9—16. ными, а также для лингвистического моделирования удобно исполь-
2. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: зовать электронные вычислительные машины (или компьютеры).
учеб. пособие. М.: Академия, 2004. С. 7—19. Компьютер — это электронное устройство, служащее для автома-
3. Степанов А.Н. Информатика: учеб. пособие. СПб.: Питер, 2006. С. 35—42. тического создания, обработки, передачи и воспроизводства инфор-
мации по созданным человеком алгоритмам (программам), написан-
ным на понятном для машины языке [43, 42; 15, 22].
Упражнения Как следует из приведенного определения, в использовании ком-
1. Найдите лишнее в приведенном ниже списке. Решите данную задачу с точ- пьютеров сочетается аппаратное (hardware) и программное обеспе-
ки зрения компьютерной семантики и компьютерной грамматики. чение (software) информационных технологий.
Ландыш, левкой, лаватера, лютик, люпин, ромашка, липа.
К аппаратному обеспечению относится сам компьютер (стацио-
нарный или переносной), а также периферийные устройства, служа-
2. Дайте определения элементам следующих синтаксических моделей, при- щие для ввода/вывода информации в компьютер пользователем
меры цит. по: [Апресян 1966: 167—168].
(клавиатура, мышь, монитор, принтер и т.д.) или для соединения
а) AnNn ↔ N(A)nNg (быстрое движение ↔ быстрота движения) компьютера с другими устройствами (например, модем).
b) VNa ↔ N(V)nNg (прибавляю число ↔ прибавление числа) Программное обеспечение — это компьютерные программы, пред-
c) N1nN2g ↔A(N2)nN1n (права автора ↔ авторские права)
ставляющие собой последовательность написанных на машинном
языке команд, служащие для управления аппаратными средствами
d) VвNa ↔ N(V)nвNa (возвожу в степень ↔ возведение в степень) или для выполнения различных операций над информацией, и соот-
e) DV ↔ A(D)nN(V)n (сильно желать ↔ сильное желание) ветствующая документация.
An = ... Nn = ... Ng = ... N(A)n = ... N(V)n = ... V = ... D = ... В зависимости от назначения программных средств различают
системное и прикладное программное обеспечение. Системные про-
3. По образцу задания 2 составьте модели следующих трансформаций: визит
граммы служат управлению работой аппаратных средств и включа-
врача ↔ врачебный визит, ароматный сад ↔ аромат сада, выхожу из
дома ↔ выход из дома. ют операционные системы, утилиты, драйверы и некоторые другие
виды программ. Прикладные программы предназначены для конеч-
4. Приведите примеры словосочетаний (а) и предложения (б) на русском язы-
ного пользователя и позволяют ему выполнять различные операции
ке, описываемых следующими моделями:
над информацией: создавать и обрабатывать текст (текстовые редак-
а) N1n из N2g ↔ A(N2)nN1n торы), обрабатывать графические изображения (графические редак-
б) AnNnVDAaNa торы), работать над звуковой и видеоинформацией (мультимедий-

20 21
ные программы), создавать электронные таблицы для обработки 5. Охарактеризуйте специальные компьютерные программы, разработанные
статистических данных (электронные таблицы) и т.д. Для лингвиста для лингвистических целей.
особенно полезными являются такие виды прикладных программ, 6. Опишите лингвистические ресурсы компьютерной лингвистики (lingware).
как электронные переводчики и словари, а также мультимедийные
обучающие программы.
Наряду с аппаратным и программным обеспечением (ПО) ин- Рекомендуемая литература
формационных технологий некоторые исследователи используют 1. Автоматическая обработка текстов на естественном языке и компьютер-
также понятие lingware (или linguware), которым обозначаются все ная лингвистика: учеб. пособие. М.: МИЭМ, 2011. С. 97—99.
лингвистические компьютерные ресурсы (грамматические справоч- 2. Всеволодова А.В. Компьютерная обработка лингвистических данных: учеб.
ники, словари, энциклопедии, лингвистические базы данных и т.п.) пособие. 2-е изд., испр. М.: Флинта: Наука, 2007. С. 22—26, 37—53.
[ср. 8, 27, 31; 59]. 3. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: учеб.
Совокупность аппаратных, программных и лингвистических пособие для студ. вузов. М.: Академия, 2004. С. 19—22.
средств, необходимых для автоматической обработки лингвистиче- 4. Овчинникова И.Г., Угланова И.А. Компьютерное моделирование вер-
ских данных, обозначим понятием автоматическое рабочее место бальной коммуникации: учебно-метод. пособие. М.: Флинта: Наука, 2009.
(АРМ) лингвиста [22, 258]. АРМ лингвиста будет включать сам ком- С. 92—102.
пьютер, операционное и базовое прикладное ПО, а также всевоз- 5. Степанов А.Н. Информатика: учеб. пособие. СПб.: Питер, 2006. С. 42—43,
можные лингвистические компьютерные ресурсы, касающиеся род- 80—85, 106—111.
ного и изучаемых иностранных языков.
6. Чухарев Е.М. Компьютерные технологии в лингвистических исследованиях:
В зависимости от специализации АРМ лингвиста может допол- указания по выполнению домашнего задания. Архангельск, 2009. С. 2—4.
няться прикладными программами и лингвистическими ресурсами,
связанными с переводом или обучением иностранному языку. За-
дачей обучающихся является постоянная актуализация своего АРМ, Упражнение
включающая поддержание современного состояния аппаратного и
Определите, к какому виду прикладных программ относятся перечислен-
программного обеспечения, а также постоянное пополнение соб- ные ниже программные продукты.
ственной лингвистической ресурсной базы, т.е. поиск, сохранение,
1) Текстовые редакторы
приобретение или создание лингвистических справочников, слова-
рей и баз данных. 2) Графические редакторы
3) Электронные таблицы
Вопросы для обсуждения 4) Веб-редакторы

1. Опишите строение компьютера и охарактеризуйте периферийные устрой- 5) Веб-браузеры


ства. Opera, MS Excel, MS FrontPage, Adobe Photoshop, Corel WordPerfect
2. Дайте определение системному и прикладному программному обеспече-
нию. Определите понятия операционной системы, утилиты и драйвера.
Лабораторная работа 1
3. Приведите классификацию прикладных компьютерных программ. Дайте
их краткую характеристику и приведите примеры основных видов при- Простой поиск
кладных компьютерных программ. Найдите в Интернете текст Alice’s Adventures in Wonderland by Lewis Car-
4. Охарактеризуйте текстовый процессор и его лингвистические функции. roll (например, на сайте www.gutenberg.org/ebooks/11). Сохраните его на свой

22 23
компьютер в формате MS Word. Выполните задания на простой поиск в этом Лабораторная работа 3
документе и внесите результаты поиска в таблицу.
Форматирование документа и проверка правописания
Задание Ответ в MS Word 2007
1. Сколько раз в тексте встречается слово child Для форматирования возьмите текст вашего доклада или подготовленного
(в разных формах)? к семинару выступления.
2. Сколько раз в тексте встречается слово child именно 1) В разделе «Главная» выберите «Выделить все». Текст должен оставаться
в этой форме? выделенным во время дальнейших действий 2—5 (для этого не следует
3. Приведите один из контекстов использования в тексте нажимать кнопки мыши в пространстве текста, а работать только с пункта-
слова beautiful ми верхнего меню).
4. В какой орфографии (британской или американской) Ответ: 2) В разделе «Разметка страницы» в меню «Параметры страницы» назначьте
представлен текст? Проверочное слово: размеры полей: верхнее — 2, левое — 3, нижнее — 2, правое — 2. Выбе-
рите «Ориентация страницы — книжная». Нажмите кнопку «ОК».
3) В этом же разделе «Разметка страницы» выберите пункт «Расстановка пе-
Лабораторная работа 2 реносов» и нажмите «Авто».
Поиск с подстановочными знаками 4) Перейдите в раздел «Главная». Назначьте шрифт Century Schoolbook. Раз-
Выполните поиск с подстановочными знаками по тексту Alice’s Adventures мер шрифта 12.
in Wonderland. Внесите результаты поиска в таблицу. 5) В разделе «Главная» выберите вкладку «Абзац». Поставьте выравнивание
документа по ширине. Первая строка — отступ 0,6. Интервал «Перед и
Задание Формула поиска Ответ после» — 0, «междустрочный» — 1,5.
1. Найдите в тексте первые пять слов, состоящих 6) Щелкните кнопкой мыши в пространстве основного текста (выделение
из пяти букв текста снимется).
2. Сколько в тексте шестибуквенных слов, начинаю- 7) Оформите титульную страницу документа, которая должна включать: на-
щихся на букву s и заканчивающиеся на букву r? звание вуза и института, ФИО и № группы докладчика, дату устного вы-
3. Найдите в тексте первые пять трёхбуквенных ступления, тему, название курса и ФИО преподавателя, город и год.
слов, начинающиеся на гласную букву После оформления титульной страницы нажмите раздел «Вставка —
Разрыв страницы» (или нажмите одновременно клавиши Ctrl + Enter) (ос-
4. Сколько в тексте слов, состоящих из двенадцати новной текст доклада будет начинаться со 2-й страницы документа). Рав-
букв? По каким формальным признакам их мож- Ответ:
номерно распределите информацию на титульной странице.
но сгруппировать? Приведите пример из каждой Группы:
группы слов 7) В разделе «Вставка» нажмите «Номер страницы». Выберите номер «Верху
страницы — простой номер 3 (справа). Поставьте галочку в строке «Осо-
5. Сколько в тексте слов с суффиксом -tion?
Ответ: бый колонтитул для первой страницы (номер на ней не будет отображать-
Приведите пример использования такого слова
в контексте
Пример: ся, но в нумерацию будет включен). Проверьте, чтобы нумерация страниц
начиналась с цифры 1. Для этого еще раз войдите в раздел «Вставка — но-
6. Есть ли в тексте слова, включающие четыре мер страницы». Выберите функцию «Формат номеров страниц...». Нуме-
согласные буквы подряд? рация страниц должна начинаться с цифры 1. Нажмите ОК.
7. Сколько раз в тексте встречаются пассивные 8) Основной текст доклада может содержать несколько озаглавленных ча-
конструкции единственного числа прошедшего стей и обязательно должен заканчиваться выводами (несколькими сфор-
времени? мулированными вами предложениями, повторяющими наиболее важные

24 25
идеи работы) и списком использованной научной литературы и/или се- Часть 2
тевых ресурсов (от 2 до 10 наименований). Назначьте заголовкам работы
(в том числе фразе «Список научной литературы») стиль «Заголовок 1» Области применения
(в разделе «Главная — Стили»). информационных технологий
9) В завершение работы над текстом выполните его проверку. Для этого на- в лингвистике
жмите вкладку «Рецензирование», выберите функцию «Правописание» и в
открывшемся окне последовательно проверьте все слова и синтаксические
конструкции, которые программа считает неправильными. Неправильные с
точки зрения компьютерной программы слова выделены красным цветом,
неправильные конструкции (слишком сложные предложения или предло- 2.1. Автоматический анализ
жения, в которых отсутствуют необходимые знаки препинания) — зеле- и синтез звучащей речи
ным. Вы можете использовать в процессе проверки следующие функции:
«Пропустить», если вы настаиваете на своем варианте написания, Этапы автоматического анализа речи. Ввод в компьютер
«Добавить», если слово, например, новый термин или фамилия ученого, звучащей речи. Аналоговый и цифровой звуковой сигнал. По-
распознается программой как неправильное, хотя оно встречается в работе словный и пофонемный анализ речи. Программы обработки
несколько раз, звучащей речи и голосового управления компьютером. Мето-
ды автоматического синтеза речи.
«Заменить», если в слове допущена опечатка: в этом случае слово будет
исправлено на предлагаемый программой вариант.
Одним из первых важных шагов использования информацион-
Если в предлагаемом программой списке вариантов для замены слова нет ных технологий в лингвистике является дигитализация текстов —
того варианта, который вам требуется, исправьте слово вручную.
переведение языкового материала, существующего в печатном или
устном виде, в цифровую форму. Именно в этом случае появляется
возможность привлечения компьютеров для выполнения определен-
ных операций над текстами на естественном языке: их преобразова-
ния, выделения их них отдельных элементов и создания (синтеза)
аналогичных текстов.
В связи с принципиальными различиями в способах дигитализа-
ции и обработки звучащей речи и печатных текстов в нашей работе
эти явления рассматриваются в разных параграфах. Первый пара-
граф посвящен вопросам автоматической обработки и синтеза зву-
чащей речи, а во всех последующих рассматриваются автоматиче-
ские операции, производимые над печатными текстами.
При автоматическом анализе звучащей речи она преобразуется
в печатный текст, над которым можно производить дальнейшие опе-
рации. Автоматический синтез звучащей речи представляет собой
обратный процесс преобразования печатного текста, существующе-
го в цифровой форме, в звучащий текст на естественном человече-
ском языке.

26 27
Процесс автоматического анализа речи включает следующие Для преодоления этих ограничений требуется, чтобы компью-
этапы: терная программа распознавала не слова, а звуки, т.е. работала не с
1) ввод звучащей речи в компьютер с помощью микрофона, дискретной речью (которая содержит паузы между словами), а со
слитной естественной человеческой речью.
2) выделение компьютерной программой в звуковом потоке отдель- В основе пофонемного распознавания звуков речи лежит анализ
ных знаков, 1) длительности и динамики звучания, 2) чередования акустическо-
3) идентификация выделенных знаков звучащей речи со знаками го сигнала и пауз. При этом на основе универсальной классифика-
языка. ции звуков Гуннара Фанта, Морриса Халле и Романа Якобсона аку-
стические признаки звуков выводятся из артикуляционных. Правда,
Минимальными знаками звучащей речи являются звуки, произ-
акустические признаки в отношении к артикуляционным оказыва-
водимые артикуляторным аппаратом человека. Каждый звук имеет
ются недостаточно универсальными. Кроме того, в этой теории не-
свои акустические характеристики (высота, частота колебаний зву-
достаточно учитывается слогоделение, акцентуация и ритм (глав-
ковых волн и т.д.), которые можно измерить специальными прибо-
ные носители смысла) [25, 39].
рами (например, осциллографом).
В настоящее время наиболее доступной формой точной фикса-
Параметры звукового сигнала непрерывно меняются, и такой
ции звучащей речи (в том числе ее тембра и динамики) становится
(непрерывный) тип сигнала называется аналоговым. В отличие от
спектрограмма — фотографическое изображение звуков. Результа-
аналогового, цифровой сигнал представляет собой набор дискрет- ты наблюдений показывают, что в произнесении звуков активно ис-
ных (отдельных) числовых значений, фиксирующих разные уровни пользуются четыре частоты называемые формантами. Так, на рис. 3.
звуковой волны. При использовании микрофона аналоговый звуко- изображены форманты русских звуков и и у. При переходе от звука
вой сигнал преобразуется в аналоговый электрический, который с и к звуку у наиболее заметно изменение форманты F2 (рис. 3).
помощью аналогово-цифровых преобразователей, встроенных в Задачей автоматического анализа звучащей речи при использо-
звуковые карты современных компьютеров, переводится в дискрет- вании спектрограмм становится перевод спектрограмм в фонологи-
ный цифровой сигнал [49]. ческую транскрипцию [25, 41].
Первые устройства автоматического распознавания устной речи,
которых на сегодняшний день большинство, в качестве выделяемых
в речевом потоке знаков использовали не звуки, а слова. Слова вво-
димой в компьютер речи идентифицировались со словами, заранее
записанными диктором, читающим слова. Но такой тип распознава-
ния речи связан с определенными ограничениями:
l личность говорящего: автомат распознает речь только опреде-
ленного говорящего,
l запас слов: автомат распознает только ограниченное количество
слов,
l подготовленность речи: автомат распознает речь, лишь если она
подготовлена [25, 39]. Рис. 3. Спектрограмма русских звуков и и у [Фролов, Фролов]

28 29
В итоге процесс автоматического анализа речи включает ввод многие средства анализа и синтеза речи не способны работать с рус-
слов в компьютер через микрофон, начитанных разными дикторами, ским языком, что ограничивает их использование в России [49].
их спектральную обработку и создание набора признаков, своео- Можно назвать следующие примеры программ, в которых при-
бразного образца слова, который выступает знаком языка. При рас- меняются средства автоматического анализа речи:
познавании звучащей речи реальные признаки составляющих ее l программы голосового управления компьютером и бытовой тех-
единиц сравниваются с признаками и образцами слов, существую- никой VoiceNavigator и Truffaldino (компания «Центр речевых
щими в памяти машины. Результатом сравнения является транс- технологий», С.-Петербург);
крипция или орфографическая запись слова.
Но при автоматическом анализе слитной речи дополнительную l комплекс голосового управления мобильным телефоном DiVo
(«Центр речевых технологий»);
трудность составляет отсутствие четких границ между словами. Че-
ловек для преодоления этой трудности кроме акустических сигналов l программный модуль Voice Key для идентификации личности по
обычно использует самые разные другие источники информации: си- парольной фразе длительностью 3—5 секунд («Центр речевых
туацию, контекст, структуру языкового высказывания, прошлый опыт технологий»);
в данной области и т.п. Аналогичные правила ученые пытаются при- l программы диктовки текста на английском языке: VoiceType Dic-
менить и к машинам и стремятся задействовать в современных систе- tation (IBM), DragonDictate («Dragon Systems»); на русском язы-
мах анализа речи кроме акустического другие уровни системы языка: ке: Комбат («Вайт Груп») и Диктограф («Voice Member Techno-
лексический, синтаксический, семантический, прагматический. logy»);
Включение семантического уровня в автоматический анализ l система распознавания речи, встроенная в Microsoft Office XP
речи приводит, в частности, к следующим последствиям: (работает только с английским языком);
1) машина устанавливает, что введенные предложения многознач- l голосовой поиск (например, в поисковой системе Google).
ны и правдоподобны;
Так, программа VoiceNavigator позволяет запускать компьютер-
2) машина прогнозирует, что в определенных речевых контекстах ные приложения и выполнять заданные команды голосом без ис-
могут возникать определенные типы общения; в зависимости от пользования клавиатуры. Перед применением программы ее необ-
такого прогнозируемого типа общения машина интерпретирует ходимо обучить, произнеся в микрофон слова команд (команды
предложение [35, 120]. можно произносить на любом языке и любым голосом). Чтобы про-
Очевидно, что создание систем анализа речи такого сложного грамма начала распознавать голосовые команды, ее необходимо
уровня предусматривает сотрудничество представителей самых раз- «разбудить», произнеся ключевое слово [49].
ных специальностей. Для экономии времени и усилий ученых и Использование модулей распознавания речи весьма перспектив-
практиков различные компании, в том числе Microsoft, выпускают но в различных областях деятельности: в обслуживании клиентов,
средства анализа и синтеза речи в виде программных модулей и ин- проведении судебных экспертиз, биометрии, обучении, научных ис-
терфейсов. Программисты, не обладающие познаниями в области следованиях и т.д. Но массовое внедрение речевых технологий тор-
лингвистики, математики и биологии, могут использовать готовые мозится высокой стоимостью разработок и предлагаемых техноло-
интерфейсы и программные модули в собственных разработках. гий, а также их пока еще низким качеством.
Правда, в этом случае речевые возможности программ будут огра- В целом задача автоматического анализа речи является весьма слож-
ничены использованными средствами и технологиями. Например, ной и решена лишь отчасти. В сравнении с ней задача автоматического

30 31
синтеза речи оказывается более простой, и с примерами ее массового l можно сохранить результаты синтеза речи, записав файл форма-
использования в обиходной жизни мы сталкиваемся постоянно. В част- та WAV или MP3.
ности, автоматически синтезируется речь в следующих ситуациях: Таким образом, несмотря на мощность современных компьюте-
l называние текущего времени по телефону, ров, проблема оснащения компьютера полноценным речевым ин-
l объявление остановок в метро, терфейсом еще далека от своего завершения. Главной проблемой
l называние остатка средств на счету и другие услуги мобильных
при создании программ автоматического распознавания речи явля-
операторов, ется то, что компьютер не умеет работать со смыслом. В синтезе
речи уже имеются определенные достижения, которые внедрены в
l оповещение систем гражданской безопасности и т.д.
массовую практику.
Автоматический синтез (генерация) речи в настоящее время осу-
ществляется путем составления слов и фраз из заранее записанных
диктором образцов отдельных звуков (метод компилятивного синте- Вопросы для обсуждения
за) или путем моделирования речевого тракта человека (формантно- 1. Что такое знак? В чем различие между знаками языка и знаками речи?
голосовой метод) [49]. 2. В каких сферах ограничениями пословного распознавания звучащей речи
Первый метод используется главным образом для синтеза отно- можно пренебречь? Для каких сфер эти ограничения будут принципиально
сительно небольшого и заранее известного набора фраз. При этом важными?
обеспечивается довольно высокое качество звучания, поскольку син- 3. Какие артикуляционные признаки звуков вам известны?
тезируемая речь базируется на элементах естественной человеческой
4. Представители каких профессий должны быть задействованы в создании
речи. Тем не менее на стыке составляемых звуковых фрагментов воз- сложных систем анализа звучащей речи?
можны интонационные искажения и разрывы, заметные на слух.
Кроме того, создание крупной базы данных звуковых фрагментов,
учитывающей все особенности произношения фонем с разными ин- Рекомендуемая литература
тонациями, представляет собой сложную и кропотливую работу.
1. Алексеев В. Услышь меня, машина // Компьютерра. 1997. № 49. http://offline.
Второй метод оказывается более сложным, поскольку здесь не- computerra.ru/1997/226/938
обходимо точное моделирование особенностей речевого тракта че-
2. Марчук Ю.Н. Компьютерная лингвистика: учеб. пособие. М.: АСТ Вос-
ловека, а также учет интонационной модуляции речи. В силу назван-
ток — Запад, 2007. С. 38—44.
ных особенностей формантно-голосовая модель обладает относи-
тельно низкой точностью синтезируемых звуков речи. 3. Мыркин В.Я. Введение в языкознание: учебник. Архангельск: Поморский
университет, 2005. С. 57—69.
В качестве примера программы, синтезирующей речь, можно на-
звать программу Govorilka (разработчик: А. Рязанов, бесплатная вер- 4. Фролов А.В., Фролов Г.В. Синтез и распознавание речи. Современные ре-
сия программы размещена по адресу http://www.vector-ski.com/vecs/ шения. 2003. http://frolov-lib.ru/books/hi/index.html
govorilka). Основные особенности данной программы состоят в сле-
дующем: Лабораторная работа 4
l программа читает текст разными голосами и на разных языках, Запись и обработка звуковых файлов
в том числе на русском;
1. Подсоедините микрофон к компьютеру. Нажмите «Пуск» — «Все про-
l исходный текст для чтения может быть загружен из текстового граммы» — «Стандартные» — «Развлечения» — «Звукозапись». Откроет-
файла или набран в окне программы при помощи клавиатуры; ся окно программы «Звук — Звукозапись», встроенной в операционную

32 33
систему MS Windows. Программа сохраняет и обрабатывает файлы только вых технологий. Прослушайте записи фраз, синтезированных в различных
в формате звукозаписи .WAV. программах. Оцените качество синтезированной речи каждой программы.
2. В меню «Файл» выберите команду «Создать». Нажмите кнопку «Запись» 2. Перейдите по ссылке http://text-to-speech.imtrans lator.net. Введите в диа-
(обозначена красным кружком) и произнесите в микрофон заранее подго- логовое окно одно или несколько предложений на русском, английском и
товленный текст: одно предложение на русском и одно — на иностранном других известных вам языках. Прослушайте вариант озвучивания этих
языке. Между предложениями сделайте небольшую паузу. Для завершения фраз, предлагаемых программой. Для каких целей можно использовать
записи нажмите кнопку «Стоп» (обозначена прямоугольником). Сохрани- данную программу?
те запись со стандартными настройками, нажав для этого меню «Файл» и 3. Перейдите по ссылке http://rssradio.ru. Протестируйте различные возмож-
выбрав вкладку «Сохранить как...». В качестве имени файла введите вашу ности автоматического озвучивания новостей российских интернет-порта-
фамилию. лов. Насколько полезной вы считаете функцию автоматического озвучива-
3. Проверьте запись: для этого нажмите кнопку «Воспроизвести», обозначен- ния новостей?
ную треугольником. Запомните, на какой секунде записи заканчивается 4. Перейдите по ссылке http://mp3book2005.ru/3.htm. Прослушайте примеры
первое предложение. аудиозаписей книг, предлагаемые на сайте. Оцените возможности исполь-
4. Удалите часть записи — предложение на иностранном языке. Для этого зования программы.
переместите бегунок в точку файла, начиная с которой требуется удалить 5. Составьте перечень недостатков автоматического синтеза речи, выявлен-
звукозапись. Для более точного поиска ориентируйтесь на счетчик време- ных вами на материале рассмотренных программ. В какой из программ
ни, показывающий секунды и доли секунд. В меню «Правка» выберите этих недостатков меньше всего?
команду «Удалить после текущей позиции». Сохраните оставшуюся часть
записи («Файл» — «Сохранить как...»), выбрав в качестве имени файла
начало русского предложения.
5. Откройте исходный файл, обозначенный вашей фамилией. Удалите из за- 2.2. Автоматическое распознавание текста
писи предложение на русском языке, переместив бегунок в точку, находя-
щуюся между записанными предложениями, и выбрав из меню «Правка» Ввод печатного текста в компьютер. Распознавание тек-
команду «Удалить до текущей позиции». Сохраните запись («Файл» — ста с помощью OCR-программ.
«Сохранить как...»), выбрав в качестве имени файла начало предложения
на иностранном языке. Автоматический анализ печатного текста, также как и анализ
6. Вставьте один записанный файл в другой. Для этого откройте файл, обо- звучащей речи, начинается с его ввода в компьютер. Поскольку со-
значенный вашей фамилией. Поместите бегунок в конец файла. В меню временный человек имеет дело главным образом с информацией,
«Правка» выберите команду «Вставить файл». Дважды щелкните по фай- размещенной на печатных носителях, остановимся на процессах ав-
лу, обозначенному началом русского предложения. Проверьте запись и томатической обработки печатных текстов подробнее и посвятим
убедитесь, что в ней скомбинированы два исходных звуковых файла.
им несколько отдельных параграфов. В первом из этих параграфов
7. Поработайте с меню «Эффекты»: выберите пункт «Увеличить громкость рассмотрим ввод печатного текста в компьютер и связанный с этим
(на 25%)» и «Добавить эхо». Проверьте запись. Сохраните результат об-
работки, назвав его следующим образом: Ваша фамилия_Эффекты. процесс распознавания печатного текста.
Для ввода информации в компьютер используются специальные
устройства — клавиатура, мышь и др., но наиболее удобным ин-
Лабораторная работа 5 струментом для ввода большого количества печатных текстов явля-
Автоматический синтез устной речи ется сканер.
1. Перейдите по ссылке http://www.bloxpot.net/2010/ 05/blog-post_29.html. Сканер — это устройство ввода, работающее по принципу фото-
Просмотрите видеосюжет о возможностях автоматического синтеза рече- аппарата, т.е. позволяющее компьютеру «увидеть» текст в виде фо-

34 35
тографии [20, 53]. Чтобы компьютер смог «понять» этот текст, т.е. со смыслом документа, т.е. вывести OCR-программы на более высо-
перевести графическое (растровое) изображение символов в тексто- кий уровень искусственного интеллекта.
вую форму, при которой у каждого символа имеется свой двоичный В целом точность распознавания OCR-программ на текстах хо-
код (например, в системе кодировок ASCII), требуется программа рошего и среднего качества достигает 99%, что позволяет считать
автоматического распознавания символов (англ. OCR = Optical проблему массового ввода печатных текстов в компьютер практиче-
Character Recognition). ски решенной.
Символами являются любые буквы, знаки препинания и другие
знаки текста (апостроф, кавычки, тире, скобки и т.д.). Слово пони-
Вопросы для обсуждения
мается как последовательность символов между двумя соседними
пробелами. 1. Охарактеризуйте основные возможности OCR-программ.
Программа автоматического распознавания текста (OCR-програм- 2. Каковы перспективы развития OCR-программ?
ма) — это компьютерная программа, позволяющая преобразовать 3. Что такое «интеллектуальное распознавание»?
текст с бумажного носителя в электронный текстовый файл, кото- 4. Охарактеризуйте особенности одной из систем автоматического распоз-
рый в дальнейшем может обрабатываться человеком в любом тек- навания текста.
стовом редакторе [20, 53]. Такие программы обычно предлагаются с
каждым приобретаемым сканером, но наиболее известными и по-
лифункциональными являются OCR-программы FineReader (компа- Рекомендуемая литература
нии Abbyy) и CuneiForm (фирмы Cognitive Technologies). 1. Башмаков И.А, Башмаков А.И. Интеллектуальные информационные си-
С другими программами автоматического распознавания текстов стемы. М.: МГТУ им. Н.Э. Баумана, 2005. С. 32—40.
можно познакомиться, например, в интернет-ресурсе, размещенном 2. Всеволодова А.В. Компьютерная обработка лингвистических данных:
по адресу http://kompkimi.ru/?p=617 (дата обращения: 02.02.2012). учеб. пособие. 2-е изд., испр. М.: Флинта; Наука, 2007. С. 47.
Результат распознавания большинством OCR-программ весьма 3. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике:
точен, хотя некоторые трудности в распознавании текста приводят учеб. пособие. М.: Академия, 2004. С. 53—55.
к ошибкам, которые впоследствии приходится исправлять вручную. 4. Сканирование и распознавание: профессиональный подход: материалы
Трудности распознавания могут быть вызваны следующими особен- курса дистанционного обучения. www.online-academy.ru/scan.htm (дата об-
ностями печатного текста [20, 53—54; 6, 34]: ращения: 02.02.3012).

l использование шрифта разной гарнитуры и размера,


Лабораторная работа 6
l использование в тексте нескольких языков,
Сканирование текстового документа
l размещение текста в несколько колонок,
Для сканирования возьмите текст любого печатного издания (книги, жур-
l включение в текст таблиц и рисунков, нала) на ваш выбор. Нужно отсканировать три страницы (разворота) печатного
l искажения символов (разрывы, слипания букв и т.п.), издания.
1. Откройте программу ABBYY FineReader (через меню «Пуск» — Все про-
l посторонние включения в изображение и т.д. граммы).
Названные трудности решаются, если дополнить системы авто- 2. Откройте вкладку меню «Файл» — «Сканировать несколько страниц...» или
матического распознавания текстов возможностью работы машины нажмите кнопку «Сканировать» над основным рабочим полем программы.

36 37
Положите в сканер печатный текст. Следуйте инструкциям в открыв- ставление о содержании исходных документов и позволяют оценить
шемся окне работы со сканером. После предварительного сканирования степень необходимости обращения к полным текстам каждой рабо-
при необходимости поверните изображение. Сканируйте первую страницу
ты. Кроме того, рефераты и аннотации акцентируют внимание чита-
текста, вложенного в сканер, нажав кнопку «Scan» окна работы со скане-
ром. Отсканированная страница должна появиться в программе ABBYY теля на новых сведениях, т.е. позволяют за небольшой промежуток
FineReader под номером 1. времени узнать много новой информации.
3. Повторите процедуру сканирования со страницами 2 и 3. После того как
Рефераты и аннотации составляются вручную, например самим
эти страницы появились в программе ABBYY FineReader под номерами 2 автором исходного текста или библиографическим работником, или
и 3, закройте окно работы со сканером и продолжайте работу только с про- автоматически, с помощью специальных компьютерных программ.
граммой ABBYY FineReader. Наиболее качественным является первый вид рефератов и аннота-
4. Проверьте язык распознаваемого документа. Он должен соответствовать ций, поскольку в этом случае создается новый текст, называющий
языку того документа, который вы сканируете. При необходимости выбе- основную мысль высказывания и отличающийся связным характе-
рите нужный язык распознавания из предлагаемого списка. ром. Но для обработки большого массива текстов за минимальное
5. Нажмите кнопку «Распознать все» над основным рабочим полем програм- количество времени требуется привлечение автоматических средств
мы ABBYY FineReader. для решения задачи реферирования и аннотирования текстов.
6. После окончания процесса распознавания выберите функцию «Передать Реферат определяется как связный текст, который кратко выражает
все в MS Word» (нажав вкладку меню файл — передать все... или нажав
l центральную тему,
треугольник рядом с кнопкой MS Word над основным рабочим полем про-
граммы ABBYY FineReader. l предмет
7. Сохраните получившийся файл MS Word под названием Л4_Номер груп- l цель,
пы_Ваша фамилия, например, Л4_10_Иванов. Добавьте в начале документа
библиографические данные книги: Фамилия и инициалы автора. Название l методы,
книги. Город: Издательство, год. Кол-во страниц по образцу: Зубов А.В., l результаты исследования [20, 55].
Зубова И.И. Информационные технологии в лингвистике. М.: Академия,
2004. 208 с. Рефераты обычно составляют к научно-техническим докумен-
там: научным монографиям, статьям, патентам на изобретение и др.
В зависимости от жанра исходного текста (монография, статья, па-
2.3. Автоматическое аннотирование тент и др.) и от предметной области (медицина, химия, лингвистика
и реферирование текста и т.д.) заданные элементы реферата могут различаться. Так, для на-
учных рефератов дополнительно к названным выше элементам ре-
Понятие автоматического аннотирования и реферирова- ферата прибавляется краткое изложение сути, практической апроба-
ния текста. Виды рефератов. Примеры систем автоматическо- ции и перспектив исследования [8, 93—94].
го аннотирования. Различают следующие виды рефератов [8, 89]:
В условиях все возрастающего количества текстов в окружаю- l связный текст — новое текстовое образование, порождаемое на

щем человека мире возникает проблема: как в этом море информа- основе логико-смыслового анализа исходного текста;
ции найти нужные документы и познакомиться с их содержанием? l реферат-клише — модификация заданной клишированной струк-
Решению данной проблемы может помочь составление рефератов и туры, пустые ячейки которой заполняются после анализа задан-
аннотаций полнотекстовых документов. Они дают читателю пред- ного текста;

38 39
l квазиреферат — перечень наиболее информативных предложе- ному содержанию текста и повторяющееся в нем несколько раз. Клю-
ний текста. чевое словосочетание — сочетание слов, среди которых есть одно
Очевидно, что для автоматического создания рефератов — связ- или несколько ключевых. Ключевое предложение — предложение,
ных текстов требуются более сложные компьютерные программы, которое содержит несколько (два и более) ключевых слов [20, 57].
чем для создания рефератов-клише и квазирефератов. По способам выделения из исходных текстов ключевых слово-
Некоторые исследователи считают реферат и аннотацию сино- сочетаний и предложений различаются следующие методы автома-
нимами [8, 88], а некоторые предлагают разводить эти понятия, тического реферирования и аннотирования текстов [20, 59]:
определяя аннотацию как краткое изложение содержания докумен- 1) статистические,
та, дающее общее представление о его теме [20, 55]. Согласно этому
определению в отличие от реферата, знакомящего читателя с сутью 2) позиционные,
излагаемого в документе содержания, аннотация выполняет лишь 3) логико-семантические.
сигнальную функцию (есть публикация на определенную тему). При статистическом методе принадлежность слова к категории
В большинстве программ, направленных на автоматическое со-
ключевых определяется его статистическими характеристиками:
ставление краткого содержания текста, можно задать разную сте-
ключевое слово согласно этому методу встречается среди знамена-
пень компрессии текста, т.е. одна и та же программа создает как
тельных слов текста наибольшее количество раз. Ключевое пред-
развернутые рефераты, так и краткие аннотации. В связи с этим в
отношении автоматического процесса составления краткого содер- ложение, соответственно, содержит несколько ключевых слов, кото-
жания текста обычно используется двойное обозначение: автомати- рые располагаются на небольшом расстоянии друг от друга.
ческое реферирование и аннотирование текста. В позиционном методе принцип отнесения предложения к клю-
Создаваемые в процессе реферирования и аннотирования анно- чевым опирается на его местонахождение в тексте: ключевые пред-
тации и рефераты представляют собой вторичные документы. Пер- ложения входят в заголовок, подзаголовок, находятся в начале и
вичными (или исходными) документами являются сами книги, ста- конце текста.
тьи, патенты и др. Целью логико-семантического метода, при котором учитывает-
Программы автоматического аннотирования и реферирования ся структура и семантика текста, является выделение предложений
ориентированы на то, как это делает человек. Для человека этот про- с наибольшим функциональным весом. Такими предложениями
цесс включает следующие этапы [20, 56—57]: считаются те, которые содержат семантически значимые слова, осо-
1) подготовительный: определение темы текста, его понимание; бым образом связаны с другими предложениями, имеют определен-
ный синтаксический тип предложения и т.п.
2) аналитический: деление текста на фрагменты (абзацы и т.п.) и вы-
Наиболее простыми системами автоматического реферирования
деление в каждом фрагменте главных смысловых слов, которые
и аннотирования является функция AutoSummarize в MS Word, систе-
составляют план будущего реферата;
мы Intelligent Text Miner, Oracle Context и Inxight Summarizer (компо-
3) непосредственное составление реферата или аннотации: соеди- нент поискового механизма AltaVista) (IBM). Правда, возможности
нение выделенных смысловых единиц в связный текст. этих программ ограничены выбором оригинальных фрагментов из
Главными смысловыми единицами исходного текста выступают исходного документа и их соединением в короткий текст [50].
ключевые слова, ключевые словосочетания и ключевые предложе- Кроме того, можно привести примеры следующих систем авто-
ния. Ключевое слово — знаменательное слово, относящееся к основ- матического реферирования и аннотирования текстов:

40 41
l ОРФО 5.0 (компания «Информатик»): программа включает функ- Лабораторная работа 7
цию автоматического аннотирования русских текстов; Использование функции «Автореферат» MS Word
l «Либретто» (компания «МедиаЛингва»): программа встраивает- 1. Откройте любой текстовый документ в MS Word 2007. В верхней строке
ся в Word и обеспечивает автоматическое реферирование и ан- командного меню нажмите вкладку «Настройка панели быстрого доступа»
нотирование русских и английских текстов; (треугольник, обращенный вниз). Выберите вкладку «Другие команды».
2. В открывшемся окне найдите указатель «Выбрать команды из...», в кото-
l поисковая система «Следопыт», которая включает средства ав- ром нужно установить параметр «Команды не на ленте». Выделите в спи-
томатического реферирования и аннотирования документов; ске команд «Автосуммирование» и нажмите «Добавить». Далее нажмите
«OK» и убедитесь, что значок «Автосуммирование» появился в верхней
l программы Extractor и TextAnalyst (компания «Медиасистемы»),
строке командного меню.
которые выдают последовательности именных групп, выделен- 3. Нажмите значок «Автосуммирование», выберите вкладку «Автореферат».
ных с помощью синтаксических анализаторов. Выберите вид и размер реферата, нажмите «OK».
В целом можно констатировать, что автоматические рефераты и 4. Проанализируйте получившийся реферат и отразите результаты анализа
аннотации представляют собой, по сути, квазирефераты, т.е. резуль- в таблице.
татом автоматической компрессии текста в большинстве случаев Параметр анализа Ваш комментарий
становится либо набор ключевых слов, либо перечень ключевых Связный текст или набор словосочетаний/предложений
предложений, что, впрочем, в значительной степени помогает ре-
Функциональная нагруженность элементов реферата
шить задачу аннотирования и реферирования большого объема тек-
стов в малые сроки. Отражены ли необходимые структурные компоненты
реферата (тема, цель, методы, результаты работы)
Общий вывод
Вопросы для обсуждения 5. Составьте вручную реферат того же самого исходного текста. Ориентируй-
1. Опишите этапы составления реферата текста. тесь при этом на этапы составления реферата, названные в теоретической
части раздела.
2. Представьте известные вам системы автоматического реферирования и ан-
нотирования текстов. 6. Сохраните оба реферата (автоматический и созданный вами) и таблицу с
комментарием об автоматическом реферате (задание 4) в Word под назва-
3. Какие задачи являются перспективными для систем автоматического рефе- нием Л7_Номер группы_Ваша фамилия, например, Л7_10_Иванов.
рирования и аннотирования текстов?

2.4. Автоматический анализ и синтез текста


Рекомендуемая литература
1. Башмаков И.А, Башмаков А.И. Интеллектуальные информационные си- Графематический, морфологический, синтаксический и
стемы. М.: МГТУ им. Н.Э. Баумана, 2005. С. 77—90. семантический анализ текста. Понятие токенизации, парсера.
Формальная грамматика. Машинная основа, машинное окон-
2. Беляева Л.Н. Лингвистические автоматы в современных гуманитарных
чание. Автоматический синтез текста.
технологиях: учеб. пособие. СПб.: Книжный Дом, 2007. С. 87—101.
3. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: Автоматический анализ текста включает ряд весьма сложных опе-
учеб. пособие. М.: Академия, 2004. С. 55—75. раций, которые компьютер выполняет над текстом на естественном

42 43
человеческом языке согласно заданному алгоритму. При автомати- слов [54]. Кроме того, даже в распространенных европейских язы-
ческом анализе текст последовательно преобразуется в его лексем- ках существуют устойчивые сочетания слов, разделенные пробелом,
но-морфологические, синтаксические и семантические представле- которые следует воспринимать как одну лексему, например, New
ния, понятные компьютеру [13, 14]. Обратный процесс преобразова- York. Очевидно, что такие случаи следует учитывать в системах гра-
ния лексемно-морфологических, синтаксических и семантических фематического анализа, например, путем создания списков много-
компьютерных представлений в текст на естественном языке назы- словных лексем.
вается автоматическим синтезом текста. При морфологическом анализе каждое использованное в тек-
Автоматический анализ и синтез текста являются важными зада- сте слово возводится к его исходной форме и определяется набор
чами компьютерной лингвистики как с точки зрения развития теории морфологических характеристик текстовой формы слова: часть
(разработки лингвистических основ создания искусственного интел- речи; род, число и падеж для существительных, число и лицо для
лекта), так и с точки зрения реализации практических нужд человека, глаголов и т.п.
например, создания эффективных систем машинного перевода. Каждое употребленное в тексте слово называется словоформой
Автоматический анализ текста включает ряд этапов [1, 94, 106—107]: (или словоупотреблением). Для обеспечения связности текста тре-
буется повтор тех же самых слов, поэтому нередко разные слово-
1) графематический анализ: выделение границ слов, предложений,
формы одного или нескольких предложений текста возводятся к
абзацев и других элементов текста (например, врезок в газетном
одной и той же исходной форме, ср.:
тексте);
Вот моя деревня;
2) морфологический анализ: определение исходной формы каждого Вот мой дом родной.
использованного в тексте слова и набора морфологических ха- Вот качусь я в санках
рактеристик этого слова; По горе крутой (И.З. Суриков).
3) синтаксический анализ: выявление грамматической структуры Алфавитно-частотный словарь словоформ этого фрагмента сти-
предложений текста; хотворения выглядит так: в — 1, вот — 3, горе́ — 1, деревня — 1,
дом — 1, качусь — 1, крутой — 1, мой — 1, моя — 1, по — 1, род-
4) семантический анализ: определение смысла фраз.
ной — 1, санках — 1, я — 1. Кроме неизменяемой частицы вот, упо-
Графематический анализ определяется также как токенизация требленной 3 раза, отмечаем также притяжательное местоимение
(от англ. token = отдельное слово, фраза или любой другой значимый 1-го лица ед. числа, употребленное в формах мой и моя.
элемент текста1). Формальными сигналами границ текстовых эле- В привычных нам словарях обычно перечисляются не словофор-
ментов выступают разделители различного рода: пробелы, обознача- мы, а слова, приведенные к определенной исходной форме. В каче-
ющие границы между словами, прописные буквы и знаки препинания, стве такой исходной формы употребленных в тексте словоформ в
обозначающие границы между предложениями и составными частя- зависимости от типа языка может служить лемма (словарная форма
ми предложений, абзацные отступы, обозначающие границы между лексемы) или основа (ядерная часть слова без словоизменительных
связанными по смыслу группами предложений и т.п. [7, 79]. морфем). Например, английские словоформы swim, swims, swam и
Однако формальный метод определения границ слов применим swimming восходят к одной лемме swim.
не всегда. Например, в китайском языке нет формальных границ Во флективных и агглютинативных языках с богатым словоиз-
менением для сохранения всех возможных словоформ потребуются
1
http://en.wikipedia.org/wiki/Tokenization достаточно значительные ресурсы памяти. Например, русское суще-

44 45
ствительное, изменяющееся по числам (2 числа) и падежам (6 паде- ср. типовые парадигмы машинной основы лож#, относящейся к лек-
жей), имеет 12 словоформ. Русский глагол характеризуется еще более семам ложь и ложиться [8, 144—145].
сложным набором грамматических характеристик и соответственно По машинным окончаниям, входящим в определенные типовые
имеет достаточно значительное количество словоформ [20, 83]. В этом парадигмы, осуществляется полная морфологическая характеристи-
случае в качестве исходной формы, к которой возводится слово, удоб- ка каждой словоформы, например:
нее использовать его основу. Девочка {девочка = S, жен, од = им, ед}
Правда, в морфологическом анализе термин «основа» не всегда
имеет тот же смысл, который вкладывается в него в канонической мыла {мыть = V, несов = прош, ед, изъяв, жен, перех | мыло = S,
(школьной) грамматике. Например, если в слове встречается чере- сред, неод = им, мн | = S, сред, неод = род, ед | = S, сред, неод =
дование букв (сидеть — сижу, друг — друзья и т.п.), то основой вин, мн}
(точнее, квазиосновой, или машинной основой) в этих случаях вы- пол {пол = S, муж, неод = им, ед | = S, муж, неод = вин, ед | = A,
ступает часть слова не только без словоизменительных морфем, но кратк, муж, им, ед}.
и без чередующихся букв, т.е. си# и дру#, соответственно. В приведенном анализе можно увидеть лексико-морфологиче-
Такой тип выделения основ получил название стемминга, т.е. скую многозначность второго и третьего слова. Выбор правильной
возведения разных словоформ к одной квазиоснове. Стемминг впол- формы осуществляется человеком с учетом синтаксической роли
не подходит для решения некоторых автоматических задач, напри- слова в предложении и его смысла. Автоматическое разрешение
мер, для осуществления поиска в Интернете. Так, пользовательско- многозначности или снятие омонимии, понимаемое как выбор пра-
му запросу фотографи в качестве полной или неполной квазиосно- вильной интерпретации словоформы, допускающей несколько вари-
вы соответствуют существительное фотография и прилагательное антов толкований, происходит путем ручной разметки или автома-
фотографический. В результате поиска пользователь получит спи- тически, на основе вероятностных моделей (например, в английском
сок документов со словосочетанием фотографический портрет и языке наиболее вероятно сочетание неопределенного артикля и
со словосочетанием портретная фотография [46]. существительного, следующего за ним) или на основе правил, соз-
Для морфологического анализа важно не только понятие машин- данных автоматически или человеком. Примеры таких правил сле-
ной основы, понимаемой как последовательность букв от начала сло- дующие:
воформы, общая для всех словоформ, входящих в формообразова- l Если словоформа может быть как глаголом, так и существитель-
тельную парадигму данного слова. Следующий шаг — это определе- ным, и перед ней стоит артикль, эта словоформа в данном случае
ние частеречной принадлежности слова (частеречный тегинг) и его является существительным.
морфологических характеристик, что чаще всего происходит с опо-
l Если словоформа может быть как предлогом, так и подчинитель-
рой на словоизменительные элементы слова (машинные окончания).
Машинные окончания — элементы, описывающие формоизме- ным союзом, и если после нее до конца предложения нет глаго-
нение конкретной лексемы и представляемые в виде парадигм. Все ла, эта словоформа в данном случае является предлогом [46].
возможные наборы машинных окончаний зафиксированы в типовой Для автоматического морфологического анализа применяются
парадигме лексемы. При этом, с одной стороны, можно наблюдать парсеры — специальные компьютерные программы для автомати-
совпадения типовых парадигм (и, соответственно, машинных окон- ческого анализа слов [32]. Кроме морфологических существуют и
чаний) разных лексем, например, ручка и кочка, а с другой, совпаде- синтаксические парсеры, применяемые для автоматического анали-
ния машинных основ лексем, имеющих разные типовые парадигмы, за синтаксических структур предложений.

46 47
В целом морфологический анализ включает в себя следующие зависимостей исходным пунктом анализа выступает сказуемое (V),
этапы [46]: находящееся в вершине графа, от которого зависят подлежащее (N)
и дополнение (O). В итоге в обоих типах анализа выделяются одни
1) нормализация словоформ, имеющая вид лемматизации, т.е. све-
и те же синтаксические единицы — N, V и O — но синтаксические
дения различных словоформ к некоторому единому представле-
отношения между ними оказываются разными.
нию — к исходной форме (лемме) или стемминга, т.е. возведе-
S
ния разных словоформ к одной квазиоснове; мыла
2) частеречный тэгинг, т.е. указание части речи для каждой слово- N VP V
формы в тексте;
V O Девочка пол
3) полный морфологический анализ — приписывание грамматиче- N O
ских характеристик словоформе. Девочка мыла пол
Рис. 5. Дерево
При синтаксическом анализе необходимо определить роли Рис. 4. Дерево зависимостей
непосредственно
слов в предложении и их связи между собой. Результатом этого эта- составляющих
па автоматического анализа является представление синтаксических
Правда, в некоторых случаях на первый взгляд идентичная син-
связей каждого предложения в виде моделей, например в виде дере-
таксическая структура требует построения разных синтаксических
ва зависимостей.
моделей, ср. [3, 251]:
Проблемой синтаксического анализа выступает наличие альтер-
нативных вариантов синтаксического разбора (синтаксической мно-
Он надел пальто на улице
гозначности), ср.:
три пальто → (сколько?) три (чего?) пальто Он надел пальто на меху
три пальто → (что делай?) три (что?) пальто Чтобы выбрать правильную модель, отражающую синтаксиче-
Возникновение синтаксической многозначности обусловливает- ские отношения в конкретном предложении, в подобных случаях
ся лексико-морфологической многозначностью словоформ (одна и необходимо привлечь семантику.
та же словоформа может восходить к различным исходным формам Семантический анализ представляет собой, пожалуй, наиболее
сложное направление автоматического анализа текста. В этом слу-
или к разным морфологическим формам одной лексемы), а также
чае требуется установление семантических отношений между сло-
неоднозначностью самих правил разбора, которые могут иметь целью
вами в тексте, объединение различных языковых выражений, отно-
представление синтаксической структуры, например, в виде дерева не-
сящихся к одному и тому же понятию, и т.п.
посредственных составляющих или дерева зависимостей. Так, пред- Для семантического анализа предложений используются падеж-
ложение «Девочка мыла пол» описывается в первом случае моде- ные грамматики и семантические падежи (валентности). В этом слу-
лью, представленной на рис. 4, а во втором — рис. 5. чае семантика предложения описывается через связи главного слова
В модели непосредственно составляющих важно разбиение син- (глагола) с его семантическими актантами. Например, глагол пере-
таксической структуры на пары ее элементов: предложение (S) раз- дать описывается семантическими падежами дающего (агенса),
бивается на группу подлежащего (NP), представленную в данном адресата и объекта передачи [11, 96].
случае одним существительным (N), и группу сказуемого (VP). Вто- В основе семантического анализа лежит утверждение о том, что
рая делится на изменяемый глагол (V) и дополнение (O). В дереве значение слова не является элементарной семантической единицей.

48 49
Оно делится на более элементарные смыслы — единицы словаря Автоматический синтез представляет собой процесс производ-
семантического языка. Эти единицы семантического языка являют- ства связного текста, отдельные этапы которого являются теми же,
ся своеобразными атомами, из различных комбинаций которых что и при морфологическом анализе, но применяются в обратном
складываются «молекулы» — значения реальных слов естественно- порядке: сначала осуществляется семантический синтез, затем син-
го языка [3, 254]. таксический, морфологический и графематический.
Например, если имеются элементарные смыслы «сам», «кто-то», Семантический синтез представляет собой переход от смысловой
«иметь», «заставлять», «переставать», «начинать» и «не», то с их записи фразы к ее синтаксической структуре; синтаксический —
помощью мы можем определить целую группу слов русского языка. переход от синтаксической структуры фразы к представляющей
Кроме семи названных слов, являющихся одновременно и элемен- фразу цепочке лексико-грамматических характеристик словоформ;
тами семантического языка, и словами русского языка, сюда отно- лексико-морфологический — переход от лексико-грамматической
сятся слова: 1) владеть = «иметь», 2) обладать = «иметь», 3) брать = характеристики к реальной словоформе [27]. При морфологическом
«заставлять себя иметь», 4) давать = заставлять кого-то иметь» и т.д. синтезе по нормальной форме слова и его параметрам программа
[там же]. находит соответствующую словоформу. Графематический синтез
Именно семантический анализ позволяет решить проблемы мно- объединяет слова в единый текст, следит за соответствием фрагмен-
гозначности (омонимии), возникающей при автоматическом анали- тов входного текста фрагментам выходного [21, 108].
зе на всех языковых уровнях. Одной из первых компьютерных программ, синтезирующих пись-
менный диалог на английском языке, явилась программа американ-
l Лексическая омонимия: совпадение звучания и/или написания ского ученого Джозефа Вейценбаума «Элиза». Ее первый вариант
слов, не имеющих общих элементов смысла, например, рожа — был апробирован в 1966 году. Эта программа имитировала диалог с
лицо и вид болезни. психотерапевтом, реализуя технику активного слушания. Программа
l Морфологическая омонимия: совпадение форм одного и того же была названа в честь Элизы Дулитл, героини из пьесы «Пигмалион»
слова (лексемы), например, словоформа пол соответствует име- Бернарда Шоу, которую обучали языку «высшего класса людей». По
нительному и винительному падежам существительного пол. сути, целью программы было не моделирование мышления в точном
смысле, а моделирование речевого поведения, что было обусловлено
l Лексико-морфологическая омонимия (наиболее частый вид омо-
ограниченными программными ресурсами, а также начальным уров-
нимии): совпадение словоформ двух разных лексем, например,
нем лингвистического анализа и синтеза [4, 21].
мыла — глагол мыть в единственном числе женского рода про-
Программа включала минимум лингвистической информации:
шедшего времени и существительное мыло в единственном чис-
1) комплекс ключевых слов, которые актуализируют некоторые
ле, родительном падеже.
устойчивые речевые формулы, 2) способность трансформировать
l Синтаксическая омонимия: неоднозначность синтаксической предыдущее высказывание в общий вопрос [там же]. Иллюстрацией
структуры, имеющей несколько интерпретаций, например: Эти работы программы «Элиза» выступает следующий фрагмент обще-
типы стали есть в цехе (словоформа стали может интерпрети- ния молодой женщины и программы «Элиза», опубликованный ее
роваться как существительное или как глагол), Flying planes can создателем Д. Вейценбаумом в 1966 г. Реплики, смоделированные
be dangerous (известный пример Хомского, в котором словофор- программой, выделены прописными буквами.
ма Flying может интерпретироваться либо как прилагательное, Men are all alike.
либо как существительное) [11, 93—94]. IN WHAT WAY?

50 51
They’re always bugging us about something or other. 3. Назовите и дайте краткую характеристику этапам автоматического анали-
CAN YOU THINK OF A SPECIFIC EXAMPLE? за текста.
Well, my boyfriend made me come here. 4. Назовите и дайте краткую характеристику этапам автоматического синтеза
YOUR BOYFRIEND MADE YOU COME HERE текста.
He says I’m depressed much of the time. 5. Охарактеризуйте системы компьютерного моделирования диалогов, в том
I AM SORRY TO HEAR YOU ARE DEPRESSED числе роботы-автоответчики. Как происходит обучение роботов? Как рас-
познать робот-автоответчик?
It’s true. I am unhappy.
DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE
UNHAPPY? Рекомендуемая литература
I need some help, that much seems certain [цит. по: 57]. 1. Автоматическая обработка текстов на естественном языке и компьютерная
Несмотря на простоту алгоритмов, использованных в создании лингвистика: учеб. пособие. М.: МИЭМ, 2011. С. 91—97, 106—111.
программы, с ее помощью практически удалось опровергнуть из- 2. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд.
вестный тест английского ученого Алана Тьюринга, предложенный М.: ЛКИ, 2007. С. 20—25.
в 1950 г. Сущность теста Тьюринга формулируется следующим об- 3. Всеволодова А.В. Компьютерная обработка лингвистических данных:
разом: проблема создания искусственного интеллекта решена, если учеб. пособие. 2-е изд., испр. М.: Флинта: Наука, 2007. С. 50—51, 66—67.
большинство участников общения не смогут установить, с кем они 4. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике:
беседуют — с человеком или машиной. При проведении экспери- учеб. пособие. М.: Академия, 2004. С. 33—34.
ментов с программой «Элиза» 62% испытуемых, которым было
предложено определить, с кем они общаются, решили, что им от-
Упражнения
вечал человек [4, 21].
На современном этапе системы компьютерного моделирования 1. Определите машинные основы следующих слов:
письменных диалогов на естественном языке используют более слож- Слово Машинная основа Слово Машинная основа
ные алгоритмы. В частности, создан специальный язык разметки для
семья окружать
искусственного интеллекта AIML (Artificial Intelligence Markup Lan-
guage), используемый для создания виртуальных агентов (или ботов). весна сидеть
Боты, моделирующие диалог с собеседником, используются в ком- дело друг
пьютерных играх и на корпоративных веб-страницах, например, для пианино ты
ответов на вопросы пользователя о возможностях мобильного опера-
стремительный желтый
тора или торговой сети.
развивать петь

Вопросы для обсуждения 2. Приведите примеры совпадения машинных основ для слов русского языка
и запишите их ниже:
1. Назовите и кратко охарактеризуйте уровни естественного языка, релевант-
l основе лож# соответствуют типовые парадигмы для описания слов
ные для морфологического анализа и синтеза текста.
ложь и ложиться;
2. Дайте определения основным понятиям автоматического анализа текста:
l ________________________________________________;
слово, словоформа, лемма, машинная основа, стемминг, частеречный тэ-
гинг, парсер, тест Тьюринга. l ________________________________________________.

52 53
3) Определите исходную форму выделенных словоформ в примере ниже. Ка- 2. Посетите сайт http://sz.ru/parser. Введите 3 любые предложения на русском
кие виды омонимии иллюстрирует данный текст? языке, имеющие разную синтаксическую структуру. Сравните результаты
Я траву косил косой, их синтаксического анализа в таблице, оценивая при этом полезность
Дождик вдруг пошел косой. представленной в анализе лингвистической информации. Прокомменти-
Бросил я тогда косить руйте возможности применения подобных систем анализа.
И на Стешу стал косить. Лингвистическая информация,
Ну а Стеша, ох, краса, Предложение, рус.
представлена в синтаксическом анализе
Как огонь её коса! (www.stihi.ru/2011/06/03/8515)
1.
4) Выберите текст одного из СМИ на иностранном языке объемом до 1 стра-
ницы и составьте список слов для словаря словоформ. Укажите частот- 2.
ность появления каждой словоформы в проанализированном тексте.
3.
5) Опишите через элементарные семантические смыслы «сам», «кто-то»,
Общий комментарий
«иметь», «заставлять», «переставать», «начинать» и «не» слова русского
языка: приобретать, утрачивать, сохранять, лишать. 3. Посетите сайт http://nlp.stanford.edu:8080/parser/index.jsp. Введите 3 любые
6) Определите, какие фразы во фрагменте диалога ниже — собеседника А предложения на английском языке, имеющие разную синтаксическую
или Б — смоделированы машиной. Приведите аргументы в пользу вашего структуру. Сравните результаты их синтаксического анализа в таблице,
выбора. оценивая при этом полезность представленной в анализе лингвистической
информации. Прокомментируйте возможности применения подобных си-
А Говорите!
стем анализа.
Б Меня волнует погода.
А Как давно вас волнует погода? Лингвистическая информация,
Б С тех пор, как умерла моя мать. Предложение, англ.
представлена в синтаксическом анализе
А Расскажите больше о Вашей семье.
Б Они все в области компьютеров. 1.
А Машины пугают вас. 2.
Б Нет [пример цит. по: 4, 22].
3.
Общий комментарий
Лабораторная работа 8
Автоматический анализ текста 4. Посетите сайт http://teneta.rinet.ru/hudlomer, помогающий определить функ-
циональный стиль текста. Поместите в поле ввода любой отрывок текста
1. Посетите сайт http://starling.rinet.ru/morph.htm и протестируйте работу он- объемом от 75 до 500 слов (примерно от 3 абзацев до 1 страницы)
лайн-анализатора морфологии. Опишите результаты анализа в таблице для а) из вашей курсовой работы или реферата;
различных частей речи русского и английского языков.
б) из художественного произведения (используйте для этого, например,
Пример, Пример, Ваш комментарий о возможностях библиотеку М. Мошкова http://lib.ru);
Слово
рус. англ. морфологического анализатора
в) газетный текст (используйте текст любого сетевого СМИ, например,
Существительное www.rg.ru).
Глагол Оцените результаты автоматического определения стиля. Что вы ду-
маете о возможностях такой системы?
Прилагательное
5. Перейдите по ссылке http://www.antiplagiat.ru/QuickCheck.aspx и введите
Наречие текст из вашей актуальной курсовой работы или реферата. Впишите ре-

54 55
зультат и ваш комментарий получившейся статистики в таблицу. Для ка- Часть 3
ких целей можно использовать данную программу?
Прикладные разделы
Результат:
компьютерной лингвистики
Ваш комментарий:

Лабораторная работа 9
3.1. Корпусная лингвистика
Автоматический синтез диалогов1
1. Побеседуйте на русском языке с виртуальным собеседником по адресу Корпусная лингвистика как раздел прикладной лингви-
http://www.web4design.ru/virt_sobesednik.html. Постарайтесь узнать, сколь- стики. Понятие корпуса, разметки. Виды корпусов. Требова-
ко лет вашему собеседнику. Получили ли вы ответ? Оцените качество син- ния к корпусам.
тезируемых реплик и возможности использования данной программы.
2. Перейдите по ссылке http://www.beeline.ru/beelinebot/Default1.aspx и по- Одной из важных задач лингвистики является сбор и хранение
старайтесь узнать у электронного помощника способы пополнения счета источников фактического материала для лингвистических исследо-
при нулевом и отрицательном балансе. Был ли этот помощник полезен для ваний. В настоящий момент для решения этой задачи используются
получения информации? большие собрания текстов самой разной функциональной направ-
3. Побеседуйте на иностранном языке с виртуальным собеседником по адресу: ленности, которые удобно хранить в электронном виде. Привлечение
английский: www-ai.ijs.si/eliza/eliza.html; компьютеров и специальных телекоммуникационных сетей позволя-
немецкий: www.ego4u.de/de/chill-out/chat/egon-bot; ет не только сохранять большие объемы текстов в электронном виде,
французский: http://193.108.42.79/ikea-fr/cgi-bin/ikea-fr.cgi. но и осуществлять поиск по ним, обрабатывать их и т.п. Задача соз-
дания собраний текстов в электронном виде, или корпусов, является
Оцените дидактические возможности данной программы для обучения
иностранному языку. Какой уровень знаний иностранного языка необхо- настолько значимой для современной лингвистики, что эти собрания
дим для ее использования? электронных текстов становятся объектом исследований специаль-
ного раздела прикладной лингвистики — корпусной лингвистики.
Корпусная лингвистика — раздел прикладной лингвистики, за-
нимающийся разработкой общих принципов построения и использо-
вания лингвистических корпусов при помощи компьютеров [18, 3].
Исходя из такого определения можно констатировать, что кор-
пусная лингвистика включает два аспекта:
1) создание корпусов текстов с автоматическими инструментами
их использования;
2) разработка способов экспериментальных исследований различ-
ных уровней языка на базе корпусов разных типов [47].
Современные исследователи-лингвисты могут как создавать
1
Задания 1 и 2 составлены совместно с А.А. Кобелевым. свои собственные корпусы, а затем проводить необходимые иссле-

56 57
дования на их базе, так и использовать общедоступные корпусы, рая может оказаться нерелевантной для исследователя, что значи-
созданные другими исследователями и их коллективами. тельно затрудняет работу с таким источником. В связи с этим пред-
Кроме проведения научных исследований корпусы могут ис- метом корпусной лингвистики являются преимущественно разме-
пользоваться [20, 166—167; 30, 60]: ченные корпусы текстов.
1) в лексикографии для создания словарей, определения значения Первым этапом в создании корпуса является отбор текстов. При
многозначных слов и т.д.; этом следует продумать, тексты каких функциональных стилей и кон-
кретных жанров, какого года издания и в каком количестве будут вклю-
2) в грамматике для определения частоты морфем, типов словосо- чены в корпус. При отборе текстов в корпус следует ориентироваться
четаний и предложений и т.д.; на следующие требования к созданию корпусов [4, 118—119, 47]:
3) в лингвистике текста для дифференциации типов текста, выявле- 1) репрезентативность (частота явления в корпусе должна соот-
ния связей внутри абзаца и между абзацами и т.д.; ветствовать его частоте в естественном языке);
4) в автоматическом переводе текстов для поиска контекстов слов, 2) полнота (явление должно включаться в корпус, даже если его
имеющих несколько переводных эквивалентов, поиска перево- появление не соответствует идее репрезентативности);
дных эквивалентов в параллельных текстах и т.д.;
3) достаточный объем (если первые корпусы достигали миллиона
5) в учебных целях для выбора цитат, фрагментов произведений, слов, то объем современных корпусов исчисляется сотнями мил-
примеров для организации учебных занятий, создания учебных лионов и миллиардами, например, объем корпуса английского
пособий и т.д. языка Bank of English превышает 2,5 млрд слов);
6) в тестировании программ автоматического анализа и синтеза 4) экономичность (корпус текстов должен экономить усилия ис-
речи и т.д. следователя при изучении проблемной области, т.е. быть не про-
Центральное понятие корпусной лингвистики — лингвистиче- сто строгим подмножеством текстов проблемной области, но, по
ский корпус — определяется как совокупность специально отобран- возможности, быть наиболее «экономичным»);
ных текстов, размеченных по различным лингвистическим параме- 5) структуризация материала (в корпусе должны быть выделены
трам и обеспеченных системой поиска. Таким образом, корпус мож- адекватные корпусу единицы хранения);
но кратко охарактеризовать следующим образом: 6) компьютерная поддержка (поддержка корпуса текстов комплек-
Корпус = тексты + их разметка. сом программ по обработке данных, обеспечивающих выявле-
В более широком смысле корпусом считается любое собрание ние контекстов слова, статистическую инвентаризацию, автома-
текстов. В этой трактовке выделяются размеченные (аннотирован- тическую словарную обработку и т.д.).
ные) и неразмеченные корпусы текстов. В качестве подобных нераз- Важным этапом создания корпуса является его разметка. Раз-
меченных корпусов можно рассматривать существующие электрон- метка (англ. tagging, annotation) — это приписывание текстам и их
ные коллекции текстов: виртуальные библиотеки, архивы электрон- компонентам специальных меток (англ. tag). Эти метки могут быть
ных версий периодических изданий или новостных лент, которые внешними (экстралингвистическими), включающими сведения об
оказываются достаточными для некоторых исследовательских и авторе и о тексте, или внутренними: структурными или собственно
учебных целей. Но использование неразмеченных собраний текстов, лингвистическими. Внешние метки содержат сведения об авторе,
имеющих инструменты поиска, повышает долю информации, кото- названии текста, годе и месте издания, жанре, тематике. Сведения

58 59
об авторе могут включать не только его имя, но также возраст, пол, Таблица 2
годы жизни и многое другое. Это кодирование информации имеет Классификация корпусов [18, 13]
название метаразметка. Структурные метки несут информацию о
№ Признак Виды корпусов
статусе каждой единицы (глава, абзац, предложение, словоформа),
а собственно лингвистические описывают лексические, граммати- 1 Форма хранения звуковые
ческие и прочие характеристики элементов текста [18, 6]. письменные
смешанные
В соответствии с уровнем лингвистического описания различа-
ют морфологическую (определение части речи и морфологических 2 Язык текстов русский
английский и т.д.
категорий), синтаксическую (определение синтаксических связей),
семантическую (категории, характеризующие значение слова), ана- 3 «Параллельность» одноязычные
форическую (характеристика референтных связей, например, место- двуязычные
многоязычные
имений), просодическую (характеристика ударения и интонации),
дискурсную (обозначение пауз, повторов, оговорок устной речи) и 4 Стиль литературные
некоторые другие виды разметки [18, 6—7]. диалектные
разговорные
В частности, предложение Этой весной опять расцвела акация публицистические
может быть размечено следующим образом: терминологические
смешанные
Этой — МЖЕТ21 весной — СЖЕТ22 опять — Н22 расцвела —
ГЖЕП33 акация — СЖЕИЧ42 5 Способ доступа свободно доступные
коммерческие
Первый индекс указывает на часть речи (М — местоимение, С — закрытые
существительное, Н — наречие, Г — глагол), второй обозначает род,
6 Разметка размеченные
третий — число, четвертый — падеж или время (у глагола), первая неразмеченные
цифра указывает на число слогов, а вторая — на ударный слог [20, 170].
7 Характер разметки морфологические
Для разметки корпуса сообщений Твиттера при проведении синтаксические
международного исследовательского проекта по изучению данного семантические
жанра (Ганновер, 2010) нами были использованы, в частности, сле- просодические и т.д.
дующие виды меток: <STDS> (стандартное написание), <KOKS>
(использование только строчных букв), <KOGS> (использование Универсальный национальный корпус — это собрание текстов
только прописных букв), <GDOP> (удвоение графем), <GAUS> (вы- конкретного естественного языка, представительное по отношению
падение графем), <GZUV> (написание лишней графемы) и т.д. ко всему языку, которое может служить для исследования самых
В зависимости от характера собранных в корпусе текстов, от их разнообразных явлений этого языка.
разметки и некоторых других факторов различают следующие виды Общепризнанный образец универсального национального кор-
корпусов (табл. 2). пуса — Британский национальный корпус (BNC) (www.natcorp.ox.
Наиболее важным видом корпусов является универсальный наци- ac.uk). Для русского языка таким представительным корпусом явля-
ональный корпус, создаваемый для разных национальных языков. ется Национальный корпус русского языка (НКРЯ) (www.ruscorpora.
Создание и расширение универсальных национальных корпусов пред- ru). Среди корпусов славянских языков выделяется Чешский нацио-
ставляет собой одну из важнейших задач корпусной лингвистики. нальный корпус (http://ucnk.ff.cuni.cz), созданный в Карловом уни-

60 61
верситете Праги. Национальные корпусы существуют также для не- 4. Выберите один из корпусов из списка ниже и охарактеризуйте его по сле-
мецкого, китайского, финского и других языков. дующим критериям: количество словоупотреблений, вид корпуса (по раз-
ным признакам).
Одним из первых известных корпусов является Брауновский
l Британский национальный корпус (www.natcorp.ox.ac.uk),
корпус (Brown Corpus), созданный в 1963 г. в Брауновском универ-
ситете (США) для построения частотного словаря американского l Американский национальный корпус (www.americannationalcorpus.org),

варианта английского языка. Его объем составлял 1 млн слов. Соз- l Банк английского языка (Bank of English) (www.collins.co.uk/Corpus/
датели корпуса (У. Френсис и Г. Кучера) разработали строгую про- CorpusSearch.aspx)
цедуру отбора текстов: в корпус вошли 500 фрагментов прозаиче- l Национальный корпус русского языка (www.ruscorpora.ru),

ских текстов, созданных американскими авторами и напечатанных l Национальный корпус русского литературного языка (www.narusco.ru),
в 1961 г., по 2000 словоупотреблений каждый. Тексты представляли l Компьютерный корпус текстов русских газет конца ХХ века (www.
15 наиболее распространенных жанров информативной и художе- philol.msu.ru/~lex/corpus)
ственной прозы [20, 169; 47]. l Словарь-корпус языка А.С. Грибоедова (www.inforeg.ru/electron/concord/
Поиск в корпусе в соответствии с запросом пользователя обе- concord.htm)
спечивается с помощью специальных программ — корпусных ме- l Корпус института немецкого языка в Мангейме (www.ids-mannheim.
de/kl/).
неджеров. Корпусный менеджер (англ. corpus manager) — это специ-
ализированная поисковая система, включающая программные сред- 5. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для
этого рекомендуемые источники литературы и сетевые ресурсы. Включите
ства для поиска данных в корпусе, получения статистической в глоссарий определения следующих понятий: конкорданс, рандомизация,
информации и предоставления результатов пользователю в удобной коллокация, подмассив, парсинг, лемматизация, корпус-менеджер.
форме [18, 3]. Результаты поиска обычно выдаются в виде конкор- 6. Найдите сетевые ресурсы по теме «корпусная лингвистика» и кратко оха-
данса (поэтому корпусные менеджеры еще называют конкордансе- рактеризуйте их.
рами), где искомая единица представлена в ее контекстном окруже-
нии с представлением частотных характеристик отдельных языко- Рекомендуемая литература
вых единиц, граммем и т.п.
Таким образом, корпус, представляющий собой размеченное со- 1. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд.
М.: ЛКИ, 2007. С. 112—137.
брание текстов с объемом слов не менее 100 млн, дает широкие воз-
2. Захаров В.П. Корпусная лингвистика: учебно-метод. пособие. СПб.: СПбГУ,
можности как для прикладных (работа над принципами автоматиче- 2005. С. 3—14.
ской разметки), так и для исследовательских целей.
3. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: учеб.
пособие. М.: Академия, 2004. С. 166—173.
Вопросы для обсуждения на семинарских занятиях 4. Овчинникова И.Г., Угланова И.А. Компьютерное моделирование вербаль-
ной коммуникации: учебно-метод. пособие. М.: Флинта: Наука, 2009.
1. Что может являться единицей корпуса? С. 60—76.
2. Как отбираются тексты для корпуса? Проиллюстрируйте принципы от-
бора на примере Брауновского и других корпусов.
Лабораторная работа 10
3. Дополните классификацию корпусов, представленную в пособии. Поясни-
те, что означает «исследовательский корпус», «статический корпус», «па- 1. Откройте веб-страницу Русского национального корпуса (РНК) (www.
раллельный корпус». ruscorpora.ru), Корпуса русского литературного языка (КРЛЯ) (www.

62 63
narusco.ru) и Британского национального корпуса (БНК) (www.natcorp. 3.2. Компьютерная лексикография
ox.ac.uk). Введите в строку поиска этих корпусов слово русский / Russian.
Заполните таблицу. Понятие компьютерной лексикографии. Электронный
РНК КРЛЯ БНК словарь. Состав словарной статьи. Виды электронных слова-
рей. Преимущества электронных словарей. Перспективы ком-
Количество вхождений пьютерной лексикографии.
Как вы можете прокомментировать полученные результаты? Компьютерная лексикография представляет собой раздел при-
2. Выпишите 3 любых контекста использования слова русский / Russian в трех кладной лингвистики, нацеленный на создание компьютерных сло-
рассмотренных корпусах. Укажите источник каждого примера варей, лингвистических баз данных и разработку программ под-
№ примера РНК КРЛЯ БНК держки лексикографических работ.
1
Основными задачами традиционной и компьютерной лексико-
графии являются определение структуры словаря и зон словарной
2
статьи, а также разработка принципов составления различных видов
3 словарей.
3. Сравните морфологические характеристики выписанных слов (существи- Словарь традиционно определяется как организованное собра-
тельное/прилагательное). ние слов с комментариями, в которых описываются особенности
структуры и/или функционирования этих слов [4, 55]. Электронный
№ примера РНК КРЛЯ БНК
(автоматический, компьютерный) словарь — это собрание слов в
1 специальном компьютерном формате, предназначенное для исполь-
2 зования человеком или являющееся составной частью более слож-
3 ных компьютерных программ (например, систем машинного пере-
вода). Соответственно, различаются автоматические словари ко-
4. Сравните значение выписанных слов. Для этого посетите веб-страницы нечного пользователя-человека (АСКП) и автоматические словари
толковых словарей www.gramota.ru/slovari и http://oxforddictionaries.com.
для программ обработки текста (АСПОТ) [4, 86].
Определите, в каком значении рассматриваемое слово встречается в кон-
текстах. Впишите результат в таблицу. Автоматические словари, предназначенные для конечного поль-
зователя, чаще всего являются компьютерными версиями хорошо
№ примера РНК КРЛЯ БНК известных обычных словарей, например:
1
l Оксфордский словарь английского языка (www.oed.com),
2
l автоматический толковый словарь английского языка издатель-
3
ства «Коллинз» (www.mycobuild.com),
5. К каким выводам вы пришли при сравнении морфологической и лексиче-
l автоматический вариант «Нового большого англо-русского сло-
ской характеристики одного и того же слова, включенного в разные кор-
пусы? варя» под ред. Ю.Д. Апресяна и Э.М. Медниковой (http://eng-rus.
slovaronline.com),
6. Как можно использовать рассмотренные корпусы в лингвистическом ис-
следовании? l словарь Ожегова онлайн (http://slovarozhegova.ru).

64 65
Автоматические словари такого типа практически повторяют l введение, объясняющее принципы пользования словарем и даю-
структуру словарной статьи обычных словарей, однако они обладают щее информацию о структуре словарной статьи;
функциями, недоступными своим прототипам, например, осущест- l словник, включающий единицы словаря: морфемы, лексемы, слово-
вляют сортировку данных по полям словарной статьи (ср. отбор всех формы или словосочетания; каждая такая единица с соответствую-
прила­гательных), проводят автоматический поиск всех вокабул, име- щим комментарием представляет собой словарную статью;
ющих в толковании определенный семантический компонент, и т.д.
l указатели (индексы);
[4, 86]. Пример статьи словаря такого типа представлен на рис. 6.
l список источников;
l список условных сокращений и алфавит [4, 75—76].
В электронных словарях из названных компонентов обязатель-
ным является, пожалуй, лишь словник, в онлайн-словарях нередко
имеется также алфавит с заложенными за каждой буквой гиперссыл-
ками, ведущими к тексту словарной статьи. Практически в каждом
электронном словаре, предлагаемом на диске (оффлайн-словарь)
или в Интернете (онлайн-словарь) имеется функция автоматиче-
ского поиска, позволяющая значительно экономить усилия пользо-
вателя при работе со словарем.
Отличие электронных словарей от «бумажных» касается также
их мультимедийности и гипертекстуальности: эти свойства выраже-
ны в электронных словарях в значительно большей степени, чем в
печатных. Так, гиперссылки могут быть заложены за любым эле-
ментом словарной статьи или пунктом программного меню словаря.
Рис. 6. Статья компьютерного словаря Это дает пользователю дополнительные возможности по поиску и
[Большой толковый словарь: www.gramota.ru] быстрому переходу к необходимой словарной информации, позво-
ляя найти синонимы и антонимы к заданному слову, слова той же
Автоматические словари для систем машинного пе­ревода, автома- семантической группы, парадигмы склонения и спряжения и т.д.
тического реферирования, информационного поиска и т.д. (АСПОТ) Гиперссылки позволяют также легко связывать разные словари
по интерфейсу и структуре словарной статьи существенно отлича- друг с другом, так что в итоге онлайн- или оффлайн-словари оказы-
ются от АСКП. Особенности их структуры, сфера охвата словарного ваются коллекциями или порталами словарей. Получив необходи-
материала задаются теми программами, которые с ними взаимодей- мую информацию, например, о значении слова, пользователь одним
ствуют. Такой словарь может содержать от одной до сотни зон сло- нажатием ссылки может перейти к комментариям этого слова в дру-
варной статьи. Чрезвычайно разнообразны и области лексикографи- гих словарях и узнать особенности его толкования в специальных
ческого описания: морфологическая, лексическая, синтаксическая, отраслях знания (терминологические словари) или получить допол-
семантическая и т.д. [4, 86]. нительную лингвистическую информацию о его форме.
Структура традиционного словаря обычно включает следующие Отдельные электронные словари имеют также дополнительные
компоненты: возможности, например, электронный многоязычный словарь ABBYY

66 67
Lingvo x3 (© 2008 ABBYY) предоставляет функцию обучения (ABBYY то «лишняя» информация о переводе проверяемого слова или его
Lingvo Tutor), позволяющую запоминать слова, отобранные по кон- контекстных значениях будет только мешать пользователю.
кретной теме и представленные парами: русское и иностранное сло- Классификацию компьютерных словарей можно осуществлять на
во, составлять новые словари и словарные карточки, сохранять ре- тех же принципах, что и классификацию обычных словарей. Тради-
зультаты обучения в файл и т.д. ционно выделяются лингвистические, энциклопедические и проме-
В итоге структура электронного словаря в значительной степени жуточные (лингвострановедческие и терминологические) словари. В
отличается от структуры словаря печатного, хотя основная часть лингвистических словарях описываются сами слова — их значения,
словаря — словник со словарными статьями — продолжает состав- особенности употребления, структурные свойства, сочетаемость, со-
лять ядро словаря в обоих случаях. отношение с лексическими системами других языков и т.д. В энцикло-
Структура словарной статьи достаточно типична и обычно вклю- педических словарях описываются понятия, факты и реалии окружа-
чает следующие зоны словарной статьи, актуальные как для тради- ющего мира, т.е. экстралингвистическая информация. Промежуточ-
ционной, так и для компьютерной лексикографии: ный тип словарей включает информацию и лингвистического, и
экстралингвистического рода [4, 59—60].
l лексический вход (вокабула, лемма);
Среди лингвистических словарей можно выделить несколько их
l зона грамматической информации; видов [4, 59—74]:
l зона стилистических помет; l толковые, имеющие целью толкование (объяснение) значений
l зона значения; слов и их употребления в речи, включающие дескриптивные и
нормативные словари, которые, кроме того, могут быть общими
l зона фразеологизмов; и частными, среди последних выделяются, например, фразеоло-
l зона этимологии; гические словари, словари иностранных слов и т.д.;
l зона примера и источника примера. l словари-тезаурусы, отличающиеся расположением словарной
Правда, можно выделить зоны словарной статьи, обязательные статьи, которое подчинено не алфавитному, а тематическому прин-
для всех словарных единиц, и факультативные зоны. Обязательной ципу, например, тезаурус русской идиоматики включает семан-
зоной словарной статьи для разных видов словарей является лишь тическое поле «УХОД, ОТЪЕЗД, БЕГСТВО», которое помещена
лексический вход, все остальные зоны зависят от типа словаря: на- в категорию «ДВИЖЕНИЕ», семантическое поле «ДАВНО» по-
мещено в категорию «ВРЕМЯ» и т.д. [4, 65];
пример, для толкового словаря необходима зона значения, а для ор-
фоэпического она необязательна. Зона фразеологии отсутствует в l двуязычные (переводные) словари, например, «Англо-русский
комментариях слов, не используемых в устойчивых сочетаниях, а словарь» В.К. Мюллера (1-е издание появилось в 1943 г.), «Фран-
наличие зоны примера и его источника зависит от принципов, лежа- цузско-русский словарь активного типа» под ред. В.Г. Гака и
щих в основе создания словаря. Ж. Триомфа и др.;
Количество зон словарной статьи компьютерного словаря обыч- l ассоциативные словари, объектом которых является сфера ассо-
но превышает количество зон словарной статьи «бумажного» слова- циативных отношений в лексике; словарная статья такого слова-
ря, что обусловлено значительными ресурсами памяти и высокой ря включает лексему-стимул и список упорядоченных по часто-
скоростью обработки цифровой информации современными ком- те и алфавиту (с указанием частоты) реакций, полученных в пси-
пьютерами. Но объем предлагаемой словарной информации должен холингвистическом эксперименте, например: «Ассоциативный
соответствовать виду словаря: если читателю нужно произношение, тезаурус современного русского языка» [39];

68 69
l исторические и этимологические словари, предоставляющие ин- Большую коллекцию словарей разных видов на дисках и в Ин-
формацию об истории слов, начиная с определенной даты на тернете предоставляет издательство Duden (немецкий язык, www.
протяжении некоторого периода, с указанием возникновения но- duden.de) и Larousse (французский язык, www.larousse.fr).
вых слов и значений, их отмирании и видоизменении, или объ- Компьютерные словари обычно создаются на базе корпусов тек-
ясняющие происхождение слов; стов с использованием средств автоматической обработки и поиска
l словари языковых форм, которые фиксируют особенности фор- словарных единиц. Для этого привлекаются специальные програм-
мы слов и в которых толкования значений отсутствуют или игра- мы — базы данных, компьютерные картотеки, программы обработ-
ки текста, которые позволяют автоматически формировать словар-
ют вспомогательную роль, например, орфографические и орфо-
ные статьи, хранить словарную информацию и обрабатывать ее.
эпические, словообразовательные и морфемные (показывают,
Так, создание электронного словаря, согласно А.Н. Баранову, вклю-
как слова складываются из морфем и инвентаризуют их), грам-
чает следующие этапы [4, 84]:
матические (информация по каждому слову, позволяющая по-
строить любую грамматически правильную форму), обратные 1) формирование корпуса текстов и параллельно создание словника;
словари; 2) автоматическое формирование корпуса примеров;
l словари речевого употребления: словари трудностей и сочетае- 3) написание словарных статей;
мости слов;
4) ввод словарных статей в базу данных (БД);
l ономастиконы: антропонимические словари и топонимические
5) редактирование словарных статей в БД;
словари;
6) корректура текста в БД;
l нетрадиционные, подвергающие словарному описанию нетипич-
ные лингвистические объекты, например, «Словарь русских по- 7) порождение текста словаря и формирование оригинал-макета;
литических метафор» А.Н. Баранова и Ю.Н. Караулова [5], сло- 8) печать словаря.
вари поэтических метафор, эпитетов, авторские словари и слова- Конечно, приведенное описание процесса создания электронно-
ри конкордансов. го словаря может корректироваться в зависимости от его вида, иссле-
Например, известны такие электронные энциклопедии, как Энци- довательских принципов и других факторов, ср. комментарии созда-
клопедия Британника (www.britannica.com), «Большая энциклопедия телей электронного исторического словаря русского языка [48]. Но
Кирилла и Мефодия» (www.megabook.ru) и энциклопедия «Круго- в любом случае использование компьютеров и уже готовых корпу-
свет» (www.krugosvet.ru). сов текстов в компьютерной лексикографии позволяет уменьшить
Примерами переводных электронных словарей выступают ABBYY количество этапов в процессе создания электронного словаря и сэко-
Lingvo (www.lingvo.ru), TranslateIt! (www.translateit.ru) и Multitran номить время практически на каждом из них.
(www.multitran.ru). Электронные толковые словари — это, в част- Так, вместо создания словарной карточки в компьютерной лек-
ности, словарь Merriam Webster (www.merriam-webster.com) и сло- сикографии используются базы данных. Записи баз данных дают воз-
варь французского языка «Trésor de la langue française» (http://atilf. можность автоматически сортировать массив по выбранным пара-
atilf.fr). Формальными электронными словарями являются орфогра- метрам, отбирать нужные примеры, объединять их в группы и т.д.
фические словари русского (http://slovari.yandex.ru) и английского Специализированных программных оболочек для лексикографиче-
(www.spellcheckonline.com) языков. ских целей на рынке практически нет. Для этих целей вполне под-

70 71
ходят современные базы данных типа ACCESS или PARADOX. Для Несмотря на наличие значительного числа преимуществ исполь-
поиска примеров создатели словарей могут использовать компью- зования электронных словарей, остаются нерешенными некоторые
терные программы построения конкордансов, например, DIALEX. проблемы, актуальные как для традиционной, так и для компьютер-
Для создания оригинал-макета (верстки) словарей привлекаются из- ной лексикографии.
дательские системы типа Page-Maker или WinWord, которые позво- l В словарях должно найти отражение понятие лексической функ-
ляют приписывать стили зонам словарных статей, алфавитизацию, ции, позволяющее систематически описывать несвободную со-
создание указателей и т.д. [4, 82—85]. четаемость слов, иллюстрируемую следующими примерами рус-
Пожалуй, единственный пример специализированной компью- ского языка: «войну ведут», а «экзамен — держат», «теории вы-
терной программы, предназначенной для компьютерных лексикогра- двигают», а «мысли подают» и т.п.
фических работ, является «Программа автоматизированного состав- l Не нашла отражение в массовой лексикографической практике
ления и обработки словников» (авторы: М.В. Литус, Е.В. Литус). Эта проблема описания семантики и практической реализации грам-
программа достаточно активно используется в филологических ис- матического словоизменения и словообразования. Каждый язык
следованиях и подробно представлена в учебном пособии А.Т. Хро- имеет свои собственные способы грамматического кодирования
ленко и А.В. Денисова [52, 52—63]. смысла, которые не описываются в массовых словарях система-
Электронные словари имеют положительные стороны не только тически. Например, как передать по-английски смысл «довыпен-
в процессе их создания, но и в процессе использования. В частности, дриваться», даже если знаешь, как передать «выпендриваться»?
выделяются следующие преимущества в использовании электрон-
l В словарях не существует даже системы понятий, с помощью ко-
ных словарей [40]:
торой синтаксическая информация могла бы быть доведена до
1) электронные словари позволяют по-разному представить содер- обычного читателя. Решением этой проблемы могли бы стать
жание словарной статьи (различные «проекции» словаря), в том интегральные словарные описания, основанные на формальных
числе с помощью разнообразных графических и мультимедий- моделях, учитывающие прогрессивные лексикографические
ных средств, которые не используются в обычных словарях; идеи. На этих же моделях следует организовать технологии до-
2) в выдаваемой информации находят отражение различные техно- ступа к словарному содержанию [40].
логии компьютерной лингвистики, например морфологический Названные проблемы могут быть решены при сотрудничестве
и синтаксический анализ, полнотекстовый поиск, распознавание лексикографов-теоретиков и практиков, а компьютерные инстру-
и синтез звука и т.п.; менты, несомненно, облегчат рутинную работу по осуществлению
монотонных лексикографических операций.
3) становится возможным быстро получить информацию, которая
В целом констатируем, что компьютерная лексикография, на-
содержится где-то в недрах словаря и непосредственно отвечает
правленная на создание электронных словарей, представляет собой
тому запросу, который сформулирован пользователем в удобной
весьма перспективное и нужное направление компьютерной линг-
для него форме;
вистики, поскольку создаваемые ею продукты — электронные сло-
4) электронный словарь позволяет быстро реагировать на изменения вари — отличаются многогранностью, мультимедийностью, инте-
в языке и мире, и выпуск каждой последующей его версии или грацией новейших технологических решений, актуальностью мате-
внесение изменений в онлайн-версию не занимает много време- риала и отвечают потребностям пользователя в организации доступа
ни и труда. к необходимой информации.

72 73
Вопросы для обсуждения 2. Посетите сайт www.merriam-webster.com. Введите слово culture в строку
поиска. Определите зоны словарной статьи для этого слова в словаре
1. Представьте структуру машинной словарной статьи. merriam webster и представьте результаты вашего анализа в таблице.
2. Опишите зону морфологических сведений. Какие кодировки используют-
ся для обозначения частей речи и представления морфологической инфор- Данные для слова culture
Зоны словарной статьи
в электронном словаре merriam webster
мации?
3. Чем различаются зона семантических и зона лексических сведений машин-
ной словарной статьи? Проиллюстрируйте различия примерами.
4. Дайте определение базы данных. Что такое «данные»? Каковы основные
способы организации баз данных?
5. Опишите особенности электронных переводческих словарей ABBYY Lingvo
и Multitran. Чем они отличаются от онлайн-переводчиков (Google, Yandex
и т.п.)?

Рекомендуемая литература
1. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. М.:
Эдиториал УРСС, 2007. С. 55—87.
3. Посетите сайт www.ozhegov.org. Введите слово культура в строку поиска.
2. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: Определите зоны словарной статьи для этого слова в электронной версии
учеб. пособие. М.: Академия, 2004. С. 82—98, 146—153, 158—163. словаря Ожегова и представьте результаты вашего анализа в таблице.
3. Селегей В.П. Электронные словари и компьютерная лексикография // Ас-
социация лексикографов Lingvo www.lingvoda.ru/transforum/articles/ Данные для слова культура
Зоны словарной статьи
selegey_a1.asp в электронном словаре Ожегова

4. Егоров А. Слово за слово // Домашний компьютер. 2007. № 9. http://offline.


homepc.ru/2007/135/334406

Лабораторная работа 11
Электронные словари
1. Посетите сайт www.rvb.ru/soft/catalogue/index.html. В разделе 7 — словари
и тезаурусы — выберите «Словарь сокращений русского языка». Проте-
стируйте предлагаемый онлайн-словарь, введя любое сокращение русско-
го языка. Представьте результаты работы в таблице.
Введенное сокращение Расшифровка сокращения
1) 4. Сравните количество зон словарной статьи в двух рассмотренных слова-
2) рях: в каком словаре их больше? Какие нужные, на ваш взгляд, зоны сло-
варной статьи отсутствуют в рассмотренных словарях? С каким словарем
3) вам было удобнее работать и почему?

74 75
5. Сравните количество зон словарной статьи в электронной и бумажной вер- огромным пластом предметного знания (история появления, техни-
сиях словаря Ожегова. В какой версии представлено больше зон словарной ческие характеристики, альтернативные Интернету виды связи и
статьи? Какие нужные, на ваш взгляд, зоны словарной статьи отсутствуют
в той или другой версии? С каким словарем вам было удобнее работать и
т.д.), соответственно, для специалиста оно выступает термином.
почему? Из приведенных пояснений становится понятно, что понятие
термина задается через его свойства, реализуемые в терминосистеме
[4, 89]. Терминосистема в целом отражает соответствующую об-
ласть знания, а каждый ее компонент (термин) называет или харак-
3.3. Компьютерная терминография теризует составляющие этой области знания.
Понятие компьютерной терминографии. Термин как ос-
Поскольку области знания объективны, а термины и терминоси-
новной объект терминографии. Терминологические банки стемы «привязаны» к конкретному языку или даже к конкретной
данных. научной школе, важной задачей терминографии становится стан-
дартизация и унификация терминов, а также их однозначный пере-
Одним из перспективных направлений компьютерной лексико- вод на разные языки мира.
графии и прикладной лингвистики в целом является работа над Унификации терминосистем служат терминологические стан-
электронными терминологическими словарями и банками данных. дарты. Но самих стандартов по организации терминосистем в мире
Построением специальных терминологических словарей занимается сейчас более 20 тысяч; кроме того, существуют терминологические
терминография, представляющая собой особый раздел лексикогра- стандарты самых разных уровней: международного, государствен-
фии. В то же время терминография тесно связана с терминоведени- ного и даже уровня отдельных компаний и фирм. В связи с этим
ем — наукой о терминах. Соответственно, компьютерная термино- задача унификации терминов и терминосистем должна быть обяза-
графия — это наука о составлении электронных терминологических тельной составляющей государственной и местной языковой поли-
словарей. тики, поскольку многозначность и омонимия терминов, отсутствие
Принципы компьютерной терминографии в общем и целом те согласования между близкими терминосистемами, создание терми-
же, что и рассмотренные выше принципы компьютерной лексико- нологических сочетаний с труднопроизносимыми и неблагозвучны-
графии. Их отличия связаны только с основным объектом словарного ми аббревиатурами (ср. ГИБДД) являются ощутимым препятствием
описания: в лексикографии это обычное слово или другие языковые для научно-технического прогресса [4, 90].
единицы (морфема, словосочетание, предложение и т.п.), а в терми- Современные компьютерные технологии позволяют обрабатывать
нографии — термин. и сохранять большие массивы терминов по различным областям зна-
Термин — это слово (словосочетание) метаязыка науки или об- ния. Такие массивы терминов называются терминологическими базами
ласти практической деятельности человека, имеющее четкое и (по (банками) данных (ТБД). По количеству задействованных в базе дан-
возможности) однозначное определение, требующее специальных ных языков различаются переводческие (многоязычные) и информаци-
знаний из соответствующей профессиональной сферы. Так, слово «Ин- онно-нормативные (одноязычные) ТБД. Крупные ТБД имеются:
тернет» для обычного человека выступает общеупотребительным, а
l вНаучно-исследовательском институте комплексной информа-
знакомство с соответствующим понятием ограничивается теми ма-
нипуляциями, которые человек производит с Интернетом (выбор ции по стандартизации и качеству (ВНИИКИ) (www.vniiki.ru);
провайдера услуг, тарифа, настройка подключения и некоторые дру- l в Международной организации по стандартизации (англ. iso =
гие). Для специалиста в компьютерных сетях это слово связано с International Organization for Standardization, www.iso.org/obp/ui).

76 77
Кроме того, термины определенной предметной области собирают- ление, или транслитерируются, например: англ. Computer → ком-
ся и описываются в словарях специальных терминов. Эти словари мо- пьютер. Кроме того, термины могут образовываться из словообразо-
гут быть дескриптивными и нормативными, общими и частными, тол- вательных элементов родного языка (приставка) или путем изменения
ковыми и переводными, алфавитными и тезаурусными [4, 91—104]. семантики существующих слов (поле → (семантическое) поле).
Большинство электронных терминологических словарей носит При анализе составляющих словарной статьи терминологиче-
дескриптивный характер и представляет термины отдельной отрас- ского словаря можно заметить, что такой словарь требует еще более
ли знания. При этом востребованы и толковые (одноязычные), и тщательной работы, чем обычный словарь.
переводные (двуязычные или многоязычные) словари. Разнообраз-
ные терминологические словари русского языка (анатомический,
экономический, психологический и т.д.) представлены, в частности, Вопросы для обсуждения
на портале gramota.ru (www.gramota.ru/slovari/online), а переводные 1. Охарактеризуйте терминографическую традицию разных стран. Какие вы-
терминологические словари, относящиеся к разным отраслям зна- воды можно сделать из этого сравнения?
ния, можно найти по адресу www.diclib.com.
2. В чем заключаются требования к специальным словарям?
При описании термина важными оказываются следующие его
свойства, сопоставимые с отдельными зонами словарной статьи [4, 3. Дайте определения известным вам видам терминологических словарей. Чем
отличаются дескриптивные и нормативные терминологические словари?
105—106; 41, 122]:
4. Что входит в зоны словарной статьи терминологического словаря? Опиши-
1) семантика: связь термина с обозначаемым понятием; те одну из таких зон подробнее.
2) словоизменение: особенности образования морфологических форм
термина;
Рекомендуемая литература
3) словообразование: включение термина в словообразовательное
гнездо, установление связей между однокоренными словами (ср. 1. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд.
прилагательные коммуникативный и коммуникационный, отно- М.: ЛКИ, 2007. С. 90—95.
сящиеся к разным значениям термина «коммуникация»); 2. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике:
4) синтаксические связи: управление, сочетаемость с другими тер- учеб. пособие. М.: Академия, 2004. С. 163—166.
минами и нетерминами; 3. Марчук Ю.Н. Компьютерная лингвистика: учеб. пособие. М.: АСТ: Вос-
ток — Запад, 2007. С. 190—195.
5) парадигматические связи в терминосистеме: синонимы, антони-
мы, гиперо-гипонимические связи, пересечения значения, тер-
минологические ряды; Лабораторная работа 12
6) произношение; Компьютерная терминография
7) примеры использования в контексте; 1. Откройте главную страницу Европейского интерактивного терминологи-
8) происхождение; ческого банка данных IATE (http://iate.europa.eu). Введите в строку поиска
аббревиатуру NLP.
9) переводные эквиваленты.
2. Выберите исходный язык (Source language) English, языки перевода (Target
Так, по своему происхождению термины могут быть заимство- languages) — немецкий (de) и французский (fr). В дополнительных опциях
ванными; в этом случае они переводятся, ср.: нем. Leitung → управ- выберите раздел 3236-Information technology and data processing.

78 79
3. В открывшемся окне нажмите на надпись «Полная информация» (Full Зоны словарной статьи Описание
entry) первого значения. Результаты поиска скопируйте в таблицу.
Лексический вход
Зоны словарной статьи
Язык Определение
Definition Term Term Abbreviation Примеры
en — English Источники
de — Deutsch
fr — Français

Как вы можете прокомментировать возможности данного термино-


3.4. Машинный перевод
логического банка данных? Для каких целей и кем он может быть исполь-
зован?
Понятие перевода и машинного перевода. Классификация
4. Ознакомьтесь с двумя множествами терминов: прилагательными и суще- систем МП. Системы переводческой памяти. Этапы осущест-
ствительными. вления полностью автоматизированного МП. Проблемы МП.
Примеры систем МП. Параметры оценки систем МП.
Прилагательные Существительные
информационный ресурс Вопросы машинного перевода составляют одну из центральных
мультимедийный технология областей использования информационных технологий в лингвисти-
цифровой средства ке. Это обусловлено не только тем, что в машинном переводе как в
электронный платформа
фокусе концентрируются все проблемы компьютерной лингвисти-
5. Скомбинируйте перечисленные выше существительные и прилагательные ки — от способов анализа содержания до синтеза словоформы,
с целью создания терминологических сочетаний, например: информацион- предложения и целого текста [25, 14], но и постоянно возрастаю-
ная платформа. Перечислите все получившиеся терминологические сло- щей практической потребностью современного общества в перево-
восочетания в таблице.
де значительного количества текстов различной функциональной
Термин Словосочетания с данным термином направленности.
ресурс
Так, свыше 5 млрд жителей Земли используют около трех тысяч
языков, и все большее их количество включается в мировые инфор-
технология мационные потоки. Разноязычная информация, накапливаемая в
средства геометрической прогрессии, становится труднодоступной, так как
платформа на поиск и перевод нужных сведений требуются значительные ма-
териальные затраты. Было подсчитано, что если синтез нового хи-
6. С помощью систем поиска (google.ru, yandex.ru и т.п.) напишите словарную мического соединения обойдется менее чем в 100 тыс. долларов,
статью для одного из получившихся терминов по вашему выбору. Статья
выгоднее произвести этот синтез, чем искать описание аналогичной
должна включать следующие обязательные зоны: лексический вход, опре-
деление, примеры использования, источники. Кроме того, включите в опи- работы на других языках [52, 114].
сание термина еще две зоны словарной статьи на ваш выбор. Результат Другой иллюстрацией возрастания потребности в переводе слу-
внесите в таблицу. жат документы международных организаций, которые в обязатель-

80 81
ном порядке переводятся на языки стран-участников. Только Евро- того, в этот процесс включаются два принципиально различных эта-
пейский союз в настоящее время объединяет 27 государств, в кото- па: понимание текста на исходном языке (ИЯ) и синтез текста на
рых используется 23 официальных языка (http://europa.eu). Это языке перевода (ПЯ) [4, 138].
обеспечивает работой несколько тысяч профессиональных перевод- Вследствие такой комплексности переводческого процесса нау-
чиков, переводящих в год миллионы страниц. Услуги переводчиков ка о нем (переводоведение) носит междисциплинарный характер и
обходятся в миллиарды долларов. оказывается связанной с лингвистикой, литературоведением, когни-
Кроме того, что работа переводчика-человека достаточно доро- тивными науками и культурной антропологией [4, 138]. В частно-
гая, она к тому же весьма медленная. Так, нормой научно-техниче- сти, исследователями отмечается, что переводятся не столько слова
ского перевода считается время 10 дней на авторский лист (24 стра- и их последовательности, сколько мыслительные образы, порожда-
ницы машинописного текста) [26, 4]. Система машинного перевода емые в сознании переводчика под их воздействием [7, 152], т.е. связь
позволяет получить перевод сотен авторских листов за 1 час [20, 79]. перевода и когнитивных, мыслительных процессов человека оче-
Кроме того, появляются новые области применения машинного видна.
перевода, например, тексты Интернета. По подсчетам исследовате- Системы машинного перевода моделируют работу человека-пе-
лей, в Интернете встроенными системами перевода (SYSTRAN, реводчика. Таким образом, суть машинного перевода та же, что и в
TRADOS и ESTeam Translator) и сетевыми онлайновыми словарями случае его выполнения человеком, с той лишь разницей, что в этом
ежедневно выполняется 1 млн запросов на перевод текстов в различ- процессе используются компьютеры. Машинный (или автоматиче-
ных форматах [8, 102]. ский) перевод (МП) — выполняемое компьютером действие по пре-
Все вышесказанное свидетельствует об актуальности обращения образованию текста на одном естественном языке в эквивалентный
к проблеме машинного перевода, который хотя и уступает по каче- по содержанию текст на другом языке, а также результат такого дей-
ству переводу, осуществляемому человеком, но даже на сегодняш- ствия [24, 15].
нем этапе развития позволяет преодолевать языковые барьеры, а С точки зрения роли человека в процессе выполнения МП раз-
кроме того, продолжает оставаться интересной научной проблемой личают следующие его виды [15, 54]:
компьютерной лингвистики в целом. l МАНТ (Machine-assisted human translation) — перевод, осущест-
Чтобы определить понятие машинного перевода, обратимся сна- вляемый человеком с использованием компьютера;
чала к некоторым общим понятиям теории перевода. Перевод обыч-
l НАМТ (Human-assisted machine translation) — машинный пере-
но понимается как деятельность, «в результате которой некоторый
вод при участии человека;
текст на одном языке ставится в соответствие тексту на другом язы-
ке, при этом обеспечивается их смысловая эквивалентность» [23, l FAMT (Fully-automated machine translation) — полностью авто-
30]. При этом отмечается многозначность понятия перевода: это матизированный машинный перевод.
одновременно и процесс передачи содержания текста на одном язы- В первом случае человек использует компьютерные инструмен-
ке средствами другого языка, и результат переводческой деятель- ты, направленные на ускорение и упрощение процесса перевода, но
ности [4, 138]. собственно перевод текста выполняет сам человек. Вспомогатель-
Перевод представляет собой весьма сложный вид интеллекту- ными системами компьютерной поддержки перевода здесь выступа-
альной деятельности человека, поскольку это не чисто языковой, а ют электронные словари, терминологические базы данных.
сложный когнитивный феномен: в процессе перевода человек ис- Второй тип систем МП является своего рода промежуточным:
пользует лингвистические и экстралингвистические знания, а кроме здесь одинаково важно участие в процессе перевода и человека, и

82 83
машины. В машину вводятся электронные словари, морфологиче- ностный, глубинный или синтактико-семантический) выделяют и
ские справочники и задается определенный алгоритм выполнения разные виды Т-систем. Наиболее сложный тип систем МП — И-сис-
задачи перевода. Роль человека здесь сводится к выбору предлагае- темы — включает наряду с лингвистической и экстралингвистиче-
мых машиной решений и редактированию текста перевода. скую информацию, т.е. семантику и прагматику предметной обла-
Весьма наглядно такой тип систем МП иллюстрируется система- сти. Поэтому после этапов морфологического и синтаксического
ми переводческой памяти (Translation Memory, TM). Идея таких си- анализа фразы исходного текста алгоритм И-системы включает этап
стем заключается в хранении базы данных переводов, сделанных семантического анализа. Его результатом служат семантические
профессиональным переводчиком, для того чтобы в процессе пере- представления фраз ИЯ и ПЯ, обеспечивающие эквивалентность их
вода предлагать человеку уже готовый перевод фразы или куска тек- смысла [6, 93—94].
ста, если он уже был однажды переведен. ТМ-программы значитель- В итоге в целом схема машинного перевода включает следую-
но повышают эффективность работы переводчика, избавляя его от щие этапы [20, 80—81; 6, 94]:
рутинной, повторяющейся работы. Во многих фирмах, занимаю-
1) ввод в компьютер текста на ИЯ,
щихся переводом, владение одной из таких программ является су-
щественным критерием при приеме на работу. 2) его морфологический анализ, т.е. определения части речи и мор-
Третий тип систем МП является наиболее сложным, поэтому фологических характеристик каждого слова,
остановимся на его характеристике подробнее. 3) синтаксический анализ каждого предложения текста ИЯ (поиск
Эффективность полностью автоматизированных систем МП за- основных членов предложения и определение типов синтаксиче-
висит от того, в какой степени в них учитываются объективные за- ских связей между ними, выражаемых в виде дерева зависимо-
коны функционирования языка и мышления. Но эти законы пока стей или дерева непосредственных составляющих),
еще недостаточно изучены [7, 152; 20, 79], и перед создателями си-
стем МП возникает множество проблем, отражающихся в недоста- 4) семантический анализ каждого предложения ИЯ, в результате ко-
точном качестве результата МП. торого создается семантическое представление этого предложе-
По мере усложнения систем МП и включения в них новых эта- ния, независимое от типа языка (общее и для ИЯ, и для ПЯ),
пов автоматического анализа и синтеза текста выделяют три поко- 5) синтаксический синтез предложений ПЯ (создание предложений
ления таких систем [6, 93]: правильной синтаксической структуры, соответствующей пра-
1) П-системы — системы прямого перевода (direct systems); вилам ПЯ и типу синтаксической структуры предложения на ИЯ,
2) Т-системы — системы с синтаксическим преобразованием ис- 6) морфологический синтез каждого слова в составе отдельных пред-
ходного текста (от англ. transfer — преобразование); ложений текста ПЯ (постановка слов ПЯ в нужных морфологи-
ческих формах);
3) И-системы — системы с семантическим и прагматическим ана-
лизом (interlingua — язык-посредник). 7) вывод текста на ПЯ.
Первый тип систем МП (П-системы) включает лишь этапы мор- Отдельные трудности процесса МП связаны с необходимостью
фологического анализа и синтеза, поэтому результат работы таких определения анафорических связей в текстовом целом (anaphora re-
систем представляет своего рода подстрочный перевод. Во втором solution) [24, 15], снятия омонимии на разных уровнях, а также с
типе систем МП (Т-системах) привлекаются методы синтаксическо- необходимостью привлечения в процесс перевода экстралингвисти-
го анализа и синтеза, причем в зависимости от их уровня (поверх- ческих знаний [8, 116, 119].

84 85
Важность анафорических связей определяется достаточно ак- К числу наиболее распространенных в России систем МП отно-
тивным использованием в тексте языковых выражений, которые не сятся [6, 95]:
могут быть поняты без обращения к предыдущему контексту. Таки- l Stylus
— система МП, включающая множество словарей по раз-
ми выражениями выступают, к примеру, анафорические местоиме- ным предметным областям;
ния он или he. Установление того, к какому языковому выражению
l Universal Translator — многоязычная система МП;
из предыдущего текста относится анафорическое местоимение и к
какой сущности реального мира (референту) местоимение и его ан- l Socrat— система, позволяющая сканировать документы, пере-
тецедент отсылает, важно как для понимания всего текста, так и для водить их содержимое и проверять орфографию;
правильного построения синтаксического и морфологического l Polyglossum— многоязычная система МП с широким набором
представления текста. Правильная интерпретация анафорического предметных словарей;
местоимения требует привлечения данных всех языковых уровней,
l Promt — многоязычная система МП, содержащая множество сло-
выхода за рамки одного предложения и привлечения прагматиче-
ского анализа всего текста [12]. варей по разным предметным областям;
О снятии омонимии говорилось ранее, необходимость же вклю- l WebTranSite — система для перевода веб-страниц (сам процесс
чения экстралингвистической информации в процесс МП иллю- перевода веб-страниц и сообщений компьютерных программ на-
стрируется, к примеру, следующими фразами [цит. по: 8, 120]: зывается локализацией).
Председатель Центральной избирательной комиссии назнача- Сравнение и оценка систем МП осуществляется по следующим
ется президентом Российской Федерации. параметрам (Framework for the Evaluation of Machine Translation,
Согласно задумкам американских ученых, сразу после старта FEMTI) [8, 106—107]:
вражеские ракеты будут уничтожать авиационные лазеры и мо-
бильные комплексы малых противоракет. l характеристики программного обеспечения: надежность систе-
Лишь знания о соответствующих предметных областях позволя- мы, удобство использования, скорость работы, возможность об-
ют в данном случае определить типы глубинных синтаксических новлений, эффективность, мобильность и т.п.;
отношений председатель — президент (’председатель становится l характеристики пользователя и задач перевода: особенности
президентом’ или ’президент назначает председателя’) и лазеры — пользователя, автора и текста, а также назначение перевода;
ракеты (’лазеры уничтожают ракеты’ или наоборот). l особенности системы МП: стратегия построения системы, линг-
В итоге для функционирования систем МП требуется лингвисти- вистические ресурсы и т.п.;
ческое, программное и информационное обеспечение систем МП.
l специфика выходного текста: точность, целостность, стиль и т.п.,
Лингвистическим обеспечением таких систем выступают словари
слов и словосочетаний с соответствующими признаками для ИЯ и ПЯ; а также наличие ошибок любого характера.
морфологические таблицы суффиксов и окончаний для ИЯ и ПЯ; В частности, системы МП письменных текстов в значительной
базы грамматических правил и др. К программному обеспечению степени отличаются от систем перевода устной речи как по про-
относятся программы выполнения перевода, ведения словарей, фор- граммному обеспечению (в последнем случае обязательно включе-
мирования базы правил и т.д. Информационное обеспечение пред- ние в процесс МП этапов автоматического анализа и синтеза устной
ставляет база экстралингвистических знаний о предметной области речи), так и по тематике. Системы для перевода устного диалога
[6, 94—95]. обычно ориентированы на узкую тематику: резервирование мест в

86 87
гостинице, определение маршрута проезда по городу и т.д. [6, 91]. Лабораторная работа 13
Соответственно, и оценку каждой из систем МП нужно производить Машинный перевод
с учетом их названных особенностей.
1. Протестируйте работу разных систем МП, размещенных в Интернете
Итак, машинный перевод, представляющий собой процесс переда- (www.translate.ru от компании Promt и http://translate.google.ru от Google).
чи содержания текста на одном языке средствами другого языка с ис- Для этого выполните автоматический перевод одного и того же текста
пользованием компьютеров, является одним из первых и не теряющих (объем — 1—2 абзаца, ИЯ — русский, ПЯ — на ваш выбор, тематика —
своей актуальности направлений компьютерной лингвистики. Процесс общая). Введите получившийся результат в таблицу.
машинного перевода может предполагать разную степень активности Перевод 1, Перевод 2,
Исходный текст
человека в его выполнении, что обусловливает многообразие его форм, www.translate.ru http://translate.google.ru
выбор которых зависит от целей перевода и его условий.
2. Охарактеризуйте протестированные онлайн-переводчики по следующим
Вопросы для обсуждения параметрам:
1. Исследователи считают, что причины появления и развития идеи МП ле- Критерий Перевод 1 Перевод 2
жат в технической, политической и социальной областях. Поясните каж-
Затраты времени на выполнение перевода
дую из причин.
Необходимость специальной подготовки пользова-
2. Как вы можете объяснить связь процесса машинного перевода и дешиф-
теля (компьютерные, языковые знания и т.п.)
ровки текстов?
Качество перевода (целостность текста, стилисти-
3. Охарактеризуйте этапы развития МП. Какую роль в развитии идеи МП ческая однородность, наличие ошибок и т.п.)
сыграл американский ученый У. Уивер?
Необходимость постредактирования
4. Какую роль человек может играть в процессе машинного перевода? Что
такое предредактирование и постредактирование? 3. Отредактируйте один из вариантов перевода (Перевод 1 или Перевод 2).
5. В чем, на ваш взгляд, заключается будущее МП? Проанализируйте объем своей работы и заполните таблицу, характеризу-
ющую редактирование. При необходимости дополните таблицу собствен-
ными параметрами.
Рекомендуемая литература
Тип редактирования Частота
1. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд. Лексические замены переводов отдельных слов
М.: ЛКИ, 2007. С. 168—173.
Удаление вариантов переводов
2. Беляева Л.Н. Лингвистические автоматы в современных гуманитарных
технологиях: учеб. пособие. СПб.: Книжный Дом, 2007. С. 102—132. Лексические замены переводов словосочетаний

3. Всеволодова А.В. Компьютерная обработка лингвистических данных: учеб. Исправление неверного согласования
пособие. 2-е изд., испр. М.: Флинта: Наука, 2007. С. 53—63. Исправление неверного управления
4. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: учеб. Вставка дополнительных слов
пособие. М.: Академия, 2004. С. 75—81, 108—109. Вставка дополнительных словосочетаний
5. Овчинникова И.Г., Угланова И.А. Компьютерное моделирование вербаль- Удаление лишних слов
ной коммуникации: учебно-метод. пособие. М.: Флинта: Наука, 2009.
С. 80—91. Изменение структуры предложения

88 89
Прокомментируйте получившиеся результаты: какой вид редакторских ра- 3.5. Компьютерное обучение языкам
бот востребован чаще всего, какой является самым сложным?
4. Сравните результаты перевода текстов разной функциональной принад- Информатизация образования и связанные с этим измене-
лежности (темы), выполненного в онлайн-переводчике www.translate.ru. ния в обучении языкам. Понятие компьютерного обучения
Для этого наберите или скопируйте предлагаемые ниже фрагменты тек- языкам. Классификация электронных средств обучения. Дис-
стов в окно ввода, выберите в верхнем меню соответствующую тему, язы- танционное обучение. Сетевые ресурсы в обучении языкам.
ки перевода (английский → русский) и нажмите «Перевести». Проком-
ментируйте, какие недостатки содержит результат перевода, внеся ваши Одной из важных практических областей применения компью-
комментарии в таблицу. теров в лингвистике является компьютерное обучение языкам (Com-
1) Техника: Компьютеры puter Assisted Language Learning, CALL). Компьютеризация и ин-
Despite big changes in technology over the past couple of decades, IT форматизация являются характерными особенностями современного
departments and the duties of their staff have stayed pretty consistent. The обучения в целом, поскольку применение современных информаци-
classic model involves helpdesk agents, desktop support staff, systems and онно-коммуникационных технологий в обучении позволяет сделать
network administrators, DBAs and developers, and managers at various его более эффективным, повысить мотивацию обучающихся и со-
levels reporting to a CIO or technology director. кратить затраты человеческого труда. Кроме того, применение ком-
(Faas R. How Mobile, BYOD and Younger Workers Are Reinventing пьютеров в полной мере соответствует другим современным тен-
IT // PC World. 24.02.2012. www.pcworld.com). денциям образования: его деятельностному и личностно-ориентиро-
2) Бизнес ванному характеру.
In the early days of starting a business, you might be tempted to gloss При этом обучению иностранным языкам (ИЯ) с помощью ком-
over ownership structure, equity stakes, and other seemingly boring details. пьютера отводится особая роль, так как изучение языка представля-
After all, you might think, as long as you keep taxes low, paperwork uncom- ет собой процесс, использующий весь спектр человеческих возмож-
plicated, and partners motivated, better to deal with the big stuff first. But
ностей познания [34, 38].
these decisions can have a significant cost down the road, particularly for
entrepreneurs who seek outside investors. Вопросы использования компьютеров в обучении рассматрива-
ются с 1950-х годов, т.е. практически с начала промышленного про-
(Mehta M. Structuring a Business with Investors in Mind // BusinessWeek.
22.02.2012. www.businessweek.com) изводства компьютеров [38, 3]. За более чем полувековой период
компьютерное обучение претерпело значительные изменения, кото-
3) Прочее: Здоровье
рые определялись господствующим методом обучения и уровнем
Data from more than 250,000 men and women in 18 cohort studies развития компьютерной техники. Так в развитии компьютерных об-
were used to calculate the lifetime risk of cardiovascular events, stratified
according to risk-factor burden, with adjustment for the competing risk of учающих средств выделяют два главных этапа:
death from noncardiovascular causes. 1) бихевиористический: на этом этапе обучающие программы были
(Berry J.D. et al. Lifetime Risks of Cardiovascular Disease // The New построены по формуле «стимул — реакция», обучающемуся от-
England Journal of Medicine. 26.01.2012 www.nejm.org) водилась пассивная роль объекта обучения, а программы выпол-
Тема Комментарии няли функцию тренажеров;
1. Компьютеры 2) когнитивно-интеллектуальный: программы ориентированы на
обучающегося, дают ему свободу выбора уровня и типа дей-
2. Бизнес
ствий, активизируя тем самым его познавательные функции [20,
3. Здоровье 111; 34, 38—39].

90 91
В настоящее время компьютерное обучение ИЯ представляет со- буют привлечения компьютера в помощь преподавателю, а удовлет-
бой отдельную область знаний и практических действий, нацелен- ворение индивидуальных потребностей в образовании — использо-
ных на использование компьютеров в обучении и изучении языков вания компьютеров в качестве преподавателей или источников и
[56, 1], имеющую свою методику, программные средства, цели и за- «оценивателей» знаний.
дачи. Возможности использования компьютеров простираются от Во всех случаях используются разнообразные электронные об-
традиционных программ-тренажеров до современных виртуальных учающие средства [34, 18—31; 60, 190—196; 61]:
обучающих сред, мультимедийных программ и применения различ- l компьютерные учебники;
ных форм общения и хранения информации в Интернете, в частно-
сти электронной почты, корпусов и конкордансов, подкастов и т.п., l тестирующие программы;
с дидактическими целями. l тренажерные программы;
Особенностью компьютерного обучения языкам является то, что l учебные игры;
это обучение опирается на определенный теоретический метод
(бихевиористский, коммуникативный, когнитивно-интеллекуталь- l компьютерные справочники и энциклопедии и др.
ный и т.п.), а кроме того, носит междисциплинарный характер: в Компьютерный учебник — это программно-методический ком-
наши дни проблемы компьютерного обучения языкам решаются со- плекс, позволяющий самостоятельно освоить учебный курс или его
вместными усилиями психологов, методистов, программистов, веб- большой раздел. Он объединяет в себе свойства обычного учебника,
дизайнеров и лингвистов. В таком междисциплинарном сотрудни- справочника, задачника и лабораторного практикума и представляет
честве возникают новые оригинальные подходы к компьютерному собой не альтернативу, а дополнение к традиционным формам обу-
обучению. В частности, заимствование идей и методов из сферы чения.
искусственного интеллекта породило новое направление в компью- Тестирующая программа — это компьютерная программа, пред-
терном обучении языкам — ICALL (Intelligent Computer Assisted Lan- лагающая пользователю вопрос и несколько вариантов ответов на
guage Learning) [34, 39; 58]. него. Основная задача такой программы — проверка знаний пользо-
Компьютеры могут использоваться в обучении языкам различ- вателя. Наиболее простые тесты имеют фиксированное количество
ным образом: стандартных вопросов и неизменную систему оценки полученных
1) компьютер — помощник преподавателя (использование компью- ответов.
тера преподавателем на отдельных этапах традиционного занятия); Тренажерная программа — программа формирования автомати-
2) компьютер — преподаватель (индивидуальное обучение цело- ческого навыка выполнения определенных коммуникативных дей-
му учебному курсу по заданному жесткому сценарию); ствий путем многочисленных повторов таких действий. Примерами
программ такого типа служит обучение быстрому набору текста на
3) компьютер — источник и «оцениватель» знаний (групповое и ин- клавиатуре методом слепой печати, упражнения на употребление
дивидуальное обучение в рамках дистанционного обучения язы- правильных форм глагола и т.д.
кам, при котором обучающийся сам обращается к компьютеру Учебные игры — это компьютерные программы, имеющие игро-
как к носителю необходимой информации и «оценивателю» при- вые и обучающие функции. В этом случае учащиеся активно вовлека-
обретенных знаний) [20, 138—139]. ются не только в процесс получения, но и использования знаний, вы-
Очевидно, что у каждого способа компьютерного обучения есть полняя какую-либо фиктивную роль. Например, создана учебная игра
свои целевые группы и условия: обязательные для изучения курсы тре- по интерактивному освоению ландтага немецкой федеральной земли

92 93
Нижняя Саксония. Каждый участник такой игры становится вирту- чение — это форма организации учебного процесса, основывающа-
альным экскурсантом по ландтагу и после получения информации об яся на принципе самостоятельного получения знаний, предполагаю-
определенной части этого законодательного органа, успешно выпол- щая телекоммуникационный принцип доставки учебного материала
нив тестовые задания, может переходить на другой этаж здания. и интерактивное взаимодействие обучающихся и преподавателей в
Учебные игры можно применять с различными целями: процессе обучения и при оценке знаний [20, 142—143].
l для мотивации учащихся в получении новых знаний, Дистанционное обучение обычно предполагает регистрацию (за-
пись на курс), позволяющую организовать обратную связь с обуча-
l для отдыха, развлечения, снятия напряжения на уроке, ющимся, предоставление обучающемуся учебных материалов раз-
l для активизации интереса учащихся, ного рода (текст, иллюстрации, видео, задания и т.д.) и выполнение
l для активизации познавательной самостоятельности, тестовых заданий, позволяющих оценить уровень знаний обучаю-
щегося. Нередко обучающийся может получать консультации пре-
l для отработки умений учащихся, как тренажер. подавателя курса в чате или по электронной почте.
Компьютерные справочники и энциклопедии — программы, При организации дистанционного курса особую роль играет его
предназначенные только для представления учебного материала. рациональное построение: выделение отдельных тем, отбор теоре-
Обычно они содержат очень большой объем информации, что тре- тического материала, заданий и упражнений для каждой темы, гиб-
бует обязательного использования автоматического поиска. Еще кая система тестовых заданий.
одной отличительной особенностью данного вида электронных об- Огромным по важности разделом современного компьютерного
учающих ресурсов является мультимедийный характер представля- обучения языкам становится использование различных веб-ресурсов
емой в них информации и ее гипертекстовая организация. (электронных писем, веблогов, подкастов, совместных вики-проек-
Обучающие компьютерные ресурсы могут предлагаться уже го- тов и т.п.) с дидактическими целями. В целом веб-ресурс можно по-
товыми или создаваться самими преподавателями с помощью заго- нимать как электронный документ, содержащий информацию раз-
товок несложных компьютерных упражнений. Примерами ресурсов личного рода (вербальную, графическую, табличную, звуковую,
первого типа выступают, в частности, следующие мультимедийные графическую, видеофайлы, анимацию и компьютерные программы),
обучающие программы: доступную через веб-страницы, размещенные во Всемирной паути-
l Профессор Хиггинс. Английский без акцента: мультимедийное не [38, 340].
учебное пособие по английской фонетике и грамматике (www. Несомненно, что такие свойства веб-ресурсов, как доступность,
istrasoft.ru/higgins/htm); обширность, глобальность и аутентичность делают их удобным ис-
точником учебного материала для обучения языкам. В то же время
l Bridgeto English: программа по обучению английской лексике и очевидно, что веб-ресурсы могут быть весьма разными, а их количе-
грамматике для взрослых (www.intense.ru). ство во Всемирной паутине растет в геометрической прогрессии. В
Программной оболочкой, позволяющей составлять несложные этих условиях при желании использовать веб-ресурсы с целью об-
упражнения в виде кроссвордов, предложений с пропущенными учения языкам очень важным становятся принципы их отбора и за-
словами, текстов с перемешанными предложениями и т.д. является, дания для обучающихся, направленные на поиск необходимой учеб-
к примеру, программа Hot Potatoes (http://hotpot.uvic.ca). ной информации во Всемирной паутине. Примерами заданий такого
Электронные обучающие ресурсы разного рода составляют ос- типа являются, в частности, веб-квесты, понимаемые как сценарии
нову современного дистанционного обучения. Дистанционное обу- организации проектной деятельности учащихся по любой теме с ис-

94 95
пользованием сети Интернет [44, 97]. Темы веб-квестов, используе- 2. Потапова Р.К. Новые информационные технологии и лингвистика. Изд. 2.
мых при обучении иностранному языку, могут быть самыми разны- М.: Эдиториал УРСС, 2004. С. 18—42, 117—118.
ми: My career [14, 98—101], Extreme Sports1, Джордж Гордон Байрон2. 3. Хроленко А.Т., Денисов А.В. Современные информационные технологии
Веб-квесты относятся к такому типу веб-ресурсов, который по- для гуманитария: практ. руководство. М.: Флинта: Наука, 2007. С. 10—30,
64—100.
лучил название Веб 2.0 (социальная сеть). К Веб 2.0 относятся со-
циальные сервисы и службы Всемирной паутины, позволяющие
широкому кругу людей быть не только получателями информации, Лабораторная работа 14
но и ее создателями и соавторами [44, 26—31]. Компьютерное обучение языкам1
В заключение раздела констатируем, что компьютерное обуче-
ние языкам — это весьма перспективное направление современной 1. Перейдите по ссылкам:
лингводидактики. При этом не следует рассматривать компьютер- l www.cambridge.org/us/esl/students/?site_locale=en_US#
ные обучающие ресурсы как замену преподавателя, а считать их l http://www.arcademicskillbuilders.com (Language Arts)
способом расширения традиционного занятия для организации и Ознакомьтесь с приложениями для изучения английского языка Connect
выполнения рутинной работы, развития навыков обучающихся пу- Arcade, Skychase, Furious Frogs, Spelling Bees. Определите вид мультиме-
тем тренировки, повышения активности обучающихся и создания дийной программы и теоретический подход, использованный при ее созда-
возможностей для самообразования. нии. Заполните таблицу.
Программа Вид Подход Обоснование
Вопросы для обсуждения Connect Arcade
Skychase
1. Охарактеризуйте бихевиористский и когнитивно-интеллектуальный под-
ходы в компьютерном обучении языкам. Furious Frogs
2. В чем заключаются преимущества и недостатки использования компью- Verb Viper
терных обучающих ресурсов?
2. Перейдите на сайт Интернет-Университета Информационных Технологий
3. Опишите этапы создания мультимедийных обучающих программ. по ссылке www.intuit.ru. Зарегистрируйтесь на сайте, выберите один из
4. Назовите параметры классификации мультимедийных обучающих про- бесплатных дистанционных курсов и запишитесь на него. Изучив инфор-
грамм. мацию о курсе, заполните таблицу.

5. В чем заключаются преимущества и недостатки дистанционного обучения? Название курса Автор курса Цель Уровень Кол-во часов
6. Кратко охарактеризуйте следующие виды веб-ресурсов: образовательные
порталы, электронные библиотеки, журналы в электронной версии.
3. Просмотрите выборочно несколько модулей курса. Заполните таблицу.
Параметр Описание
Рекомендуемая литература
Составляющие курса (вид: урок, тема или др., количество, примеры)
1. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: учеб. Возможные трудности
пособие. М.: Академия, 2004. С. 110—114, 138—145.
Подтверждение (сертификат, свидетельство, диплом)
1
www.longwood.k12.ny.us/wmi/wq/werner2/index.htm
2
www.spodon.ru/quest/biron/index.html 1
Задания лабораторной работы разработаны совместно с А.А. Кобелевым.

96 97
4. Какие из перечисленных веб-ресурсов не являются порталами: Последний вид поиска является наиболее точным, но и наиболее
Ресурс Да/нет Обоснование трудоемким, требующим больше всего времени и усилий.
Организация поиска предполагает следующие составляющие и
www.all-abc.ru
этапы:
www.gramota.ru
1) множество документов (текстов или их фрагментов), по которым
http://pearsonpte.com
следует производить поиск;
http://deutsche-sprache.ru
2) коммуникативная потребность в информации, выражающаяся в
www.english.language.ru
информационном запросе пользователя;
5. Найдите с помощью различных поисковых систем и укажите в таблице по
два примера русскоязычных и иноязычных интернет-ресурсов (на англий- 3) удовлетворение коммуникативной потребности, состоящее в вы-
ском, русском или французском языке). боре той части текстов исходного массива, которая соответству-
ет информационному запросу [4, 197].
Вид ресурса Русский язык Иностр. язык
Упорядоченная совокупность документов и информационных
Электронная библиотека технологий, предназначенных для хранения и поиска информации,
представленной в виде текстов или их частей (фактов), получила
Электронный журнал название информационно-поисковой системы (ИПС) [19, 3].
Для экономии усилий человека с 1950-х годов осуществляются
попытки создания автоматизированных ИПС. При этом в первых
ИПС анализ и описание содержания документов (индексирование)
3.6. Информационно-поисковые системы выполнялись вручную, а поиски по этим документам проводились
автоматически [19, 8].
Понятие информационно-поисковой системы. Виды по- Сегодня с развитием компьютерной техники и созданием высо-
исковых средств в Интернете. Характеристика поисковой си- коскоростных телекоммуникационных сетей в деле автоматизации
стемы Интернета. Информационно-поисковый язык.
поиска достигнуты значительные успехи, кратко и емко выразивши-
В современном мире, который буквально пронизан постоянно еся в знаменитой формуле Б. Гейтса «информация на кончиках паль-
нарастающими объемами информации, для человека, использующе- цев» (information at your fingertips) [цит. по: 10, 16]. Данное выраже-
го эту информацию с целью ее превращения в знания, встает про- ние можно понимать таким образом: информация всегда находится
блема ориентации. Чтобы не захлебнуться в информационном по- в распоряжении человека, нужно лишь сделать несколько нажатий
токе, нам нужны техники отбора, фильтрации и оценки [10, 18]. клавиш, чтобы получить доступ к ней.
Традиционными способами фильтрации и отбора информации Так, для поиска информации в Интернете служат различные клас-
человеком являются: сы поисковых средств [6, 71]:
l поиск «сверху» (по оглавлению); l каталоги (directories);
l поиск «снизу» (с помощью различных указателей); l подборки ссылок (bookmarks);
l поиск с помощью гипертекстовых связей (перекрестных ссылок); l поисковые машины (search engines);
l полнотекстовый поиск путем просмотра всего текста [6, 70]. l базы данных адресов электронной почты и т.д.

98 99
Каждый вид поискового средства имеет свои особенности, так, l MSN (http://search.msn.com);
если человек имеет недостаточно точное представление о цели поис- l Google (www.google.ru);
ка, ему целесообразнее использовать каталоги веб-ресурсов. Приме-
l Яndех (www.yandex.ru);
нение поисковых машин эффективно, если пользователь представля-
ет, какие ключевые слова характеризуют нужные ему ресурсы. l Rambler (www.rambler.ru);
Каталог веб-ресурсов — это постоянно обновляемая и пополня- l Апорт (www.aport.ru).
емая система ссылок на ресурсы, распределенные по иерархической
структуре категорий. На верхнем уровне каталога представлены са- Рассмотрим, как осуществляется поиск в поисковой системе.
мые общие категории (рубрики), например «наука», «бизнес», «раз- Пользователь вводит свой поисковый запрос в специальную строку.
влечения» и т.д. На нижележащих уровнях рубрики имеют более Этот запрос, сформулированный на естественном языке, программой
частный характер [6, 71]. Например, рубрика «наука» может делить- поиска преобразуется в информационно-поисковый язык (ИПЯ) —
ся на категории «точные науки», «естественные науки» и «гумани- формальный язык, предназначенный для описания содержания до-
тарные науки», последние — на философию, социологию, психоло- кументов, хранящихся в ИПС, и запроса [4, 201]. Информационно-
гию, педагогику и т.д. Русскоязычный каталог сайтов можно найти, поисковые языки представляют собой знаковые системы со своим
алфавитом, лексикой, грамматикой и правилами пользования. О
например, по адресу www.ru.
специфике ИПЯ каждой поисковой системы, особенно о его «син-
Коллекция ссылок представляет собой еще один способ органи-
таксисе» (т.е. о правилах сочетания ключевых слов, вводимых в
зации информации во Всемирной паутине. Такая коллекция обычно
строку поиска) можно узнать на отдельных вкладках соответствую-
составляется специалистом в определенной теме, постоянно обнов-
щей поисковой системы. Например, в Яндекс такая вкладка называ-
ляется и не содержит ненужной информации. Печатный аналог та-
ется «Помощь — Как искать».
кой коллекции ссылок по использованию информационных техно-
Процедура описания документа на ИПЯ называется индексиро-
логий в лингвистике можно найти после библиографического спи-
ванием. В результате индексирования каждому документу приписы-
ска в нашем пособии. Некоторые примеры коллекций ссылок по
вается его формальное описание — поисковый образ документа.
обучению английскому языку приводит С.В. Титова [45, 27—28]. Аналогичным образом индексируется и запрос, которому приписы-
Поисковые машины (или поисковые системы) — это специаль- вается поисковый образ запроса или поисковое предписание. Алго-
ные веб-страницы, позволяющие находить веб-ресурсы, текстовое ритмы информационного поиска основаны на сравнении поисково-
содержание которых соответствует запросу пользователя. В Между- го предписания с поисковым образом запроса [4, 201].
народном каталоге поисковых машин (www.searchenginecolossus. Степень соответствия документа запросу задается категорией
com) зарегистрировано свыше 2300 поисковых систем из 232 стран. релевантности. При этом в процессе информационного поиска
По данным этого каталога, каждый день выполняется до 450 млн можно получить в выдаче значительный информационный шум —
поисковых запросов [6, 72; 38, 364]. множество документов, формально релевантных, но не являющихся
К наиболее известным поисковым машинам относятся [6, 72—73]: релевантными по смыслу [4, 197—198].
l AltaVista (www.altavista.com); Чтобы получить меньше информационного шума, пользователю
l Excite (www.excite.com); следует уточнять свой запрос, используя для этого дополнительные
настройки поисковой системы. Так, в Google, нажав вкладку «Рас-
l Yahoo! (www.yahoo.com); ширенный поиск», можно задать поиск целых словосочетаний (а не
l AOL (http://search.aol.com); отдельных составляющих их слов), ограничить язык выдачи, дату

100 101
создания документа, часть документа, в которой используется сло- Рекомендуемая литература
во, формат документа и т.д. Такие манипуляции увеличивают веро- 1. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. М.: Эди-
ятность нахождения нужной информации уже в самом начале вы- ториал УРСС, 2001. С. 197—207.
даваемого списка. 2. Захаров В.П. Информационно-поисковые системы: учеб.-метод. пособие.
Результаты поиска могут характеризоваться с двух точек зрения: СПб., 2005. С. 3—18.
полноты и точности. Полнотой поиска (англ. Recall) называется мера, 3. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: учеб.
вычисляемая как отношение количества выданных релевантных до- пособие. М.: Академия, 2004. С. 183—185.
кументов к общему числу релевантных документов, содержащихся
в информационном массиве. Точность поиска (англ. Precision) —
это отношение количества выданных релевантных документов к Лабораторная работа 15
общему числу документов в выдаче [19, 8]. Информационный поиск в Интернете
Составить представление о полноте и точности поиска можно, 1. Ознакомьтесь с информационно-поисковым языком двух поисковых си-
сравнивая выдачи разных поисковых систем. При четком определе- стем: Google и Рамблер, которые вы можете найти по ссылкам www.google.
нии ключевых слов запроса и их синтаксической связи значения ru/intl/ru/help/refinesearch.html и http://help.rambler.ru/project.html?s=search
полноты и точности поиска будут стремиться к единице, т.е. к ми- 2. Используя сведения об особенностях ИПЯ каждой поисковой системы,
нимуму релевантных документов, что облегчает выбор человеком сформулируйте запрос, по которому вы сможете найти информацию, где и
когда появился термин «лингвистика». Сравните информационно-поис-
нужного результата поиска. ковые системы по качеству поиска.
Итак, информация не просто дается человеку «на кончиках паль-
цев», а предполагает сложные и трудоемкие процессы сортировки и Параметр Google Рамблер
отбора. С этими задачами в значительной степени помогают спра- Запрос
виться современные автоматические информационно-поисковые Документ, отвечающий результатам запроса (url)
системы, в частности поисковые системы Всемирной паутины.
Номер этого документа в списке результатов
Инф. шум (количество нерелевантных ссылок)
Вопросы для обсуждения
Полнота (в Рунете всего 4 источника)
1. Что такое формальная и смысловая релевантность поиска? Как различие
этих понятий отражается на результатах поиска? Точность

2. Как вы понимаете пертинентность? Какие способы снижения пертинент- Выводы (результаты какой ИПС были более полны-
ности вы можете предложить? ми и точными, где было меньше информационного
шума, синтаксис какой ИПС более комплексный,
3. Охарактеризуйте два основных типа информационно-поисковых систем: простой, удобный):
документальные и фактографические.
3. Изучите информацию по использованию языка запросов в Яндексе (www.
4. В чем состоят различия информационно-поисковых систем с ручным и ав- yandex.ru/info/syntax.html). Примените полученную информацию, приняв
томатическим индексированием? Приведите примеры систем обоих типов. участие в Яндекс-Кубке (kubok.yandex.ru). Внесите результаты своей поис-
5. Что такое общий и специализированный каталог веб-ресурсов? Приведите ковой деятельности в таблицу.
примеры каталогов обоих типов.
Вопрос Время, потраченное на выполнение поиска Ответ (url)
6. Что такое фасетная классификация? Приведите примеры фасетов при опи-
сании одного документа.

102 103
заключение Библиография

В соответствии с целью нашего пособия — дать краткий обзор


основным возможностям использования информационных техноло-
Список использованной научной литературы
гий в лингвистике — мы не можем представить все многообразие
этих возможностей, выделяемых в компьютерной лингвистике, ком- 1. Автоматическая обработка текстов на естественном языке и компьютерная
пьютерной лингводидактике и других областях. Наряду с рассмо- лингвистика: учеб. пособие. М.: МИЭМ, 2011.
тренными здесь способами использования компьютеров (автомати- 2. Алексеев В. Услышь меня, машина // Компьютерра. 1997. № 49. http://offline.
ческий анализ и синтез устной речи, автоматический ввод текста, computerra.ru/1997/226/938 (дата обращения: 28.02.2012).
автоматический анализ текста, использование корпусов текстов,
3. Апресян Ю.Д. Идеи и методы современной структурной лингвистики. М.:
компьютерное обучение языкам и т.д.) существуют и другие обла- Просвещение, 1966.
сти пересечения лингвистики и информатики: извлечение знаний из
4. Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд.
текста, автоматическое индексирование и рубрицирование докумен- М.: ЛКИ, 2007.
тов, гипертекстовые технологии в лингвистике и многое другое.
5. Баранов А.Н., Караулов Ю.Н. Русская политическая метафора: материалы
Кроме того, можно расширять и углублять каждый раздел, по- к словарю. М.: ИРЯ, 1991.
скольку по каждой теме опубликовано достаточно значительное ко-
6. Башмаков И.А, Башмаков А.И. Интеллектуальные информационные си-
личество научных и учебных работ, предлагаются веб-ресурсы и
стемы. М.: МГТУ им. Н.Э. Баумана, 2005.
программные разработки.
Надеемся, что это пособие послужит первой ступенькой в осво- 7. Белоногов Г.Г. Компьютерная лингвистика и перспективные информаци-
онные технологии. М.: Русский мир, 2004.
ении сложных, но интересных и перспективных вопросов использо-
вания информационных технологий в лингвистике и ее прикладных 8. Беляева Л.Н. Лингвистические автоматы в современных гуманитарных
технологиях: учеб. пособие. СПб.: Книжный Дом, 2007.
областях, и за вводным учебным курсом «Информационные техно-
логии в лингвистике» последуют курсы специализации по автомати- 9. Березин Ф.М., Головин Б.Н. Общее языкознание. М.: Просвещение, 1979.
ческому анализу текста, машинному переводу или компьютерному 10. Больц Н. Азбука медиа / пер. с нем. Л. Ионина, А. Черных. М.: Европа, 2011.
обучению языкам. 11. Большакова Е.И. Компьютерная лингвистика: методы, ресурсы, приложе-
ния // Автоматическая обработка текстов на естественном языке и компью-
терная лингвистика: учеб. пособие. М.: МИЭМ, 2011. С. 90—105.
12. Бонч-Осмоловская А.А., Толдова С.Ю. Разрешение анафоры // Фонд зна-
ний «Ломоносов». М., 2011. www.lomonosov-fund.ru/enc/ru/encyclopedia:
0127469:article (дата обращения: 28.02.2012).
13. БЭС — Большой энциклопедический словарь. Языкознание. М.: Большая
Российская энциклопедия, 1998.
14. Воробьева Е.И. Информатизация иноязычного образования: основные на-
правления и перспективы. Архангельск: Поморский университет, 2011.

104 105
15. Всеволодова А.В. Компьютерная обработка лингвистических данных: учеб. нологии и письменное наследие: материалы международной научной кон-
пособие для студ., аспир., препод.-филологов. 2-е изд., испр. М.: Флинта: ференции (Уфа, 28—31 октября 2010 г.) / отв. ред. В.А. Баранов. Уфа;
Наука, 2007. Ижевск: Вагант, 2010. С. 167—171.
16. Гейн А.Г., Сенокосов А.И. Справочник по информатике для школьников. 33. Основы теории коммуникации: учебник / под ред. М.А. Василика. М.: Гар-
Екатеринбург: У-Фактория, 2003. дарики, 2007.
17. Егоров А. Слово за слово // Домашний компьютер. 2007. № 9. http://offline. 34. Потапова Р.К. Новые информационные технологии и лингвистика: учеб.
homepc.ru/2007/135/334406 (дата обращения: 28.02.2012). пособие. 2-е изд. М.: Едиториал УРСС, 2004.
18. Захаров В.П. Корпусная лингвистика: учеб.-метод. пособие. СПб.: СПбГУ, 35. Потапова Р.К. Речевое управление роботом: лингвистика и современные
2005а. автоматизированные системы. М., 2005.
19. Захаров В.П. Информационно-поисковые системы: учеб.-метод. пособие. 36. Прикладное языкознание: учебник / отв. ред. А.С. Герд. СПб.: СПбГУ, 1996.
СПб.: СПбГУ, 2005б. 37. Рождественский Ю.В. Лекции по общему языкознанию. М.: Высшая шко-
20. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: учеб. ла, 1990.
пособие. М.: Академия, 2004. 38. Розина И.Н. Педагогическая компьютерно-опосредованная коммуникация:
21. Клышинский Э.С. Начальные этапы анализа текста // Автоматическая об- теория и практика. М.: Логос, 2005.
работка текстов на естественном языке и компьютерная лингвистика: учеб. 39. Русский ассоциативный словарь / Ю.Н. Караулов, Ю.А. Сорокин, Е.Ф. Та-
пособие. М.: МИЭМ, 2011. С. 106—140. расов. Кн. 5: Прямой словарь: от стимула к реакции. М.: ИРЯ РАН, 1998.
22. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ре- 40. Селегей В. Электронные словари и компьютерная лексикография // Ассо-
сурсы. М.: Академия, 2006. циация лексикографов Lingvo. www.lingvoda.ru/transforum/articles/selegey_
23. Марчук Ю.Н. Проблемы машинного перевода. М.: Наука, 1983. a1.asp (дата обращения: 28.02.2012).
24. Марчук Ю.Н. Автоматический перевод // Большой энциклопедический сло- 41. Семенов А.Л. Современные информационные технологии и перевод. М.:
варь. Языкознание. М.: Большая Российская энциклопедия, 1998. С. 15. Академия, 2008.
25. Марчук Ю.Н. Компьютерная лингвистика: учеб. пособие. М.: АСТ Вос- 42. Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик сня-
ток—Запад, 2007. тия лексической и морфологической неоднозначности для русского языка
(скрытая модель Маркова и синтаксический анализатор именных групп).
26. Марчук Ю.Н. Модели перевода. М.: Академия, 2010.
М., 2005. www.aot.ru/docs/RusCorporaHMM.htm (дата обращения: 28.02.2012).
27. Мельчук И.А. Автоматический синтез // Большая советская энциклопедия.
43. Степанов А.Н. Информатика: учеб. пособие. СПб.: Питер, 2006.
М.: Советская энциклопедия. 1969—1978. http://dic.academic.ru/dic.nsf/
bse/61319/Автоматический (дата обращения: 28.02.2012). 44. Сысоев П.В., Евстигнеев М.Н. Методика обучения иностранному языку с
использованием новых информационно-коммуникационных Интернет
28. Мечковская Н.Б. История языка и история коммуникации: от клинописи до
технологий: учеб.-метод. пособие. М.: Глосса-Пресс; Ростов н/Д: Феникс,
Интернета: курс лекций по общему языкознанию. М.: Флинта: Наука, 2009. 2009.
29. Мыркин В.Я. Введение в языкознание. Архангельск: Поморский универси- 45. Титова С.В. Ресурсы и службы Интернета в преподавании иностранных
тет, 2005. языков. М.: Изд-во МГУ, 2003.
30. Овчинникова И.Г., Угланова И.А. Компьютерное моделирование вербаль- 46. Толдова С.Ю., Бонч-Осмоловская А.А. Автоматический морфологический
ной коммуникации: учеб.-метод. пособие. М.: Флинта: Наука, 2009. анализ // Фонд знаний «Ломоносов». М., 2011. www.lomonosov-fund.ru/enc/
31. Ожегов С.И. Словарь русского языка. 22-е изд., стер. М.: Русский язык, ru/encyclopedia:0127430 (дата обращения: 28.02.2012).
1990. 47. Толдова С.Ю., Архипов А.В., Логинова Е.А., Попова Д.П. Корпусная линг-
32. Орехов Б.В., Слободян Е.А. Проблемы автоматической морфологии агглю- вистика // Фонд знаний «Ломоносов». М., 2011. www.lomonosov-fund.ru/
тинативных языков и парсер башкирского языка // Информационные тех- enc/ru/encyclopedia:01210:article (дата обращения: 28.02.2012).

106 107
48. Филиппович Ю., Чернышева М. Историческая компьютерная лексикогра- 61. Warschauer M. Computer Assisted Language Learning: an Introduction //
фия — terra incognita в компьютерном мире // Компьютерра. 1999. № 45. Multimedia language teaching / ed. by S. Fotos. Tokyo: Logos International,
http://offline.computerra. ru/1999/323/ 3379 (дата обращения: 13.05.2011). 1996. Р. 3—20.
49. Фролов А.В., Фролов Г.В. Синтез и распознавание речи. Современные ре-
шения: электронный учебник. http://frolov-lib.ru/books/hi/ch00.html (дата
обращения: 28.02.2012).
Интернет-ресурсы
50. Хан У., Мани И. Системы автоматического реферирования // Открытые
системы. 2000. № 12. www.osp.ru/os/2000/12/178370 (дата обращения: 1. Диалог: Международная русскоязычная конференция по компьютерной
02.02.2012). лингвистике. http://dialog-21.ru
51. Хомский Н., Миллер Дж. Введение в формальный анализ естественных 2. Лаборатория компьютерной лингвистики Института проблем передачи ин-
языков. М.: Едиториал УРСС, 2003. формации РАН http://proling.iitp.ru/ru/node/1
52. Хроленко А.Т., Денисов А.В. Современные информационные технологии 3. Корпусная лингвистика. Машинный перевод. Прикладная лингвистика //
для гуманитария: практ. руководство для студ., аспирантов, препод.-фило- Фонд знаний «Ломоносов». http://www.lomonosov-fund.ru/enc/ru/encyclopedia:
логов. М.: Флинта: Наука, 2007. 01206:article
53. Bolshakov I.A., Gelbukh A. Computational Linguistics. Models, Resources, Ap- 4. Корпусная лингвистика: тематический сайт СПбГУ и ИЛИ РАН. СПб., 2008.
plications. México, 2004. http://corpora.iling.spb.ru
54. Huang, C., Simon, P., Hsieh, S., & Prevot, L. Rethinking Chinese Word Segmen- 5. Информационные технологии в филологии // Викиверситет. http://ru.
tation: Tokenization, Character Classification, or Word break Identification // wikiversity.org/wiki/Информационные_технологии_в_филологии
Proceedings of the Association for Computational Linguistics. Demo and Poster
Sessions. Prague, 2007. Р. 69—72. http://www.aclweb.org/anthology/P/P07/ 6. Компьютерная лингвистика: научно-образовательный портал «Лингвисти-
P07-2018.pdf (дата обращения: 28.02.2012). ка в России: ресурсы для исследователей». http://uisrussia.msu.ru/linguist/
_B_comput_ling.jsp
55. Kinnersley B. The Language List. Collected Information On About 2500 Com-
puter Languages, Past and Present. http://people.ku.edu/~nkinners/LangList/ 7. Прикладная лингвистика: портал «Единое окно доступа к образовательным
Extras/langlist.htm (дата обращения: 28.02.2012). ресурсам». http://window.edu.ru/window/ catalog?p_rubr=2.2.73.12.15
56. Levy M. CALL: context and conceptualization. Oxford: Oxford University Press, 8. Программы лингвистического анализа и обработки текста. http://asknet.ru/
1997. Analytics/programms.htm
57. Maher J. Eliza // Digital Antiquaria, Interactive Fiction. June 15, 2011. http:// 9. Речевые технологии http://speech-soft.ru/index.php
www.filfre.net/2011/06/eliza-part-1/ (дата обращения: 28.02.2012). 10. Association for Computational Linguistics. http://www.aclweb.org
58. Matthews C. Intelligent Computer Assisted Language Learning as cognitive 11. Cogprints: free software for Linguistics. University of Southampton. http://
science: the choice of syntactic frameworks for language tutoring // Journal of cogprints.org/view/subjects/ling.html
Artificial Intelligence in Education. 1994. № 5/4. P. 533—556.
12. Computational linguistics: MIT Press Journal. http://www.mitpressjournals.org/
59. Rayner M., Carter D. M., Bretan I., Eklund R., Wirén M., Hansen S.L., Kirchmeier- loi/coli
Andersen S., Philp C., Sorensen F., Erdman Thomsen H. Recycling Lingware in
a Multilingual MT System // Computation and Language. 1997. www.aclweb. 13. Computer-Assisted Language Instruction Consortium. Texas State University.
org/anthology/W/W97/W97-0910.pdf (дата обращения: 28.02.2012). http://calico.org/

60. Villiger C. Lernsoftware // Angewandte Linguistik: Ein Lehrbuch / Hrsg. von 14. GATES: free software. The University of Sheffield, 1995—2011. http://gate.ac.uk
K. Knapp, G. Antos, M. Becker-Mrotzek u.a. Tübingen; Basel: Francke Verlag, 15. Information and Communications Technology for Language Teachers (ICT4LT).
2004. S. 187—206. Slough, Thames Valley University. http://www.ict4lt.org/en/en_home.htm

108 109
16. Institut für Computerlinguistik an der Universität Heidelberg. URL: http://www. Приложения
cl.uni-heidelberg.de
17. Language Technology World http://www.lt-world.org/
18. LINGUIST List. URL: http://linguistlist.org
Приложение 1
19. Stanford Engineering Everywhere (SEE): Artificial Intelligence. Stanford Uni-
versity, 1997—2009. http://see.stanford.edu/see/courses.aspx Глоссарий
Автоматический анализ звучащей речи: преобразование звучащей речи в
печатный текст, над которым можно производить дальнейшие операции.
Автоматический синтез звучащей речи: процесс преобразования печатного
текста, существующего в цифровой форме, в звучащий текст на естествен-
ном человеческом языке.
Автоматический анализ текста: последовательное преобразование текста на
естественном человеческом языке, введенного в компьютер, в его лексем-
но-морфологические, синтаксические и семантические представления, по-
нятные компьютеру.
Автоматический синтез текста: процесс преобразования лексемно-морфоло-
гических, синтаксических и семантических представлений в текст на есте-
ственном языке.
Автоматическое рабочее место лингвиста: совокупность аппаратных, про-
граммных и лингвистических средств, необходимых для автоматической
обработки лингвистических данных.
Алгоритм: формализованное описание последовательности действий, приво-
дящей к решению поставленной задачи.
Аннотация: краткое изложение содержания документа, дающее общее пред-
ставление о его теме, т.е. в отличие от реферата выполняющее лишь сиг-
нальную функцию (есть публикация на определенную тему).
Веб 2.0 (социальная сеть): социальные сервисы и службы Всемирной паутины
(блоги, веб-квесты, вики-проекты и т.п.), позволяющие широкому кругу
людей быть не только получателями информации, но и ее создателями и
соавторами.
Веб-ресурс: электронный документ, содержащий информацию различного
рода (вербальную, графическую, табличную, звуковую, графическую, ви-
деофайлы, анимацию и компьютерные программы), доступную через веб-
страницы, размещенные во Всемирной паутине.
Дистанционное обучение: форма организации учебного процесса, основыва-
ющаяся на принципе самостоятельного получения знаний, предполагаю-
щая телекоммуникационный принцип доставки учебного материала и ин-
терактивное взаимодействие обучающихся и преподавателей.

110 111
Естественный язык: исторически сложившаяся и используемая в определен- Компьютер: электронное устройство, служащее для создания, обработки, пе-
ной этнической группе или национальном государстве знаковая система. редачи и воспроизводства информации по написанным человеком алгорит-
Информатика: наука о накоплении, обработке и передаче информации с по- мам (программам).
мощью электронных вычислительных машин. Компьютерная лексикография: раздел прикладной лингвистики, нацеленный
Информационно-поисковая система: упорядоченная совокупность докумен- на создание электронных (автоматических) словарей, лингвистических баз
тов и информационных технологий, предназначенных для хранения и по- данных и разработку программ поддержки лексикографических работ.
иска информации в виде целых текстов или отдельных упоминаемых в них Компьютерная лингвистика: область использования компьютерных инстру-
фактов. ментов — программ, технологий организации и обработки данных — для
Информационные революции: принципиальные изменения в способах фик- моделирования функционирования языка в тех или иных условиях, а также
сации и передачи информации, связанные с изобретением новых техниче- сферу применения компьютерных моделей языка в лингвистике и смеж-
ских средств. ных с ней дисциплинах.
Информационно-поисковый язык: формальный язык, предназначенный для Компьютерная терминография: наука о составлении электронных термино-
описания содержания документов, хранящихся в информационно-поис- логических словарей.
ковой системе, и запроса пользователя. Компьютерное обучение языкам (CALL): область знаний и практических дей-
Информационные технологии: компьютерные инструменты получения, хра- ствий, нацеленных на использование компьютеров в обучении и изучении
нения, передачи, распространения и преобразования информации, а также языков, имеющая свою методику, программные средства, цели и задачи.
соответствующие законы и методы. Корпус лингвистический: совокупность специально отобранных текстов,
Информационные технологии в лингвистике: компьютерные инструменты размеченных по различным лингвистическим параметрам и обеспеченных
получения, хранения, передачи, распространения и преобразования инфор- системой поиска.
мации о языке и законах его функционирования , а также соответствующие Корпусная лингвистика: раздел прикладной лингвистики, занимающийся
законы и методы. разработкой общих принципов построения и использования лингвистиче-
Информационный шум: множество документов, выдаваемых в процессе ин- ских корпусов при помощи компьютеров.
формационного поиска, формально соответствующих запросу (релевант- Лемма: словарная форма лексемы.
ных), но не являющихся релевантными по смыслу.
Лингвистика: наука о закономерностях происхождения, строения и функцио-
Информация: сведения об окружающем мире, передаваемые человеком, жи- нирования естественного человеческого языка.
выми организмами или техническими системами для регулирования свое-
го поведения в окружающей среде. Лингвистические ресурсы (lingware): грамматические справочники, словари,
энциклопедии, лингвистические базы данных и другие ресурсы, существу-
Искусственные языки: знаковые системы, искусственно создаваемые в тех ющие в цифровой форме, доступные для компьютерной обработки на ком-
областях, где применение естественных языков менее эффективно или не- пьютере пользователя или размещенные в Интернете.
возможно.
Локализация: перевод веб-страниц и компьютерных программ; в последнем
Искусственный интеллект: направление в информатике, связанное с созда- случае переводу подвергаются сообщения об ошибках, тексты меню и слу-
нием сложных человеко-машинных и робототехнических систем. жебной информации и т.д., предназначенные для человека и распределен-
Кибернетика: наука об управлении, связи и переработке информации. ные внутри компьютерных программ.
Ключевое слово: слово, относящееся к основному содержанию текста и по- Машинная основа: последовательность букв от начала словоформы, общая
вторяющееся в нем несколько раз. для всех словоформ, входящих в формообразовательную парадигму данно-
Кодирование: процесс представления информации в виде последовательности го слова, например (рус.) блок#, включ# или (англ.) buil#, earl#.
условных обозначений; сопоставление объектов и отношений между ними Машинное окончание: элемент, описывающий формоизменение конкретной
с символами или словами какого-либо языка. лексемы; машинные окончания представляются в виде парадигм.

112 113
Машинный перевод: передача содержания текста на одном языке средствами Тест Тьюринга: тест, смысл которого сводится к констатации факта создания
другого языка с использованием компьютеров. искусственного интеллекта: проблема создания искусственного интеллек-
Модель: материальный или идеальный образ некоторой совокупности пред- та решена, если большинство участников общения не смогут установить, с
метов или явлений, заменяющий реальные предметы и явления и включа- кем они беседуют — с человеком или машиной.
ющий их наиболее существенные признаки. В лингвистике модели имити- Электронный (автоматический) словарь: собрание слов и их комментариев
руют строение и функционирование языка, производство и восприятие в специальном машинном формате, предназначенное для использования
речи и текста. человеком или являющееся составной частью более сложных компьютер-
Основа: ядерная часть слова без словоизменительных морфем. ных программ (например, систем машинного перевода).

Парсер: специальная компьютерная программа для автоматического анализа Язык: знаковая система, используемая для общения в некотором социуме.
слов, морфологического или синтаксического.
Поисковая система: специальная программа, позволяющая находить веб-ресур-
сы, текстовое содержание которых соответствует запросу пользователя. Приложение 2
Прикладная лингвистика: область языкознания, связанная с разработкой ме- Темы докладов по курсу
тодов решения практических задач использования языка; отвечает на во-
прос «Как лучше использовать язык?». 1. Обзор сетевых ресурсов по корпусной лингвистике
Программа: созданный человеком алгоритм для автоматического выполнения 2. Характеристика ресурсов по компьютерной лингвистике (www.dialog-21.ru,
компьютером действий над информацией различного рода. www.computer.org)
Программа автоматического распознавания текста (OCR-программа): ком- 3. Специальные возможности программы MS Word для лингвистов (проверка
пьютерная программа, позволяющая преобразовать текст с бумажного но- правописания, рецензирование, автореферирование, использование ша-
сителя в электронный текстовый файл, который в дальнейшем может об- блонов и т.д.)
рабатываться человеком в любом текстовом редакторе. 4. Правильное использование заимствованных терминов и обозначений (пра-
Разметка (tagging, annotation): приписывание текстам и их компонентам спе- вописание, склонение, спряжение, ударение) компьютерной лингвистики
циальных меток (тэгов). 5. Особенности электронных переводческих словарей Lingvo и Multitran и их
Реферат: связный текст, который кратко выражает центральную тему, пред- отличия от онлайн-переводчиков (Google, Yandex и т.п.)
мет, цель, методы и результаты исследования; обычно составляется к на- 6. Сравнение программ переводческой памяти (TRADOS, Déjà vu и т.п.)
учно-техническим документам: научным монографиям, статьям, патентам
7. Сравнение программ автоматического перевода (ПРОМТ, Сократ и т.п.)
на изобретение и др.
8. Средства обеспечения и поддержки локализации (Multilizer, Passolo и т.п.)
Символ: знак, обозначающий некоторый предмет или явление; в информати-
ке — любой знак (буква, цифра, знак препинания, пробел и т.д.). 9. Краудсорсинг или модель «Википедии» в переводе
Система переводческой памяти (Translation Memory, TM): программа, со- 10. Сравнение мультимедийных программ по обучению иностранным языкам
храняющая переводы, сделанные ранее, и предлагающая человеку уже го- (English DeLuxe, «РЕПЕТИТОР English» и т.п.)
товый перевод фразы или фрагмента текста, если он уже был однажды 11. Технология подкастинга в обучении языкам
переведен.
12. ВебКвесты в обучении языкам
Снятие омонимии (=разрешение многозначности): выбор правильной интер-
13. Возможности электронного письма в обучении языкам
претации словоформы, допускающей несколько вариантов толкований.
14. Сетевые формы коммуникации (электронная почта, чаты, форумы) и их
Терминологические базы (банки) данных (ТБД): массивы терминов по од-
влияние на язык
ной или разным областям знания, сохраняемые в электронном виде и снаб-
женные системами автоматического поиска. 15. Ресурсы Всемирной паутины для обучения языкам

114 115
16. Сравнительный анализ составления поисковых запросов в популярных Приложение 3
русскоязычных поисковых системах (Google, Yandex, Rambler, Mail.ru, Тест для проверки знаний по курсу
Altavista, Yahoo, MSN, AOL)
Время на выполнение теста: 45 минут
Формальные требования. Работа представляется устно на семинаре (5— В каждом задании — 1 правильный ответ,
10 минут) и сдается для проверки преподавателю в электронном виде (презен- за каждый правильный ответ дается 1 балл
тация PowerPoint или документ MS Word, см. требования по форматированию
доклада в формате MS Word в лабораторной работе 3). 1. Какое из высказываний является определением прикладной лингвистики?
Обязательные элементы электронного варианта работы:
a) область языкознания, направленная на объективное установление со-
l титульный слайд (страница): ФИО выступающего, группа, дата, тема, на- стояния отдельного языка, его истории и закономерностей;
звание курса и ФИО преподавателя;
b) область языкознания, связанная с использованием компьютерных ин-
l основной текст (5—10 слайдов или 2—4 страницы шрифтом Century струментов — программ, технологий организации и обработки дан-
Schoolbook, 12, 1,5 интервал, выравнивание по ширине); страницы должны ных — для моделирования функционирования языка в тех или иных
быть пронумерованы, начиная с первой, в правом верхнем углу, но номер условиях;
на 1-й странице не ставится (поставить соответствующую галочку в пункте
меню «Формат номера страницы»); c) область языкознания, связанная с разработкой методов решения прак-
тических задач использования языка;
l выводы (несколько ключевых предложений);
d) область языкознания, связанная с применением компьютерных моде-
l список использованной научной литературы и/или сетевых ресурсов (от 2 лей языка в лингвистике и в смежных с ней дисциплинах.
до 10 наименований).
2. К направлениям компьютерной лингвистики не относится
Технология подготовки доклада. Студент готовит доклад, чтобы проде- a) компьютерная лексикография;
монстрировать умение самостоятельно подбирать литературу по заданной b) компьютерно-опосредованная коммуникация;
теме, обрабатывать ее, ясно излагать полученное содержание устно и письмен-
но. Этапы подготовки доклада: c) системы обработки естественного языка;
1) Студент выбирает тему и согласовывает с преподавателем дату будущего d) машинный перевод.
выступления. 3. Информатика — это
2) Студент самостоятельно или после консультации с преподавателем под- a) наука об управлении, связи и переработке информации;
бирает литературу по теме и необходимые Интернет-ресурсы, изучает их.
b) наука о накоплении, обработке и передаче информации с помощью
3) Студент внимательно изучает собранную литературу и обрабатывает ее: ЭВМ;
составляет конспект, выделяет ключевые идеи, пересказывает основное
содержание прочитанного, при необходимости выбирает наиболее важные c) наука о накоплении, обработке и передаче информации о строении
фрагменты для оформления цитат, сопоставляет разные мнения, оценивает языка с помощью ЭВМ;
и обобщает прочитанное. На этом этапе студентом создается собственный d) наука об использовании компьютерных инструментов для моделиро-
текст доклада, оформленный в виде документа MS Word и/или презента- вания функционирования языка в тех или иных условиях.
ции PowerPoint.
4. Разное количество информации в одном и том же сообщении для разных
4) Устное выступление: представление доклада и ответы на вопросы ауди- людей зависит не от...
тории.
a) накопленных ими знаний;
5) Окончательное оформление электронного варианта доклада с учетом за-
данных вопросов и сдача работы преподавателю. b) уровня понимания сообщения;

116 117
c) их интереса к сообщению; 10. Волапюк — это ...
d) их уровня владения компьютерной техникой. a) специализированный язык науки;
5. Следствие третьей информационной революции состоит в том, что... b) родной язык одного из малочисленных племен;
a) информация становится общедоступной; c) неспециализированный искусственный язык;
b) информацию можно автоматически обрабатывать и передавать с боль- d) система символического кодирования.
шой скоростью; 11. Какие из следующих приложений не являются текстовыми редакторами?
c) информацию можно легко найти с помощью инструментов поиска и a) MS Excel;
совместно производить;
b) Corel WordPerfect;
d) информация может накапливаться.
c) MS Works;
6. Для современного человека преобладающей является...
d) Adobe InCopy.
a) звуковая информация;
12. Microsoft Word не включает...
b) визуальная (символьная) информация;
a) функции настольных издательских систем;
c) вкусовая и тактильная информация;
b) функцию удалённого доступа;
d) визуальная (образная) информация.
c) функцию редактирования графических объектов;
7. Адекватность информации — это ... d) шаблоны типовых таблиц.
a) степень соответствия информации объективной реальности окружаю- 13. К устройствам ввода данных не относится
щего мира;
a) сканер;
b) степень соответствия информации, полученной потребителем, тому,
что автор вложил в ее содержание; b) принтер;
c) достаточность информации для принятия решения; c) клавиатура;
d) степень соответствия информации текущему моменту времени. d) цифровой фотоаппарат.

8. Машинный синтаксис — это ... 14. OCR — это ...

a) правила строения имен; a) система автоматического распознавания символов;

b) правила построения слов в более сложные структуры; b) система переводческой памяти;


c) система машинного перевода;
c) соотношение слова и его значения;
d) функция текстового процессора.
d) правила перевода письменного символа в устный.
15. Реферат — это ...
9. Естественный язык — это ...
a) связный текст, который кратко выражает тему, предмет, цель, методы
a) знаковая система, используемая человеком с момента рождения;
и результаты исследования;
b) знаковая система, используемая человеком в непринужденной обста- b) процесс составления содержания документа (книги, статьи, патента на
новке;
изобретение и др.);
c) знаковая система, созданная для естественных наук; c) краткое изложение содержания документа, дающее общее представле-
d) знаковая система, стихийно возникшая и закрепившаяся в обществе. ние о его теме;

118 119
d) краткий текст, выполняющий сигнальную функцию (информирует о 21. Требования к корпусам
том, что есть публикация на определенную тему).
a) полнота, адекватность, актуальность, компьютерная поддержка;
16. Слово, относящееся к основному содержанию текста и повторяющееся в
b) устойчивость, тиражируемость, адаптируемость, оптимальность вре-
нем несколько раз, в автоматическом реферировании называется ...
менных параметров, комфорт пользователя;
a) лейтмотивом;
c) репрезентативность, полнота, экономичность, структуризация, ком-
b) термином; пьютерная поддержка;
c) символом; d) полнота, экономичность, достоверность, структуризация, компьютер-
d) ключевым словом. ная поддержка.
17. Метод автоматического аннотирования, при котором важные слова выде- 22. Корпусный менеджер ...
ляются в заголовке, подзаголовке, начале и конце текста, называется ... a) обеспечивает сортировку результатов поиска, статистические подсче-
a) статистическим; ты, составление списков слов на основе корпуса;
b) логико-семантическим; b) это специальная программа поиска по корпусу;
c) позиционным; c) это человек, составляющий корпуса и управляющий ими;
d) функциональным. d) это специальная программа подготовки текстов к их включению в
18. Совокупность специально отобранных текстов, размеченных по различ- корпус.
ным лингвистическим параметрам и обеспеченных системой поиска, на- 23. ПОД — это ...
зывается ...
a) вид информационно-поисковой системы;
a) базой данных;
b) специальная программа поиска по корпусу;
b) словарем;
c) поисковый образ документа;
c) информационным массивом;
d) поисковая оценка данных.
d) корпусом.
24. Одна из основных проблем компьютерного анализа речи состоит в том,
19. Разметка бывает ... что ...
a) морфологической; синтаксической; семантической и просодической;
a) невозможно создать искусственный интеллект;
b) полнотекстовой и фрагментной;
b) компьютер не умеет работать со смыслом;
c) синхронической и диахронической;
c) у компьютера нет дополнительных источников информации (ситуа-
d) звуковой, письменной, смешанной. ция, контекст, прошлый опыт в данной области и т.п.);
20. УНК — это ... d) разработчики не желают делиться своими профессиональными секре-
a) корпус естественного языка, представительный по отношению ко все- тами.
му языку; 25. Электронный словарь — это ...
b) универсальный национальный код; a) введенный в компьютер бумажный словарь, снабженный средствами
c) собрание текстов, которое существует в Интернете; поиска и отображения информации;
d) собрание текстов, размеченных по различным лингвистическим пара- b) организованное собрание слов с комментариями, в которых описыва-
метрам и обеспеченных системой поиска. ются особенности структуры и/или функционирования этих слов;

120 121
c) организованное собрание слов с описанием их значения, особенностей b) элементы, описывающие формоизменение конкретной лексемы,
употребления, структурных свойств, сочетаемости, соотношения с c) совокупность наборов машинных окончаний;
лексическими системами других языков и т.д.;
d) совпадение основ разных слов.
d) словарь в специальном машинном формате, предназначенный для при-
менения на ЭВМ пользователем или компьютерной программой. 31. Требования к системам МП включают ...
26. К зонам словарной статьи не относится a) устойчивость, тиражируемость, адаптируемость, оптимальность вре-
менных параметров, комфорт пользователя;
a) лексический вход (вокабула, лемма);
b) полнота, адекватность, актуальность, достоверность;
b) зона грамматической информации;
c) репрезентативность, полнота, экономичность, адекватность, компью-
c) зона стилистических помет;
терная поддержка;
d) словник.
d) репрезентативность, полнота, экономичность, структуризация, ком-
27. Что включает в себя понятие АСПОТ? пьютерная поддержка.
a) словарь в специальном машинном формате, предназначенный для при- 32. Аббревиатура CALL относится к ...
менения на ЭВМ пользователем;
a) науке об использовании компьютерных инструментов для моделиро-
b) компьютерные версии хорошо известных словарей (Вебстер, Коллинз, вания функционирования языка в тех или иных условиях;
Ожегов...);
b) обучению иностранному языку;
c) словарь в специальном машинном формате, предназначенный для при-
менения на ЭВМ компьютерной программой; c) обучению языку с помощью компьютера;

d) словари, предназначенные для обычного пользователя. d) использованию компьютеров в обучении.


28. Что не относится к понятию термина? 33. Сущность когнитивно-интеллектуального подхода в компьютерном обуче-
нии состоит в том, что ...
a) слово (словосочетание) метаязыка науки, а также областей конкретной
практической деятельности человека; a) программы ориентированы на обучающегося, дают свободу выбора
уровня и типа действий;
b) понятие задается через свойства, реализуемые в системе;
b) программы построены по формуле стимул — реакция;
c) использование основывается не на интуиции, а на четких определе-
ниях; c) обучающемуся отводится роль объекта обучения;
d) сопоставляется, как правило, несколько значений. d) в нем используются программы-тренажеры обучению языку с помо-
щью компьютера.
29. Что не относится к процессу и понятию машинного перевода?
34. К обучающим программным средствам не относятся ...
a) междисциплинарность;
a) тестирующие программы;
b) использование машинных средств;
b) энциклопедии;
c) принципиальное сходство этапов понимания и синтеза текста;
c) программы-ассемблеры;
d) учет языковых и экстралингвистических знаний.
30. Типовая парадигма лексемы в автоматическом морфологическом анали- d) учебные игры.
зе — это ... 35. Компьютерный учебник — это ...
a) последовательность букв от начала словоформы, общая для всех сло- a) программа, предлагающая пользователю вопрос и несколько вариан-
воформ; тов ответов на него;

122 123
b) программа формирования автоматического навыка выполнения опре-
деленных коммуникативных действий путем многочисленных повторов;
c) программы, предназначенные для представления учебного материала;
d) программно-методический комплекс, позволяющий самостоятельно
освоить учебный курс или его большой раздел.
36. Что не относится к компьютерным обучающим программам?
a) заменяют преподавателя;
b) организация и выполнение рутинной работы;
c) повышение активности обучаемого;
d) создание возможностей для самообразования.
Учебное издание
Критерии оценки
32—36 баллов — отлично,
21—31 балл — хорошо,
15—20 баллов — удовлетворительно, Щипицина Лариса Юрьевна
0—14 баллов — неудовлетворительно.

Информационные технологии
Приложение 4 в лингвистике
Ключи к тесту
1 с, 2 b, 3 b, 4 d, 5 b, 6 b, 7 b, 8 a, 9 d, 10 c, 11 a, 12 b, 13 b, 14 a, 15 a, 16 d, 17 c,
Учебное пособие
18 d, 19 a, 20 a, 21 c, 22 a, 23 c, 24 b, 25 d, 26 d, 27 c, 28 d, 29 c, 30 c, 31 a, 32 c,
33 a, 34 c, 35 d, 36 a.

124 125
Подписано в печать 29.08.2012. Формат 60 × 88/16. Печать офсетная.
Усл. печ. л. 7,84. Уч.-изд. л. 5,21. Тираж 500 экз. Изд. № 2574.

ООО «Флинта», 117342, г. Москва, ул. Бутлерова, д.17-Б, комн. 324.


Тел./факс: (495)334-82-65, тел. (495)336-03-11.
E-mail: flinta@mail.ru; WebSite: www.flinta.ru.

Издательство «Наука», 117997, ГСП-7, Москва В-485,


ул. Профсоюзная, д. 90.

126 127

Вам также может понравиться