Вы находитесь на странице: 1из 38

ЛЕКЦИЯ 2

СВЯЗЬ ЛИНГВИСТИКИ И ИНФОРМАЦИОННЫХ


ТЕХНОЛОГИЙ В СОВРЕМЕННОМ МИРЕ
РАЗДЕЛ 1. ОСНОВНЫЕ ПОНЯТИЯ ЛИНГВИСТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
РЕЗЮМЕ ЛЕКЦИИ 1

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЛИНГВИСТИКЕ


– это совокупность законов, методов и средств получения, хранения, передачи, распространения,
преобразования информации о языке и законах его функционирования с помощью компьютеров

ТЕОРЕТИЧЕСКАЯ создание электронных


ЛИНГВИСТИКА словарей
ЛИНГВИСТИКА
ПРИКЛАДНАЯ КОМПЬЮТЕРНАЯ создание систем
ЛИНГВИСТИКА ЛИНГВИСТИКА машинного перевода

создание систем
автоматизированного
перевода
СОДЕРЖАНИЕ ЛЕКЦИИ:

1. Причины возникновения компьютерной лингвистики как науки.


2. Области интересов компьютерных лингвистов.
3. Будущее информационных технологий в лингвистике.
С развитием ИТ меняются концептуальные представления, технические средства, методы и
сферы применения различных технологий, а также информационная среда как таковая

Пройдя определенные эволюционные этапы и вступив в эпоху технического прогресса,


лингвистика также компьютеризировалась, как и любая другая научная область

Вырос СПРОС на КОМПЬЮТЕРНО-ГРАМОТНЫХ лингвистов,


в частности – ЛИНГВИСТОВ-ПЕРЕВОДЧИКОВ
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ПОМОГАЮТ:

 развивать теоретическую подготовку лингвистов;


 закреплять полученные знания;
 готовиться к жизни в информационном пространстве;
 достигать максимального качества в профессиональной деятельности.
СОСТАВ СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ:

 теоретические основы ИТ;


 методы решения задач с применением ИТ;
 средства решения задач, используемые в ИТ:
 аппаратные средства;
 программные средства.
АППАРАТНЫЕ СРЕДСТВА ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

устройства и приборы,
образующие устройства ЛИНГВИСТУ-
аппаратную ввода-вывода данных ПЕРЕВОДЧИКУ:
конфигурацию ЭВМ

устройства для
устройства для
ввода-вывода
ввода-вывода текста
звучащей речи
ПРОВЕРИМ СЕБЯ

 К устройствам ввода данных не относится:


 сканер;
 принтер;
 клавиатура;
 цифровой фотоаппарат.
ПРОВЕРИМ СЕБЯ

 К устройствам ввода данных не относится принтер.


ПРОГРАММНЫЕ СРЕДСТВА ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

СИСТЕМНОЕ ИНСТРУМЕНТАЛЬНОЕ ПРИКЛАДНОЕ


ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ
• операционные системы; • «программы-полуфабрикаты» или • системы подготовки (процессоры и
• сервисные программы (драйверы и конструкторы, программное редакторы) текстовых, табличных и
утилиты); обеспечение, при использовании других документов;
• тестовые и диагностические которого можно создать новый • системы подготовки презентаций;
программы; программный продукт; • графические процессоры и
• языки программирования; • СУБД, конструкторы обучающих, редакторы;
командно-файловые процессоры игровых, тестирующих и других • программы математических
(оболочки); программ расчётов, моделирования и анализа
• антивирусные программы экспериментальных данных;
• информационно-поисковые
системы;
• системы для использования в
предметных областях (системы
интеллектуального проектирования
и совершенствования управления)
ИНФОРМАТИКА И ИНФОРМАЦИЯ

Понятие «ИНФОРМАТИКА» тесно связано с понятием «ИНФОРМАЦИЯ»

ИНФОРМАЦИЯ – это определенным образом связанные сведения, данные,


понятия, отраженные в нашем сознании и изменяющие наши представления о
реальном мире.
ЧТО ХАРАКТЕРНО ДЛЯ ИНФОРМАЦИИ?

ВОСПРОИЗВОДИМОСТЬ
АДЕКВАТНОСТЬ АКТУАЛЬНОСТЬ ДИСКРЕТНОСТЬ ДОСТАТОЧНОСТЬ
И ПЕРЕДАВАЕМОСТЬ

ДОСТОВЕРНОСТЬ ДОСТУПНОСТЬ ЗАПОМИНАЕМОСТЬ ИЗБЫТОЧНОСТЬ КРАТКОСТЬ

ОБЪЕКТИВНОСТЬ И
НЕПРЕРЫВНОСТЬ ПОЛНОТА ПОНЯТНОСТЬ ПРЕОБРАЗУЕМОСТЬ
СУБЪЕКТИВНОСТЬ

РЕПРЕЗЕНТАТИВНОСТЬ СВОЕВРЕМЕННОСТЬ СОДЕРЖАТЕЛЬНОСТЬ ЦЕННОСТЬ


СВОЙСТВА ИНФОРМАЦИИ:

• насколько данная информация важна для достижения цели, стоящей перед ее


ЦЕННОСТЬ получателем

• насколько много в данной информации сведений, позволяющих получателю


ПОЛНОТА достичь своей цели

• определяется необходимостью немедленного использования полученной


АКТУАЛЬНОСТЬ информации для достижения какой-либо цели

КОМПАКТНОСТЬ • определяется возможностью представить ее в наиболее сжатом виде

• характеризуется адекватностью и надежностью полученных или передаваемых


ДОСТОВЕРНОСТЬ сведений

• характеризуется грамотным структурированием информации (преимущественно, в


ЛОГИЧНОСТЬ момент ее передачи – изложения)
ПРОВЕРИМ СЕБЯ

 Адекватность информации — это ...


 степень соответствия информации объективной реальности окружающего
мира;
 степень соответствия информации, полученной потребителем, тому, что
автор вложил в ее содержание;
 достаточность информации для принятия решения;
 степень соответствия информации текущему моменту времени.
ПРОВЕРИМ СЕБЯ

 Адекватность информации — это степень соответствия


информации, полученной потребителем, тому, что автор вложил в
ее содержание.
ВИДЫ ИНФОРМАЦИИ
визуальная, аудиальная (звуковая,
ПО СПОСОБУ ВОСПРИЯТИЯ
фонетическая), аудиовизуальная,
РЕЦИПИЕНТОМ
тактильная

МАССОВАЯ
(для всех членов общества)

ПО ХАРАКТЕРУ
НАПРАВЛЕННОСТИ
СПЕЦИАЛЬНАЯ
(для специалистов в различных научная, техническая,
областях науки, техники, культуры, производственная и т.д.
производства)

В зависимости от области науки и научной информации выделяют


ИНФОРМАЦИЮ физическую, математическую, биологическую, ЛИНГВИСТИЧЕСКУЮ и т.д.
ЛИНГВИСТИЧЕСКАЯ ИНФОРМАЦИЯ

– это множество определенным образом связанных сведений, данных, понятий о


языке и правилах его функционирования, отраженных в нашем сознании и
влияющих на наше речевое поведение
ИНФОРМАТИКА И ЕЕ ТИПЫ

ИНФОРМАТИКА — это наука о законах и методах получения, хранения,


передачи, распространения, преобразования и использования информации в
естественных и искусственных системах с применением компьютера.

наука, изучающая законы и методы


организации и переработки с
помощью компьютера
ВИД ИНФОРМАЦИИ
ЛИНГВИСТИЧЕСКОЙ
ОПРЕДЕЛЯЕТ
ИНФОРМАЦИИ,
ТИП ИНФОРМАТИКИ
называется
ЛИНГВИСТИЧЕСКОЙ
ИНФОРМАТИКОЙ
ЛИНГВИСТИЧЕСКАЯ ИНФОРМАТИКА КАК НАУКА

 Объект исследования – структура слов, словосочетаний, предложений, текстов.


_____________________________________________________________________
 Предмет исследования:
 правила, объединяющие нижестоящие языковые единицы в вышестоящие;
 правила перевода предложений и текстов;
 способы построения рефератов и аннотаций;
 пути обучения языкам.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЛИНГВИСТИКЕ
МОЖНО РАЗДЕЛИТЬ НА:
ОБРАЗОВАТЕЛЬНЫЕ ИТ ИНСТРУМЕНТАЛЬНЫЕ ИТ ПОДДЕРЖИВАЮЩИЕ ИТ

• обеспечивают гуманитарное • набор компьютерных • совокупность


образование – полное или программ и программных информационных ресурсов, к
частичное, например, компонентов, используемых которым лингвист постоянно
дистанционное обучение для решения конкретной обращается для того, чтобы:
научной проблемы, над найти нужную информацию,
которой работает лингвист отыскать требуемый текст,
комментарий к тексту,
толкование слова (термина),
перевод информации с
чужого языка на свой или
наоборот и т.д.
• порталы, электронные
библиотеки, поисковые
машины, электронные
переводчики и т.д.
ОБЛАСТИ ИНТЕРЕСОВ КОМПЬЮТЕРНЫХ ЛИНГВИСТОВ

распознавание звучащей речи и


синтез речи по тексту

извлечение фактов и знаний поддержка ввода текста на


электронные носители

классификация текстов машинный и


автоматизированный перевод

компрессия текста информационный поиск


РАСПОЗНАВАНИЕ ЗВУЧАЩЕЙ РЕЧИ И СИНТЕЗ РЕЧИ ПО ТЕКСТУ

 В 1952 году появилось первое устройство для распознавания речи появилось, оно могло распознавать
произнесённые человеком цифры.

СПОСОБЫ РАСПОЗНАВАНИЯ РЕЧИ


ПОИСК КЛЮЧЕВЫХ РАСПОЗНАВАНИЕ
РАСПОЗНАВАНИЕ
РАСПОЗНАВАНИЕ ФРАЗ СЛОВ В ПОТОКЕ СЛИТНОЙ РЕЧИ НА
ОТДЕЛЬНЫХ КОМАНД
СЛИТНОЙ РЕЧИ БОЛЬШОМ СЛОВАРЕ
• команды из заранее • фразы соответствуют • речь не полностью • один из прототипов
заданного словаря; определенным заранее преобразуется в текст; взаимодействия
• самая высокая степень заданным правилам • автоматически находятся человека и машины;
достоверности (грамматике); лишь те участки, которые • сказанное дословно
распознавания; • системы голосового содержат заранее преобразуется в текст;
• голосовая навигация по самообслуживания. заданные слова и / или • STT — speech to text;
сайтам. словосочетания; • высокая достоверность
• поисковые системы, в распознавания
системы мониторинга • до конца эта задача не
речи. решена.
ПОДДЕРЖКА ВВОДА ТЕКСТА НА ЭЛЕКТРОННЫЕ НОСИТЕЛИ

ПРОГРАММЫ ПРОГРАММЫ
АВТОМАТИЧЕСКОГО ОРФОГРАФИЧЕСКОЙ
ПЕРЕНОСА СЛОВ ПРОВЕРКИ ТЕКСТА

 Обеспечивают коррекцию на лексико-морфологическом и синтаксическом уровне.


 Производят сличение входящих данных со списком допустимых структур
(распознавание с дискретным входом), в случае неудачи, осуществляют поиск
ближайших соответствий.
 Распознавание печатного и рукописного текста и автозавершение.
МАШИННЫЙ И АВТОМАТИЗИРОВАННЫЙ ПЕРЕВОД

ПЕРВЫЕ СОВРЕМЕННЫЕ
ПРОГРАММЫ ПЕРЕВОДА ПРОГРАММЫ ПЕРЕВОДА
• построены более 50 лет назад; • существует целый спектр
• основаны на простейшей стратегии компьютерных систем перевода
пословного перевода; разного качества;
• не включали более полной • появились программы
лингвистической модели, которая автоматизированного перевода;
учитывает все уровни языка • машинный и автоматизированный
(включая семантику и прагматику перевод все еще несовершенны.
для правильного подбора перевода
слов и выражений).
ИНФОРМАЦИОННЫЙ ПОИСК

Создание поискового образа документа предполагает индексирование его текста.

КЛЮЧЕВЫЕ СЛОВА → СЛОВОСОЧЕТАНИЯ


Поиск словосочетаний усложняет процедуру индексирования документов – для отбора значимых
словосочетаний в тексте требуется использование различных комбинаций статистических и
лингвистических критериев.

ЛИНГВИСТИКА + СТАТИСТИКА = КВАНТИТАТИВНАЯ ЛИГВИСТИКА


ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТОВ

ТЕХНОЛОГИИ
“TEXT MINING”

реферирование, выделение феноменов и понятий,


классификация и кластеризация, ответы на запросы,
тематическое индексирование, поиск по ключевым словам
КОМПРЕССИЯ ТЕКСТА

ЭТАПЫ КОМПРЕССИИ ТЕКСТА:


▪ сегментация на высказывания (деление его на части);
▪ выбор наиболее значимых фраз (фразовый синтез).

РЕФЕРИРОВАНИЕ АННОТИРОВАНИЕ

• РЕФЕРИРОВАНИЕ — это сокращение объема текста • АННОТИРОВАНИЕ – это составление аннотации


и получение его краткого изложения (реферата). текста.
Общий реферат может составляться также для • В простейшей форме АВТОМАТИЧЕСКОЕ
нескольких близких по теме документов. АННОТИРОВАНИЕ – это перечень основных тем
• Основным методом АВТОМАТИЧЕСКОГО заданного текста, для их выявления используются
РЕФЕРИРОВАНИЯ является отбор наиболее процедуры индексирования.
значимых предложений реферируемого текста, для
чего обычно сначала вычисляются ключевые слова
фрагмента, и рассчитывается коэффициент
значимости предложений текста.
ПРОВЕРИМ СЕБЯ

 Реферат — это ...


 связный текст, который кратко выражает тему, предмет, цель, методы и результаты
исследования;
 процесс составления содержания документа (книги, статьи, патента на изобретение
и др.);
 краткое изложение содержания документа, дающее общее представление о его
теме;
 краткий текст, выполняющий сигнальную функцию (информирует о том, что есть
публикация на определенную тему).
ПРОВЕРИМ СЕБЯ

 Реферат — это связный текст, который кратко выражает тему,


предмет, цель, методы и результаты исследования.
ПРОВЕРИМ СЕБЯ

 Метод автоматического аннотирования, при котором важные слова


выделяются в заголовке, подзаголовке, начале и конце текста,
называется ...
 статистическим;
 логико-семантическим;
 позиционным;
 функциональным.
ПРОВЕРИМ СЕБЯ

 Метод автоматического аннотирования, при котором важные слова


выделяются в заголовке, подзаголовке, начале и конце текста,
называется логико-семантическим.
КЛАССИФИКАЦИЯ ТЕКСТОВ

 При создании больших коллекций документов актуальны задачи классификации и


кластеризации текстов с целью создания классов близких по теме документов.
 КЛАССИФИКАЦИЯ – это отнесение каждого документа к определенному классу с заранее
известными параметрами.
 КЛАСТЕРИЗАЦИЯ – это разбиение множества документов на кластеры, на подмножества
тематически близких документов.
 РУБРИЦИРОВАНИЕ – это отнесение текста к одной из заранее известных тематических
рубрик (рубрики организуют в иерархическую структуру).
 По подобным принципам организуются базы данных, а также создаются электронные словари
и энциклопедии, проводится распознавание спама.
ИЗВЛЕЧЕНИЕ ФАКТОВ И ЗНАНИЙ

Необходимо и применяется при решении задач экономической и


производственной аналитики

В тексте на естественном языке выделяются определенные объекты —


именованные сущности (имена, персоналии, географические название)
и связанные с ними события и факты.

Извлечение фактов и знаний реализуется на основе частичного


синтаксического анализа текста, позволяющего выполнять, например,
обработку потоков новостей от информационных агентств.
АНАЛИЗ НОРМАТИВНЫХ ТЕКСТОВ И АНАЛИЗ «ПОД ЗАКАЗ»

АНАЛИЗ НОРМАТИВНЫХ
АНАЛИЗ «ПОД ЗАКАЗ»
ТЕКСТОВ
• Применяется для анализа • Представляет собой программу,
текстов законов, постановлений, в которой распознаются заранее
планов работ, которые заданные сюжетные схемы.
анализируются на предмет
выявления противоречий,
логических пропусков.
ВОПРОСНО-ОТВЕТНЫЕ СИСТЕМЫ

Задача решается путем определения типа вопроса, поиском текстов, потенциально содержащих
ответ на заданный вопрос, и извлечением ответа из этих текстов.
ДИАЛОГ С КОМПЬЮТЕРНЫМИ СИСТЕМАМИ
НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Наиболее часто эта задача решалась для специализированных баз данных — в этом случае язык
запросов достаточно ограничен (лексически и грамматически), что позволяет использовать
упрощенные модели языка.
Запросы к базе, сформулированные на естественном языке, переводятся на формальный язык
(язык программирования), после чего выполняется поиск нужной информации и строится
соответствующая фраза ответа.
МОДЕЛЬ СИСТЕМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
ПРЕДПОЛАГАЕМОЕ БУДУЩЕЕ ИНФОРМАЦИОННЫХ
ТЕХНОЛОГИЙ В ЛИНГВИСТИКЕ

большее
распространение
новые технологии в создание систем получат
Сети «сверхинтеллекта» видеоконференции и
дистанционное
образование

прорыв в решении исследования человеческого мозга на уровне


проблемы нейронных сетей
распознавания и • провыв в создании систем искусственного интеллекта,
синтеза устной речи систем порождения текста, перевода, компрессии
КОНТРОЛЬНЫЕ ВОПРОСЫ ПО ЛЕКЦИИ 2:

 Дайте определение термину «лингвистическая информация».


 Назовите полезные формы программного обеспечения,
использующиеся при обработке лингвистической информации,
созданные для работы в области компьютерной лингвистики.

на листе ответа укажите:


ФИО и номер группы
БЛАГОДАРЮ ЗА ВНИМАНИЕ!