Вы находитесь на странице: 1из 28

1. Компьютерная лингвистика как междисциплинарная область.

Междисциплинарная область: обработка ЕЯ

a. Автоматическая обработка тестов на ЕЯ

b. Машинная /Инженерная лингвистика

c. Вычислительная/ Компьютерная лингвистика

Смежные области исследований

d. Лингвистика

i. Фонология (звуки речи)

ii. Морфология (структура и форма слов ЕЯ)

iii. Синтаксис (структура и функции предложений)

iv. Семантика и прагматика (смысл и значение высказываний)

v. Лексикография (описание лексикона ЕЯ)

vi. Психолингвистика

e. Математика

f. Информатика (Computer Science)

Искусственный интеллект

2. Основные задачи компьютерной лингвистики, направления


исследований.
• Разработка компьютерных программ для автоматической обработки текстов на ЕЯ –

лингвистических процессоров

• Сложность задач КЛ:

– ЕЯ – сложная многоуровневая система знаков,

возникшая для обмена информацией и постоянно изменяющаяся

– Многообразие ЕЯ (способов выражения одного и того же смысла)

ПРИКЛАДНЫЕ ЗАДАЧИ:

• Машинный перевод

• Информационный поиск

• Классификация и кластеризация текстов


• Реферирования и аннотирование текстов

• Формирование ответов на вопросы

• Автоматизация подготовки и редактирования текстов

• Извлечение информации из текстов

• Генерация текстов на ЕЯ

• Организация диалога с пользователем на ЕЯ

• Обучение ЕЯ

• Распознавание и синтез звучащей речи

3. Проблемы моделирования естественного языка в


компьютерной лингвистике: виды и особенности
моделей

Проблема заключается в многообразии ЕЯ (способов выражения одного и


того же смысла) .

 Сложности с раскрытием анафор (распознаванием, что имеется в виду при


использовании местоимений): предложения «Мы отдали бананы обезьянам, потому
что они были голодные» и «Мы отдали бананы обезьянам, потому что они были
перезрелые» похожи по синтаксической структуре. В одном из
них местоимение ониотносится к обезьянам, а в другом — к бананам. Правильное
понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны.
 Свободный порядок слов может привести к совершенно иному толкованию фразы:
«Бытие определяет сознание» — что определяет что?
 В русском языке свободный порядок компенсируется
развитой морфологией, служебными словами и знаками препинания, но в
большинстве случаев для компьютера это представляет дополнительную проблему.
 В речи могут встретиться неологизмы, например, глагол «Пятидесятирублируй» — то
есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и
правильно их понимать.
 Правильное понимание омонимов — ещё одна проблема. При распознавании речи,
помимо прочих, возникает проблема фонетических омонимов. Во фразе «Серый волк
в глухом лесу встретил рыжую лису» выделенные слова слышатся одинаково, и без
знания, кто глухой, а кто рыжий, не обойтись (кроме того, что лиса может быть рыжей,
а лес — глухим, лес также может быть рыжим (характеристика, в данном случае
обозначающая преобладающий цвет листвы в лесу), в то время как лиса может быть
глухой, что порождает дополнительную проблему, вытекающую из предыдущей, хотя и
отчасти компенсируется морфологией — у прилагательных в данном предложении род
явно разный).
4 Лингвистические ресурсы, используемые для
обработки текста и речи.
Лингвстические ресурсы, как компьютерные средства поддержки работы лингвиста. Их
создано огромное множество и они очень разнообразны. Это неспециализированные
и специализированные текстовые редакторы; это расчитанные на счпециалистов
звуковые анализаторы, компьютерные программы получения конкордансов,
различные лингвистические базы данных с соответствующими средствами управления
этими базами, например электронные словари; это специальным образом
организованные собрания текстов, компьютерные программы для обучения
иностранным языкам и многое другое.

Основные типы лингвистических ресурсов

5. Классификация прикладных систем в области


компьютерной лингвистики.
Прикладные системы компьютерной лингвистики делятся на два типа:

1) Прикладные системы Автоматической обработки текста (машинные перевод,


взаимодействие с машиной на ЕЯ, информационный поиск, фактографический поиск,
прикладные системы генерации текстов, прикладные голосовые системы, вопросно-
ответные системы)

2) Прикладные системы Речевых технологий (Системы голосового управления, системы


голосового разграничения доступа, системы документирования устных выступлений,
Программы для диктовки текста)
6. История математической лингвистики, основные этапы развития:
докомпьютерная эпоха.

 математическая лингвистика – использование алгебраических, теоретико-


множественных и логико-математических методов исследования языка;
 Математическая лингвистика является ветвью науки искусственного интеллекта. Её
история началась в Соединённых Штатах Америки в 1950-х годах. С
изобретением транзистора и появлением нового поколения компьютеров, а также
первых языков программирования, начались эксперименты с машинным
переводом, особенно русских научных журналов. В 1960-х годах подобные
исследования проводились и в СССР (например, статья о переводе с русского на
армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество
машинного перевода до сих пор сильно уступает качеству перевода,
произведённого человеком.
 С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция
по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и
ответственный секретарь Оргкомитета Г. В. Чернов. Полностью программа
конференции опубликована в сборнике «Машинный перевод и прикладная
лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному
переводу № 8»). Как вспоминает В. Ю. Розенцвейг, опубликованный сборник
тезисов конференции попал в США и произвёл там большое впечатление.
 В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по
математической лингвистике, созванное Ленинградским университетом и
комитетом прикладной лингвистики. Главным организатором Совещания
был Н. Д. Андреев. В Совещании приняли участие ряд видных математиков, в
частности, С. Л. Соболев, Л. В. Канторович (впоследствии — Нобелевский лауреат)
и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в
день открытия Совещания с программным докладом «Общая лингвистическая
теория перевода и математическая лингвистика».

7.Появление компьютерной лингвистики. Этапы


становления
1. АОТ с 40-х годов XX века по 1965 г.

Первые интерес в США к этой теме обычно датируют выходом в 1949 году
меморандума Уоррена Уивера. Во время второй мировой войны Уивер был
вовлечен в работы по расшифровке шифров. Его идея была проста: все люди
одинаковы (несмотря на то, что говорят на разных языках), поэтому текст
любого языка можно рассматривать как некую шифровку или код. Если этот
код разгадан, становится возможным вывести любой документ на другом
языке. С его точки зрения немецкий язык – это зашифрованный английский.
2. АОТ с 1966 по 1980 год

Некоторые историки свидетельствуют о том, что АОТ практически исчезла


со сцены после доклада ALPAC. Это не в полной мере соответствует
действительности. Безусловно верно и то, что разработок стало значительно
меньше, а работы по машинному переводу были практически свернуты
больше чем на 10 лет. Тем не менее, в течении 15 лет после
доклада ALPAC произошел ряд значительных событий, некоторые из
которых повлияли и на сегодняшнее положение дел в этой области науки.

Ключевыми идеями, появившимися в этот период, были Расширенная Сеть


Переходов, Грамматика Падежей и процедурная семантика.

Расширенная Сеть Переходов (ATN – Augmented Transition Network).


Грамматика Падежей (Case Grammar).

Грамматика падежей привлекательна с точки зрения семантики. Многие


языки, например английский (русский в меньшей степени), выражают
отношения между глаголами и существительными главным образом
посредством связующих предлогов. Рассмотрим следующее предложение:

John bought a ticket for Mary in the Symphony Hall Booking Office.
(Джон купил билет для Марии в кассе заказов симфонического зала)

Мы знаем из позиции слов John и ticket, что Джон является агентом,


производящим действие, а билет является объектом (или пациентом) этого
действия. Мы знаем также, что Мэри является бенефициаром (тем, кто
извлекает пользу) действия, так как перед ее именем употреблен предлог for.
Местом действия является касса заказов симфонического зала, на что
указывает предлог in.

Ключевыми разработками в этом периоде


были SHRDLU, LUNAR и LIFER/LADDER.
SHRDLU.
Система SHRDLU Терри Винограда (Terry Winograd) имитировала поведение
робота, манипулировавшего блоками на поверхности стола. Она могла
управляться инструкциями, такими как “Pick up the red pyramid”(«Возьми
красную пирамиду»)и отвечать на вопросы типа
“What does the blue boxcontain?”(«Что содержит голубой блок?»).

LUNAR.
LUNAR был естественно-языковым интерфейсом к базе данных,
использовавшим и Расширенную Сеть Переходов и процедурную семантику
Вудса. Система унаследовало свое имя от базы данных, содержавшей
информацию об образцах лунных скальных пород.

LIFER/LADDER.
LIFER/LADDER была одной из наиболее впечатляющих систем АОТ. Она
была сконструирована как естественно-языковой интерфейс к базе данных
кораблей ВМС США. Она использовала семантическую грамматику, в
которой использовались метки типа «КОРАБЛЬ» или
«ХАРАКТЕРИСТИКА» вместо синтаксических меток типа
«существительное» или «глагол».

Узкоспециализированные системы 1970-х годов, такие


как SHRDLU и LIFER/LADDER не могли быть в действительности
расширены до практически полезных приложений. Реакцией на этот факт в
сообществе АОТ стала попытка взглянуть на разработку посредством
формализмов дающих более точные и полные описания, эффективно
реализуемые на компьютере.

Грамматические формализмы.

Синтаксис всегда рассматривался большинством лингвистов-теоретиков как


основополагающая часть человеческого языка. Инженеры же увидели в
синтаксисе полезный способ разрешения омонимии с относительно
небольшим объемом необходимых знаний (по крайней мере, по сравнению с
объемом знаний, требуемым для этой цели семантической обработкой).
Результатом стали грамматики, оперирующие более детализированными
синтаксическими характеристиками объектов информации ( например, часть
речи -существительное, лицо - третье, время - прошедшее, число -
множественное и т.д.), а не одноатомные категории (глагол,
существительное, прилагательное и т.д.). Эти грамматики могли дать гораздо
более точный анализ предложения, но за это нужно было заплатить
определенную цену. Для детализированных характеристик необходимы
гораздо более сложные методы сопоставления в поисковых алгоритмах,
отсюда такие грамматики получили название унификационных, так как
сопоставление характеристик могло быть достигнуто посредством метода
унификации.

Есть несколько грамматик, которые используют унификацию как главную


операцию для комбинирования информации. Из них Грамматика
Обобщенной Фразовой Структуры (GPSG –
Generalisez Phrase Structure Grammar) , была одно время очень популярной,
но, видимо, самым широко используемым формализмом стала Грамматика
Лексических Функционалов (LFG – Lexical Functional Grammar).

Расширенные лексиконы.

Лексикон (или словарь) использовался до сих пор для хранения очень


простой информации. Использование унификационных грамматик с их
детализированными характеристиками привело к значительному усложению
лексиконов. Сейчас он является первичным источником информации о
свойствах слов и эта информация используется во время
разбора(использующего унификацию) для создания конечного дерева
разбора, представляющего структуру анализируемого предложения.

Логика для семантики.

Раз синтаксическая информация должна широко использоваться, значит


нужен способ передачи этой информации в семантическую обработку на
более поздней стадии, чтобы максимально разрешить омонимию. Подходом,
который позволил достичь прогресса, стало использование использование
логики предикатов для представления семантической информации.
Порождение текста.

Приложение, которое должно выводить некий результат, можно попробовать


заставить делать это на естественном языке, тем самым делая его более
удобным для пользователя. Одно из направлений разработки состояло в
создании систем автоматического реферирования.

Многоязычные приложения.

Рост многоязычных сообществ означает спрос на переводы, особенно


деловых и технических текстов, переводить которые профессиональным
переводчикам скучно или невыгодно. Поскольку полный
высококачественный машинный перевод в этом периоде больше не
рассматривался как краткосрочная или даже среднесрочная цель, это
пространство было предназначено для ограниченных систем машинного
перевода (например, канадские метеосистемы, автоматически
преобразующие сводки о погоде с английского на французский) и средств,
используемых переводчиками-людьми. Другим направлением была
разработка генерации текста на нескольких языках.

Мобильность.

Одним из недостатков таких впечатляющих систем,


как LIFER/LADDER была трудность переноса системы из одной проблемной
области в другую (например из области описания кораблей ВМС США в
область кадрового учета). В этот период совершаются попытки создания
систем, применимых к разным проблемным областям. Развитие
унификационных грамматик и логики для семантики усилили тенденцию
обобщения разных систем, что привело к прогрессу в решении проблемы
мобильности систем.

80-е годы. Формирование фундамента современного машинного


перевода.

В 80-е годы в большой мере формируется фундамент современного


подхода к структуре машинного перевода.
Значение (смысл) слова выражается посредством сегментированных
значений терминов:

Убить=Быть_причиной(Некто(Живой->Мертвый))

Благодаря росту производительности и развитию возможностей


компьютеров, разработка систем машинного перевода стала реальностью.

90-е годы. Разрешение омонимии. Возрождение подхода «снизу-вверх»:


эмпирицизм.

Подход к разрешение омонимии смысла термина основывается на


выявлении слов, в контексте которых он находится. На большом корпусе
текстов (например, «Нью-Йорк Таймс» за 20 месяцев) достигается 90%-ная
точность в разрешении неоднозначности слова «capital», которое может
означать в английском языке и финансовый капитал и столицу.

8. Компьютерная лингвистика в России.


История компьютерной лингвистики в СССР и
России.

3.1. До теории «Смысл↔Текст».

Под руководством крупнейшего математика и кибернетика Алексея


Ляпунова начались активные работы по машинному переводу и в Москве.

Впрочем, основа для успехов отечественных ученых закладывалась намного


раньше. В 1920-х годах в России велись интенсивные исследования по
семиотике текста, в то время как широкомасштабное изучение семиотики во
всем мире относится только к началу 1960-х годов (что в значительной мере
связано с работами эмигрировавшего из России в 1920 году создателя
структурной лингвистики Романа Якобсона).

Работы по кибернетике и, в частности, по структурной лингвистике,


развернутые в конце 50-х годов под руководством академика Акселя Берга и
члена-корреспондента АН СССР Алексея Ляпунова, вывели отечественную
науку на передовые позиции. Уже в начале 1956 года в Институте
прикладной математики (ИПМ) им. М. В. Келдыша заработала первая
отечественная система машинного перевода с французского на русский язык.
Система ФР-I давала перевод явно более высокого качества, чем у
американцев.

Огромное значение имело выработанное Алексеем Ляпуновым и Ольгой


Кулагиной теоретико-множественное представление грамматических
категорий языка. Эти результаты были получены независимо от работ Ноама
Хомского (Noam Chomsky), считающегося создателем теории формальных
грамматик. Большую роль сыграли работы Игоря Мельчука по
автоматическому грамматическому анализу. Обобщения и систематизация
результатов математической лингвистики позволили создать стройную
теорию формальных языков.

Впоследствии сам Мельчук признал, что работы по автоматическому


синтаксическому анализу русского языка были «абсолютно тупиковые».
Искусственные языки специально создаются так, чтобы было удобно
манипулировать формальными конструкциями, описывающими
«прозрачную» семантику, которая сводится, как правило, к конкретным
действиям.
3.2. Теория «Смысл<->Текст».

По замыслу её создателей, ТСТ является универсальной теорией, то есть


может быть применима к любому языку. На практике основным материалом
для неё служил русский язык;

Теория «Смысл ↔ Текст» представляет собой описание естественного языка,


понимаемого как устройство («система правил»), обеспечивающее человеку
переход от смысла к тексту («говорение», или построение текста) и от текста
к смыслу («понимание», или интерпретация текста); отсюда символ
двунаправленной стрелки в названии теории. При этом приоритет в
исследовании языка отдаётся переходу от смысла к тексту: считается, что
описание процесса интерпретации текста может быть получено на основе
описания процесса построения текста. Теория постулирует многоуровневую
модель языка, то есть такую, в которой построение текста на основе
заданного смысла происходит не непосредственно, а с помощью серии
переходов от одного уровня представления к другому. Помимо двух
«крайних» уровней — фонологического (уровня текста) и семантического
(уровня смысла), выделяются поверхностно-морфологический, глубинно-
морфологический, поверхностно-синтаксический и глубинно-синтаксический
уровни. Каждый уровень характеризуется набором собственных единиц и
правил представления, а также набором правил перехода от данного уровня
представления к соседним.

Семантическое представление является неупорядоченным графом («сетью»),


синтаксические представления являются графическим деревом («деревом
зависимостей»), морфологическое и фонологическое представления
линейны.

Синтаксический компонент ТСТ предусматривает существование двух


синтаксических уровней — поверхностного и глубинного

Теория «Смысл ↔ Текст» с самого начала создавалась с сильным акцентом


на прикладной проблематике автоматического («машинного») перевода — по
замыслу Мельчука, с её помощью, в отличие от традиционных нестрогих
теорий, следовало обеспечить построение «действующей» модели языка

Питерским математиком Виталием Тузовым недавно была создана модель


естественного языка, использующая упрощенный вариант идей Мельчука. В
модели Тузова сделана попытка свести задачу извлечения информации из
текста к задаче преобразования текста на формальном семантическом языке
во внутреннее представление базы знаний.
3.3. 70-е-80-е годы.

С середины семидесятых годов во всем мире наблюдается устойчивое


возрастание интереса к машинному переводу. В Москве в 1974 в институте
ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-
русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2).
В том же году создается Всесоюзный центр переводов (ВЦП), в котором ряд
научных коллективов работает над системами машинного перевода –
АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и
ФРАП (французско-русский перевод). С этого времени промышленные
системы машинного перевода разрабатываются и широко используются в
США, Европе и Японии.

Системы семейства ЭТАП работали в режиме качественного перевода на


основе полного синтаксического анализа и в режиме пословного перевода, в
процессе которого привлекался только морфологический анализ.

Начало работ над системой ФРАП относится к 1975 г. В этом году во


Всесоюзном центре переводов начала работать группа исследователей под
руководством Н.Н. Леонтьевой

Теоретическая особенность СМП ФРАП заключается в том, что в процессе


работы системы текст входного языка интерпретируется не только на
семантическом, но и на информационном уровне – в терминах категорий
тезауруса той проблемной области, которая в данный момент обслуживается
системой. Информационный уровень представления должен обеспечивать в
перспективе и построение реферата по тексту перевода.

Переводческий комплекс АНРАП структурно состоит из двух больших


систем – АМПАР (англо-русский перевод) и НЕРПА (немецко-русский
перевод), разрабатывавшихся с конца 50-х гг. разными научными
коллективами. Объединение этих систем связано с общим программным
обеспечением, общим русским словарем и общим блоком русского
морфологического синтеза. Переводческий комплекс предназначен для
использования в крупных информационных службах и переводческих
организациях для перевода текстов различных тематических областей.
2 часть.
Прикладные системы обработки и хранения текстовых данных

1. Электронные библиотеки. Основные функции.


Классификации каталогов. Крупнейшие библиотеки
мира в on-line доступе.
Электронная библиотека – упорядоченная коллекция разнородных электронных
документов (в том числе книг ), снабженных средствами навигации и
поиска. Может быть веб-сайтом, где постепенно накапливаются различные тексты
и медиафайлы, каждый из которых самодостаточен и в любой момент может быть
востребован читателем.

Функции:

 Информационно-образовательная
 Научно-исследовательская
 Культурно-просветительская
 Издательская

Классификации каталогов:

 по назначению (читательские и служебные);

 по типу носителей информации (бумажные и электронные);

 по способу группировки (алфавитные, систематические, предметные,


нумерационные);

 по видам документов (книг, монографий, учебной литературы, периодических


изданий, диссертаций и т. п.).

Крупнейшие библиотеки мира:

Российская государственная библиотека (Москва) - http://www.rsl.ru

- Российская национальная библиотека (СПб) - http://www.nlr.ru/

- Британская национальная библиотека - http://www.bl.uk/

- Национальная библиотека Франции - http://www.bnf.fr/

- Немецкая национальная библиотека - http://www.ddb.de/

- Европейская библиотека - http://www.theeuropeanlibrary.org


- Библиотека Конгресса США - http://www.loc.gov/

- Национальная библиотека и архивы Канады - http://nlc-bnc.ca

2. Крупные Российские библиотеки в on-line доступе.


Электронные библиотеки в Internet.
Российская государственная библиотека:

 основана в 1862;
 сохраняет более 43 млн. документов;
 имеет 220 карточных каталогов, картотек и указателей;
 предоставляет читателям более 2 тыс. рабочих мест;
 ежедневно регистрирует около 4 тыс. посещений, выдает около 32 тыс.
изданий.

Российская национальная библиотека:

 основана в 1775 году как Императорская Публичная библиотека и


национальное книгохранилище;

 сохраняет около 34 млн. произведений печати и иных информационных


ресурсов;

 ежегодно обслуживает около 1,5 млн. читателей;

 предоставляет возможность получения информации не только через читальные


залы, но и в сетевом режиме.

Библиотека Российской Акадкмии Наук:

 основана в 1714 г.;


 сохраняет 20 млн. отечественных и зарубежных изданий, рукописей, карт;
 ежегодно обслуживает более 30 тыс. читателей;
 возглавляет сеть научных библиотек, включающую Центральную библиотеку
и 31 библиотеку научно-исследовательских учреждений РАН Санкт-
Петербурга;
 взаимодействует с 2,5 тыс. зарубежных партнеров.

Библиотека СПБГУ ИТМО:

 сохраняет около 1,6 млн. документов;


 имеет алфавитный, систематический и электронный
(http://lib.ifmo.ru) каталоги, а также ряд картотек;
 предоставляет доступ к полным текстам журналов издательства Elsevier,
междисциплинарной базе Scopus, сайту электронной библиотеки Российского
фонда фундаментальных исследований.
Электронные библиотеки:

 Научная электронная библиотека eLIBRARY.RU. http://www.elibrary.ru

 SpringerLink — полнотекстовая база данных книг, журналов и других изданий,


выпускаемых

 издательством Springer. http://www.springerlink.com

 Электронная коллекция публикаций по результатам научных исследований


ScienceDirect. http://www.sciencedirect.com

3. Информационные ресурсы архивных фондов РФ.


Виды. Особенности организации хранения,
получения информации. Архивный фонд
Российской Федерации. Возможности on-line
доступа.
Ресурсы Российского государственного исторического архива:
http://fgurgia.ru/showObject.do?object=34630564

 Российский государственный архив литературы и искусства (РГ А ЛИ,


Москва)
 Центральный государственный архив кинофотофонодокументов Санкт-
Петербурга
 Электронный фотокаталог Российского Государственного архива
кинофотодокументов (РГ А КФД, Красногорск)
 Ленинградский областной государственный архив в г. Выборге (ЛОГАВ)
 Электронная энциклопедия Санкт-Петербурга
 Электронная энциклопедия «Культура Ленинградской области»
 Электронная энциклопедия «Пермский край»
 Электронная энциклопедия «Памятники истории и культуры Костромы»
 «Энциклопедия благотворительности в Санкт-Петербурге»
 База данных памятников архитектуры, истории и культуры Пскова и
Псковского края
 Афиша культурных событий Санкт-Петербурга
 Афиша культурных событий Ленинградской области
 Петербургский Топохрон
 Петербургские юбилейные даты
 100 лет Петербургскому модерну
 Памятные места декабристов в Петербурге

Архивный фонд РФ:


http://archives.ru

• Объем Архивного фонда Российской Федерации составляет более 600 млн. единиц
хранения на различных носителях, или более 8,5 тыс. км архивных полок.

• Ежегодно объем документов увеличивается в среднем на 1,7 млн единиц хранения.

• это исторически сложившаяся и постоянно пополняющаяся совокупность архивных


документов, отражающих материальную и духовную жизнь общества, имеющих
историческое, научное, социальное, экономическое, политическое, культурное
значение, являющихся неотъемлемой частью историко-культурного наследия народов
Российской Федерации, относящихся к информационным ресурсам, подлежащих
постоянному хранению в соответствии с российским законодательством.

• архивы способствуют укреплению федерализма, формированию гражданского


общества, становлению правового государства, формированию демократических
взглядов, воспитанию россиян в духе гражданственности, патриотизма, толерантности.

4. Электронные архивы: вопросы автоматизации,


сервисно-ориентированные архитектуры
(SOA).Автоматизированное рабочее место (АРМ)
архивариуса.
Цели оцифровки архивных документов:

 Сохранность документа;
 Возможность формирования электронных ресурсов, обеспечивающих
оперативность доступа к документу в т.ч. с использованием Интернет-
технологий;

Критерии отбора архивных фондов для создания электронных копий:

 наиболее используемых документов, независимо от времени их создания,


материала и техники изготовления;

 особо ценных и уникальных документов,

 документов, находящихся в неудовлетворительном физическом состоянии с


высокой степенью разрушения основы, что может повлечь утрату подлинника;

 документов, для которых существует угроза утраты информации (например: для


документов на бумажной основе – угасание текста; для фонозаписей на магнитной
ленте – размагничивание; для цветных фотонегативов – утрата цветности и т.п.) при
удовлетворительном физическом состоянии носителя;

 выполнения запросов и заказов, подготовка изданий и выставочных проектов.


Се́рвис-ориенти́рованная архитекту́ра (SOA)— модульный подход к разработке
программного обеспечения, основанный на использовании распределённых, слабо
связанных заменяемых компонентов, оснащённых стандартизированными
интерфейсами для взаимодействия по стандартизированным протоколам

Программные комплексы, разработанные в соответствии с сервис-ориентированной


архитектурой, обычно реализуются как набор веб-служб, взаимодействующих по
протоколу SOAP, но существуют и другие реализации (например, на базе jini,
CORBA, на основе REST).

Интерфейсы компонентов в сервис-ориентированной архитектуре инкапсулируют


детали реализации (операционную систему, платформу, язык программирования)
от остальных компонентов, таким образом обеспечивая комбинирование и
многократное использование компонентов для построения сложных
распределённых программных комплексов, обеспечивая независимость от
используемых платформ и инструментов разработки, способствуя
масштабируемости и управляемости создаваемых систем.

АРМ.

Технические работники выполняют, как правило, рутинную работу, требующую


определенных профессиональных навыков. Это — секретари, машинистки, операторы,
инспекторы и другие работники.

К выполняемым ими функциям относятся:

· ввод информации;

· ведение картотек и архивов;

· контроль ежедневного личного плана руководителя;

· обработка входящей и исходящей документации.

Автоматизированное место технического работника должно обеспечить


автоматизацию названных функций.

Типовыми формами АРМ технического работника могут быть:

АРМ — архивариуса;

АРМ — инспектора отдела писем;

АРМ — инспектора табельного учета;

АРМ — оператора обработки текстовых документов.


5. Структура государственной системы научно-
технической информации России.
Государственная система научной и технической информации (ГСНТИ)

совокупность организаций различных форм собственности и ведомственной принадлежности,


осуществляющих формирование и использование государственных информационных ресурсов
в области науки и техники, объединяемых системой управления, единой нормативно-
правовой базой, общей навигационной системой, технологическими принципами

В состав функциональных блоков ГСНТИ входят:

 блок реестра Российской научно-технической документации РНТД;

 блок реферативно-библиографического обслуживания (РБО);

 блок электронных библиотек (ЭБ), баз данных (БД) и фондов первичной НТИ (блок
первичной НТИ).

Блок реестра Российской научно-технической документации (РНТД).

Основной функцией блока реестра является государственный учет и регистрация РНТД


российских разработчиков, включая учет отношений интеллектуальной (и вещной)
собственности и правомочий владения, пользования и распоряжения, возникающих по поводу
РНТД.

Головная организация блока реестра РНТД – ВНТИЦентр.

Функции блока реестра РНТД реализуют на постоянной основе следующие организации:

 ВНТИЦентр, ВИМИ, объединение "Росинформресурс", Институт промышленного


развития "Информэлектро" – организации Минпромнауки России;

 Научно-технический центр "Информрегистр" Минсвязи России;

 ВНИИКИ, ВНИЦ МВ, ВНИИС, ВНИИМС – организации Госстандарта России и другие.

Блок реферативно-библиографического обслуживания (РБО).

Главная функция блока этого блока – мониторинг мирового потока опубликованных научно-
технических документов, включая электронные издания, их аналитико-синтетическая
обработка и подготовка библиографических и реферативных баз данных и изданий вторичной
информации.

Головная организация блока РБО – ВИНИТИ.

Основными библиографирующие организации России:

 ИНИОН, БЕН, БАН, ГПНТБ СО РАН – организации РАН;

 ГПНТБ России, ВИНИТИ – организации Минпромнауки России;

 ГНЦМБ Минздрава России;

 ЦНСХБ Россельхозакадемии;

 ВНИИТПИ Госстроя России;

 РКП МПТР России;

 НТЦ "Информрегистр" Минсвязи России;

 ВНИИКИ Госстандарта России;

 РГБ и РНБ Минкультуры России;

Блок первичной научно-технической информации.

Функции блока первичной НТИ - формирование и поддержание за счет средств


государственного бюджета общедоступных БД и ЭБ первичных научно-технических
документов, научно-экспериментальных данных, а также фондов первоисточников на
традиционных носителях и микроносителях.

Головная организация блока первичной НТИ – ГПНТБ России

В России сбор научной и технической информации реализуют:


 ИНИОН, БЕН, БАН, ГПНТБ СО РАН – организации РАН;

 ГНЦМБ Минздрава России;

 ЦНСХБ Россельхозакадемии;

 ВНИИТПИ Госстроя России;

 ВИМИ, ВНТИЦентр, объединение "Росинформресурс", ГПНТБ России, ВИНИТИ; –


организации Минпромнауки РФ;

 НТЦ "Информрегистр" Минсвязи России;

 ВНИИКИ Госстандарта России;

 ФИПС Роспатента;

 РГБ и РНБ Минкультуры России;

 РГАНТД Росархива;

6. Федеральные информационные центры РФ.


Всероссийский институт научной и технической
информации Российской академии наук ВИНИТИ
РАН. Периодические информационные издания
ВИНИТИ РАН.
Всероссийский институт научной и технической информации Российской академии наук
(ВИНИТИ РАН) - http://www.viniti.ru

 Адрес: Россия, 125219, Москва, ул. Усиевича, 20-a

 ВИНИТИ Российской АН - один из ведущих центров России - обслуживает своих


пользователей с 1952 г.

 ВИНИТИ ежегодно обрабатывает поток мировой научно-технической литературы,


поступающей более чем из 100 стран мира на 60 языках по естественным, точным,
техническим и прикладным наукам, а также отраслям народного хозяйства и
некоторым комплексным проблемам.

 Генерирует документальные и фактографические базы данных, документальные БД,


фактографические БД, осуществляет депонирование научных работ, предоставляет
информационные услуги, включая теледоступ к базам данных с ретроспективой 10 лет.
ВИНИТИ генерирует в России 60-70% информации

ВИНИТИ издает:

Реферативный журнал (РЖ): сводные тома по основным отраслям естественных и


технических наук и отдельные выпуски по межотраслевым проблемам.

Периодичность практически всех выпусков РЖ 12 номеров в год (кроме выпусков по химии,


которые выходят с периодичностью 24 номера).

 периодическое информационное издание, освещающее наиболее интересные


зарубежные публикации в области науки и техники. В ЭИ помещаются расширенные
рефераты статей, научных докладов, других материалов.

В 2004 году будут издаваться 10 выпусков ЭИ: по автоматике и радиоэлектронике,


информатике, машиностроению, охране окружающей среды, транспорту

 Обзорная информация – периодическое изданий, содержащее публикацию одного


или нескольких обзоров, включающих результаты анализа и обобщения сведений по
актуальным проблемам науки и техники.

 Реферативный сборник – периодическое информационное издание, содержащее


рефераты по материалам отечественной и иностранной литературы, публикуемым в
РЖ.

 Сигнальная информация (СИ) или бюллетень СИ – периодическое информационное


издание, в котором публикуются заглавия всех статей, которые появились в российских
журналах по науке и технике.

 Итоги науки и техники (ИН) ВИНИТИ – информационное издание обзорного типа по


естественным и техническим наукам, в котором обобщаются и систематизируются
сведения о достижениях, основных направлениях и тенденциях развития различных
отраслей науки и техники по материалам, опубликованным в РЖ за последние
несколько лет.

 Библиографический указатель: "Депонированные научные работы" – это


библиографический указатель научных рукописей, переданных на хранение в ВИНИТИ.

7. Проблемы автоматизации синтеза текста.


Алгоритмы синтеза текста для вербализации
заданного содержания. Семантические,
морфологические, синтаксические проблемы
синтеза.
Задача синтеза может рассматриваться как обратная по отношению к анализу. Если заданы
некоторая тема и цель будущего текста, то можно считать заданной прагматическую структуру
текста. Ее надо декомпозировать в прагматические структуры отдельных предложений и для
каждого предложения пройти все этапы анализа в обратном направлении. На сегодняшний
день здесь еще масса нерешенных проблем. Неизвестно, как генерировать прагматическую
структуру текста из тех целей, которые стимулируют создание текста. Непонятно, как эту
структуру разбить на прагматические структуры предложений и как от этих частных
прагматических структур перейти к глубинным семантическим структурам. Более известны
методы дальнейшего движения по пути генерации текста.

Алгоритмы

Один из возможных путей состоит в использовании актантов действий. С каждым


действием связан некоторый набор сопутствующих ему объектов и характеристик.
Они, как правило, совпадают с глубинными падежами Филмора. Если, например, мы
имеем дело с действием "идти", то с ним тесно связаны субъект, совершающий это
действие, пункты начала и конца движения, цель движения и т. п. Это позволяет
связать с глаголом "идти" некоторую структуру с набором пустых пока мест:

ДЕЙСТВИЕ Идти СУБЪЕКТ ______ КУДА ______ ОТКУДА ...

Заглавными буквами в этой структуре обозначены некоторые имена. Первое имя


конкретизируется глаголом "идти", а остальные имена пока остаются незаполненными.
Эти остальные имена и определяют актанты глагола "идти". Примером заполнения
может служить структура:

ДЕЙСТВИЕ Идти СУБЪЕКТ Петр ЦЕЛЬ ЗА МОЛОТКОМ

Ей соответствует фраза: "Петр идет за молоком".

Наличие актантных структур действий позволяет представить процесс синтеза текстов


в виде ряда следующих друг за другом шагов.

На первом шаге генерируется нужная последовательность глаголов-действий.

На следующем шаге заполняются их актантные структуры, что приводит к появлению


глубинной семантической структуры отдельных предложений.

Затем эти структуры связываются с учётом общих действующих субъектов и


используемых объектов, а также иных связывающих параметров в единый текст.

Последний шаг - образование синтаксически правильных конструкций в предложениях


- в настоящее время не представляет труда, так как теоретически изучен почти
досконально.
Таким образом работает, например, автоматическая система создания текстов
волшебных сказок, носящая название TALE (сказка), созданная в нашей стране в 70-х
годах. На первом шаге она выдает тексты примерно такого вида:

"Жил-был X. Не было у Х желаемого Y. Стал просить Х Бога. Бог обещал.

Появился Y. Вырос Y. Ушел, раз Х и не велел Y делать Z. Но Y сделал Z.

Вернулся X. Y нет. Понял X, что Y сделал Z. Пошел Х искать Y ..."

В памяти системы TALE хранятся данные для заполнения актантов, а одинаковые


переменные показывают, что на эти места всюду надо поставить одни и те же
заполнители. Так возникает текст: "Жил-был царь. И не было у царя желаемого
наследника. Стал царь просить Бога. Бог обещал. Появился наследник. Вырос
наследник..."

8. Автоматическое аннотирование и индексирование


научно-технической документации.
Методы автоматического аннотирования и реферирования:

 Поверхностные - базируются извлечении фрагментов, оцениваемых


системой как важнейшие.
 Глубинные - базируются на применении тезаурусов и развитых механизмов
синтаксического разбора текста.

Традиционные системы автоматического аннотирования и реферирования:

 Microsoft Word

 ОРФО 5.0

 «Либретто»

 программные компоненты для разработки систем управления знаниями Inxight


Summarizer фирмы Inxight Software, Inc.

 Intelligent Text Miner (IBM)

Основные подходы в теории реферирования:

1) Подходы, не предполагающие опору на знания

2) Подходы, опирающиеся на знания

3) Гибридный подход, сочетающий лучшие стороны первых двух

Автоматическое аннотирование:
 формирование множества «аннотационных» фрагментов

 создание таблицы всех возможных пар основных тематических узлов.

 отбор предложений, которые содержат еще не упоминавшуюся пару разных


тематических узлов.

Квазиреферирование основано на экстрагировании фрагментов документов выделении


наиболее информативных фраз и формировании из них квазирефератов.

В рамках квазиреферирования выделяют три основных направления, которые в


современных системах применяются совместно:

 - статистические методы

 - позиционные методы

 - индикаторные методы

Определение веса фрагментов исходного текста выполняется в соответствии с алгоритмами,


которые стали уже традиционными. Общий вес текстового блока при этом определяется по
формуле:

 Weight = Location + KeyPhrase + StatTerm

. В отличие от частотно-лингвистических методов, обеспечивающих квазиреферирование,


подход, основанный на базах знаний, опирается на автоматизированный качественный
контент-анализ, состоящий, как правило, из трех основных стадий:

 Первая- сведение исходной текстовой информации к заданному числу


фрагментов

 На второй стадии производится поиск регулярных связей между единицами


значения, после чего начинается третья стадия

Семантические методы формирования рефератов-изложений предполагают два основных


подхода:

 - метод синтаксического разбора предложений и методы, опирающиеся на


понимание естественного языка.

 - второй подход основывается на системах искусственного интеллекта, в


которых также на этапе анализа выполняется синтаксический разбор текста, но
синтаксические деревья не порождаются.

Метод полуавтоматического семантического аннотирования

 В общем виде для составления триплета аннотирования документа необходимо


вручную выбрать субъект, определять его предикат (отношение), на основе его
описания в онтологии, а затем выбрать связанный с ним объект. Созданный триплет
сохраняется в базе знаний.
 Выбор субъектов и объектов триплетов выполняется в ходе решения задач поиска
кандидатов и преодоления многозначности.

 С учетом изложенного выше, задача семантического аннотирования может быть


структурирована следующим образом:

 1. Выбор нужных понятий

 2. Поиска кандидатов.

 3. Преодоление многозначности. Данный шаг заключается в том, что из


аннотации должны быть исключены все нерелевантные кандидаты.

6.1. Общие положения индексирования


Одной из важнейших операций аналитико-синтетической обработки документов как
средства информационного поиска является индексирование документов и
информационных запросов.

Индексирование – процесс выражения содержания документа и (или) запроса на


информационно-поисковом языке (ИПЯ) с помощью терминов индексирования
(классификационных индексов, предметных рубрик (ПР), ключевых слов,
дескрипторов, кодов). Иными словами, индексирование – процесс перевода
содержания документов и запросов с естественного языка на ИПЯ, в результате чего
создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ). Таким
образом, происходит «свертывание» информации, содержащейся в документе и
изложение ее на ИПЯ в виде индекса, рубрики, кода (на классификационном языке)
или дескриптора, ключевого слова (на дескрипторном языке).

Поисковый образ документа – это выраженное в терминах формализованного


информационно-поискового языка основное смысловое содержание документа (а не
вся информация, содержащаяся в документе), которое поставлено в однозначное
соответствие этому документу, по которому производится отыскание данного
документа в массиве других документов.

Индексирование запроса осуществляется путем перевода его содержания на


информационно-поисковый язык. Совокупность терминов индексирования,
выражающих смысловое содержание запроса, называется поисковым образом
запроса (ПОЗ). В этом случае поиск документов ведется по совокупности терминов
индексирования. Чтобы повысить эффективность поиска информации по запросу,
поисковый образ запроса можно дополнить специальными указаниями о
последовательности выполнения логических операций в процессе информационного
поиска, которые являются поисковым предписанием.

Методика индексирования запросов за счет включение в поисковое предписание


дополнительных терминов, понятий или дополнительных указаний позволяет
расширить область поиска информации (например, за счет включения видовых и
ассоциативных терминов) и в конечном итоге повысить функциональную возможность
информационно-поисковой системы.

Индексирование реализуется в следующих процессах: предметизации, систематизации


и координатном индексировании.

Систематизация – вид индексирования, при котором содержание документа и (или)


запроса выражено классификационными индексами в соответствии с правилами
какого-либо классификационного ИПЯ (классификационной системы). Такой принцип
индексирования принято считать классификационным. Классификационный принцип
индексирования обеспечивает возможность организации информационного поиска по
иерархическому признаку.

Предметизация – вид индексирования, при котором содержание документа и (или)


запроса выражено предметной рубрикой (ПР) в соответствии с правилами
соответствующего предметизационного ИПЯ. Предметизационный принцип
индексирования базируется на представлении содержания документа в понятийной
системе определенного естественного языка и на использовании в качестве терминов
индексирования лексических единиц (ЛЕ) естественного языка.

Предметизационный принцип индексирования обеспечивает возможность организации


информационного поиска по алфавитному признаку.

Координатное индексирование – вид индексирования, при котором смысловое


содержание документа и (или) запроса многоаспектно выражается множеством
ключевых слов или дескрипторов. Информационно-поисковый язык, предназначенный
для координатного индексирования документов (или частей документов) и запросов
посредством ключевых слов и (или) дескрипторов, называется дескрипторным языком.

Термины «индексирование» и «индексатор» распространены в англоязычной


литературе и широко применяются в международной и отечественной библиотечной
практике.

В зависимости от того, какой принцип индексирования является ведущим (или


единственным) различают предметизационные, классификационные и
дескрипторные информационно-поисковые языки. В соответствии с характером ИПЯ
индексирование осуществляется как предметизация, систематизация и координатное
индексирование.

А в качестве терминов этих видов индексирования используют предметные рубрики,


классификационные индексы, дескрипторы, ключевые слова.

В зависимости от типа используемого ИПЯ, различают два режима индексирования:


предкоординатное (классификационное) и посткоординатное.

В предкоординатном индексировании связи между терминами индексирования


устанавливаются заранее – при разработке соответствующего ИПЯ. К
предкоординатным ИПЯ можно отнести следующие:

 перечислительные классификации;
 иерархические классификации;
 предметные классификации;
 фасетные классификации.

В посткоординатном индексировании связи (координация) между терминами


индексирования устанавливаются во время индексирования документов или в процессе
их поиска. К посткоординируемым ИПЯ относят:

 дескрипторные языки;
 посткоординируемые фасетные классификации.

Теоретические основы и методика процессов индексирования

(предметизации, систематизации, координатного индексирования) подробно изложены


в последующих главах методического пособия.

9. Автоматическое реферирование.
Обзорный реферат – это совокупность предложений, позволяющих пользователю за
небольшое время ознакомиться с основным содержанием тематически
связанного набора документов.

К обзорному реферату предъявляются требования:

 По содержанию
 По читабельности

Задачи:

 Разработка модели кластеризации предложений с учетом информации об


отношениях между словами, описанной в тезаурусе РуТез
 Проведение оценки качества кластеризации предложений
 Создание системы автоматического составления обзорного реферата на основе
метода кластеризации предложений для обеспечения:
 полноты покрытия содержания набора документов
 снижения повторяемости информации в реферате.

Исходные данные:

 Набор новостных статей (Статьи с единой темой)

 Результаты графематического анализа (Размеченные предложения)

 Результаты морфологического анализа (Слова, приведенные к начальной форме)


 Выделенные концепты набора статей (Концепт – слово, определение которого найдено
в тезаурусе)

 Связи концептов в тезаурусе

 Мексика – Государство

 Колумбия – страна Латинской Америки

Вам также может понравиться