Вы находитесь на странице: 1из 5

Учреждение образования

«БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ


ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ»

Кафедра интеллектуальных информационных технологий

Отчет по лабораторной работе №3


по курсу «ЕЯзИИС»
на тему: «Методы автоматического распознавания языка текстового
документа»

Выполнили Волах Д.Ю.


студентки гр. 621702: Скороход А.А.

Проверил: Крапивин Б.Ю.

МИНСК
2019

Цель работы: изучить и отработать практические навыки применения


методов автоматического распознавания языка текстовых документов.

№ варианта Язык текста Формат Реализуемый метод


документа

15 Французский,
Итальянский Pdf Частотных, коротких слов
Информация о тестовой коллекции документов

Тестовая коллекция состоит из двух документов – по одному для каждого


языка.

Тестовая выборка для французского языка представляет собой набор слов


и количество их повторений из очень большого текста

Тестовая выборка для итальянского языка представляет собойнабор слов


и количество их повторений из очень большого текста

Структура разработанной системы:


Клиентская часть:
index.html – основная страница, на которой отображается работа
программы.
help.html – страница, содержащая информацию об использовании
системы.
styles.css – стили для страниц.
Серверная часть:
server.js – основной файл, в котором происходит реализация программы.
Описание структур данных, использованных для хранения входной и
выходной информации
Входными данными является pdf-документ, который преобразуется в
массив состоящих из всех слов документа.
Выходные данные представляют собой строку - результат идентификации
поданного на вход документа.

Описание алгоритма определения языка (в текстовом и графическом


виде)

Метод частотных слов


Согласно методу частотных слов ПОЯ представляет собой набор слов,
обладающих наибольшей частотой встречаемости в сравнении с
остальными словами документов из обучающего корпуса. Вероятность
принадлежности входного документа языку определяется на основании
пословного сравнения с ПОЯ с учётом рассчитанных вероятностей его
элементов.

На рисунке 3 представлена схема алгоритма частотных слов.


Рисунок 3 – Схема алгоритма частотных слов

Метод коротких слов

Метод коротких слов при построении ПОЯ использует слова


определённой длины, не превышающей заданный порог. Например, для
каждого идентифицируемого языка, могут извлекаться лексемы длиной до
пяти символов, встретившиеся в тексте более трёх раз. Вероятность
появления в тексте i-й лексемы рассчитывалась как отношение её частоты
к общей сумме частот всех лексем из полученного набора. Предложение
входного документа разбивается на лексемы, и лексемам,
присутствующим в ПОЯ, назначаются их частоты, а отсутствующим –
некоторая минимальная частота. Вероятность принадлежности
предложения языку рассчитывается как произведение вероятностей его
лексем.
На рисунке 4 представлена схема алгоритма метода коротких слов.

Рисунок 4 - Схема алгоритма метода коротких слов

Описание и особенности применения готовых к использованию


компонент:
Для серверной части использовался NodeJS - программная платформа,
превращающая JavaScript из узкоспециализированного языка в язык
общего назначения.
В рамках серверной части использовались следующие модули:
Express - это веб-фреймворк для приложений Node.js,
предоставляющий обширный набор функций для мобильных и веб-
приложений.
Axios – JavaScript-библиотека для выполнения либо HTTP-запросов в
Node.js.
Cheerio - html DOM парсер на платформе node.js.

Выводы: В рамках лабораторной работы была разработана система


распознавания языка документа методами частотных и коротких слов.