Вы находитесь на странице: 1из 15

Машинное обучение в

лингвистике

Введение: Формализация задач машинного


обучения
Машинное обучение в лингвистике

• математический метод обработки естественного языка, которые


на русском языке называют
• машинным обучением (MO) — перевод-калька с английского machine
learning. В своей основе эти методы известны очень давно, например,
специалисты по радиотехнике, называют их математической
оптимизацией или теорией статистического управления.

• Они используются при работе с большими массивами данных,


связанных не только с языком. Но в прикладной лингвистике
статистический подход стал настолько популярным, что некоторые
считают его единственным эффективным методом обработки языка
Фредерик Йелинек
«Каждый раз, когда увольняется
лингвист, производительность системы
возрастает»

”Anytime a linguist leaves the group the


recognition rate goes up»
В самом общем виде задачу
МО можно описать так.
Имеется некоторое множество, называемое традиционно
множеством объектов. Каждому объекту по какой-то системе
приписывается признак из множества, именуемого множеством
ответов.
Систему, по которой объекту приписывается ответ, называют
целевой функцией (target function). В некоторых задачах она
представляет собой «черный ящик» — для каждого конкретного
объекта можно сказать, какой именно ответ дает целевая функция,
но самый принцип описать либо очень трудно, либо вовсе
невозможно.
МО
• Пример такого черного ящика — распознавание части речи слов.
Здесь объектами будут слова,
• ответами — соответствующие части речи, а целевой
функцией — принцип, по которому определяется часть речи для
всякого слова.
• Хотя в большинстве случаев носитель языка без труда определит
часть речи, но описать во всей полноте принцип, по которому че-
ловек делает выбор, едва ли возможно.
Машинное обучение в лингвистике

• Словаря с указанием частей речи для каждого слова недостаточно.


• Ведь в естественном языке нередки случаи лексической неоднозначности,
так например слово «были» может быть как глаголом, так и
существительным в зависимости от контекста.
• Значит, необходимо, как минимум, учесть синтаксический контекст.
Но даже если описать все возможные правила русского языка, в языке
найдутся спорные случаи. Рассмотрим предложение: «Рядовые были
забыты своим командиром».
• С точки зрения синтаксиса части речи слов «рядовые были» однозначно
определить нельзя, хотя носитель языка без труда выберет верный
вариант.
Задача МО
• Итак, задача МО — подобрать такую функцию, которая с одной
стороны наиболее близка к целевой, то есть почти всегда дает
«правильные» ответы, а с другой стороны реализуема на
компьютере, универсальна и не требует значительных
человеческих «жертв».
• Например, составление всеобъемлющего частеречного словаря
этим параметрам не отвечает: потребуется огромное количество
человекочасов для разметки, а полученные данные нельзя будет
применять в других задачах.
«Близкая» функция
• Чтобы понять, насколько полученная функция близка к целевой,
требуется сначала определить, что значит «близкая» функция.
• Это не такой очевидный вопрос.🧐
• Ведь если функция, определяющая рост человека, ошиблась на 2–3
сантиметра, можно сказать, что он «почти» угадан, но если неверно
определен пол человека, сказать, что он «почти» угадан, уже нельзя.
• За оценку близости отвечает функционал качества (quality function).
Поскольку проверить на всем множестве объектов невозможно,
проводят статистическую оценку на контрольной выборке.
Обучение с учителем (supervised learning)
• Приближение целевой функции может строиться по заранее
известным данным. Тогда такой метод называют обучением с
учителем (supervised learning), а данные — обучающей
выборкой (training set). Это наиболее распространенный
случай в лингвистике.
• Например, некоторые автоматические переводчики
позволяют пользователям выбрать наиболее удачный перевод и
корректируют свою работу, основываясь на полученных данных.
Такие задачи встречаются реже.
Обучение без учителя (unsupervised
learning)
• Третья разновидность алгоритмов — обучение без учителя
(unsupervised learning). Такие алгоритмы, например, разбивают
объекты на группы, называемые кластерами (clusters), причем в
одном кластере оказываются близкие объекты. Впоследствии
всем элементам кластера присваивается один и тот же ответ.
• Трудно приближать функцию, которая действует, например, на множестве
цветков или птиц. Поэтому в качестве объекта чаще всего рассматривается не сам
предмет, но набор его количественных характеристик, важных в рамках данной
задачи.
• Например, для классификации цветков ириса Фишер вместо самих цветов
рассмотрел их численные характеристики (длина, ширина лепестка и
чашелистика), таким образом, множество представляло собой не букет, а набор
точек в четырехмерном пространстве.
• Это самый распространенный подход — представление объектов в некотором
признаковом пространстве. Иногда объекты описывают через расстояния между
ними или с помощью графической модели. Пусть, например, необходимо
определить положительную или отрицательную окраску следующего текста
(отзыв на смартфон):
(отзыв на смартфон)
• Как всегда на высоте качество исполнения. Поражает безу-
пречность работы экрана, кнопок, датчиков и сенсоров. Мне
очень нравятся наушники, которые имеют качество звучания
близкое к вакуумным вкладышам, но не изолируют тебя от
внешних звуков и, что для меня важнее всего, не скрипят
силиконом в ушах при беге. Каме- ра делает фото еще лучше,
экран еще ярче и четче и т. д. ... хотя не могу сказать, что в
пятерке с этим были проблемы.
• Пусть при этом у нас есть обучающая выборка из других текстов
(отзывов на смартфоны):
Текст Оценка

Мне очень понравилась эта модель! Во-первых, положительная


классный дизайн, во-вторых, круто снимает в
помещении, за счет позволяя понизить ISO, что очень
сильно порадовало, в-третьих, на мой взгляд, он
совершенно не тормозит и у него очень четкая и
плавная картинка, всем советую)

Цена сильно завышена, такое ощущение как будто здо-


рово переплатил, появляется после недели
отрицательная
использования. Аккумулятор не долгий, но и не совсем
уж дохлый, но за эти деньги можно было б и
поживучее сделать
Батарея держит значительно дольше, чем в 5s. Теперь
телефона с легкостью хватает на целый день активно-
го использования. Можно совсем не париться по положительная
поводу зарядки. 5s успевал два раза сесть за это
время, что очень доставало.

Нет возможности поместить на рабочий стол люби-


Тогда мы можем описать входные данные различными способами:

• Если имеется словарь оценочных слов, каждому тексту можно сопос-


тавить набор слов из этого словаря.
• Использовать каждое слово как признак для описания.
• Описать расстояние между каждой парой текстов, например, как ко-
личество общих слов. При этом можно завести список стоп-слов, ко-
• торые не следует учитывать.
• Итак, на практике задача МО требует от лингвиста следующее:
• 1)  построение грамотной модели входных данных (самая сложная часть);
• 2)  выбор класса, к которому предположительно относится целевая
функция; выбор и применение метода МО;
• 3)  оценкаполученногорезультата.

Вам также может понравиться