• математический метод обработки естественного языка, которые
на русском языке называют • машинным обучением (MO) — перевод-калька с английского machine learning. В своей основе эти методы известны очень давно, например, специалисты по радиотехнике, называют их математической оптимизацией или теорией статистического управления.
• Они используются при работе с большими массивами данных,
связанных не только с языком. Но в прикладной лингвистике статистический подход стал настолько популярным, что некоторые считают его единственным эффективным методом обработки языка Фредерик Йелинек «Каждый раз, когда увольняется лингвист, производительность системы возрастает»
”Anytime a linguist leaves the group the
recognition rate goes up» В самом общем виде задачу МО можно описать так. Имеется некоторое множество, называемое традиционно множеством объектов. Каждому объекту по какой-то системе приписывается признак из множества, именуемого множеством ответов. Систему, по которой объекту приписывается ответ, называют целевой функцией (target function). В некоторых задачах она представляет собой «черный ящик» — для каждого конкретного объекта можно сказать, какой именно ответ дает целевая функция, но самый принцип описать либо очень трудно, либо вовсе невозможно. МО • Пример такого черного ящика — распознавание части речи слов. Здесь объектами будут слова, • ответами — соответствующие части речи, а целевой функцией — принцип, по которому определяется часть речи для всякого слова. • Хотя в большинстве случаев носитель языка без труда определит часть речи, но описать во всей полноте принцип, по которому че- ловек делает выбор, едва ли возможно. Машинное обучение в лингвистике
• Словаря с указанием частей речи для каждого слова недостаточно.
• Ведь в естественном языке нередки случаи лексической неоднозначности, так например слово «были» может быть как глаголом, так и существительным в зависимости от контекста. • Значит, необходимо, как минимум, учесть синтаксический контекст. Но даже если описать все возможные правила русского языка, в языке найдутся спорные случаи. Рассмотрим предложение: «Рядовые были забыты своим командиром». • С точки зрения синтаксиса части речи слов «рядовые были» однозначно определить нельзя, хотя носитель языка без труда выберет верный вариант. Задача МО • Итак, задача МО — подобрать такую функцию, которая с одной стороны наиболее близка к целевой, то есть почти всегда дает «правильные» ответы, а с другой стороны реализуема на компьютере, универсальна и не требует значительных человеческих «жертв». • Например, составление всеобъемлющего частеречного словаря этим параметрам не отвечает: потребуется огромное количество человекочасов для разметки, а полученные данные нельзя будет применять в других задачах. «Близкая» функция • Чтобы понять, насколько полученная функция близка к целевой, требуется сначала определить, что значит «близкая» функция. • Это не такой очевидный вопрос.🧐 • Ведь если функция, определяющая рост человека, ошиблась на 2–3 сантиметра, можно сказать, что он «почти» угадан, но если неверно определен пол человека, сказать, что он «почти» угадан, уже нельзя. • За оценку близости отвечает функционал качества (quality function). Поскольку проверить на всем множестве объектов невозможно, проводят статистическую оценку на контрольной выборке. Обучение с учителем (supervised learning) • Приближение целевой функции может строиться по заранее известным данным. Тогда такой метод называют обучением с учителем (supervised learning), а данные — обучающей выборкой (training set). Это наиболее распространенный случай в лингвистике. • Например, некоторые автоматические переводчики позволяют пользователям выбрать наиболее удачный перевод и корректируют свою работу, основываясь на полученных данных. Такие задачи встречаются реже. Обучение без учителя (unsupervised learning) • Третья разновидность алгоритмов — обучение без учителя (unsupervised learning). Такие алгоритмы, например, разбивают объекты на группы, называемые кластерами (clusters), причем в одном кластере оказываются близкие объекты. Впоследствии всем элементам кластера присваивается один и тот же ответ. • Трудно приближать функцию, которая действует, например, на множестве цветков или птиц. Поэтому в качестве объекта чаще всего рассматривается не сам предмет, но набор его количественных характеристик, важных в рамках данной задачи. • Например, для классификации цветков ириса Фишер вместо самих цветов рассмотрел их численные характеристики (длина, ширина лепестка и чашелистика), таким образом, множество представляло собой не букет, а набор точек в четырехмерном пространстве. • Это самый распространенный подход — представление объектов в некотором признаковом пространстве. Иногда объекты описывают через расстояния между ними или с помощью графической модели. Пусть, например, необходимо определить положительную или отрицательную окраску следующего текста (отзыв на смартфон): (отзыв на смартфон) • Как всегда на высоте качество исполнения. Поражает безу- пречность работы экрана, кнопок, датчиков и сенсоров. Мне очень нравятся наушники, которые имеют качество звучания близкое к вакуумным вкладышам, но не изолируют тебя от внешних звуков и, что для меня важнее всего, не скрипят силиконом в ушах при беге. Каме- ра делает фото еще лучше, экран еще ярче и четче и т. д. ... хотя не могу сказать, что в пятерке с этим были проблемы. • Пусть при этом у нас есть обучающая выборка из других текстов (отзывов на смартфоны): Текст Оценка
Мне очень понравилась эта модель! Во-первых, положительная
классный дизайн, во-вторых, круто снимает в помещении, за счет позволяя понизить ISO, что очень сильно порадовало, в-третьих, на мой взгляд, он совершенно не тормозит и у него очень четкая и плавная картинка, всем советую)
Цена сильно завышена, такое ощущение как будто здо-
рово переплатил, появляется после недели отрицательная использования. Аккумулятор не долгий, но и не совсем уж дохлый, но за эти деньги можно было б и поживучее сделать Батарея держит значительно дольше, чем в 5s. Теперь телефона с легкостью хватает на целый день активно- го использования. Можно совсем не париться по положительная поводу зарядки. 5s успевал два раза сесть за это время, что очень доставало.
Нет возможности поместить на рабочий стол люби-
Тогда мы можем описать входные данные различными способами:
• Если имеется словарь оценочных слов, каждому тексту можно сопос-
тавить набор слов из этого словаря. • Использовать каждое слово как признак для описания. • Описать расстояние между каждой парой текстов, например, как ко- личество общих слов. При этом можно завести список стоп-слов, ко- • торые не следует учитывать. • Итак, на практике задача МО требует от лингвиста следующее: • 1) построение грамотной модели входных данных (самая сложная часть); • 2) выбор класса, к которому предположительно относится целевая функция; выбор и применение метода МО; • 3) оценкаполученногорезультата.