Вы находитесь на странице: 1из 4

Новая языковая модель искусственного интеллекта генерирует

поэзию и прозу.
GPT-3 может очень походить на человека – в этом есть как
преимущества, так и недостатки.
Член комиссии по ценным бумагам сказал: «Маск, / твои твиты
имеют пагубное влияние. / Они действительно могут стоить тебе работы,
/ если ты не прекратишь / писать твиты по ночам». /… Затем Маск
ответил:
«Почему? / Я не писал оскорбительные твиты, / Я не использую заглавные
буквы / и уверен, что в моих твитах нет ничего плохого ». /« Но ваши твиты
могут влиять на рыночные цены / и именно этого мы боимся. / Ты можешь
быть гением/ и миллиардером, / но это не дает тебе права быть занудой!».

Вышенаписанные строки, описывающие конфликты основателя Tesla и


SpaceX Илона Маска с Комиссией по ценным бумагам и биржам,
американским финансовым регулятором, не являются вымыслом какого-то
честолюбивого доктора Сьюза 21-го века. Они взяты из стихотворения,
написанного компьютером, работающим на программном обеспечении под
названием Generative Pre-Trained Transformer 3, или как ее чаще называют,
Gpt-3, был разработан компанией OpenAI. Это лаборатория искусственного
интеллекта (AI) расположена в Сан-Франциско, ее помог основать Илон
Маск. Этот алгоритм представляет собой последнее достижение в одной из
наиболее изученных областей искусственного интеллекта: предоставление
компьютерам возможности генерировать сложный текст, похожий на
созданный человеком.
Эта технология основана на так называемой идее «языковой модели».
Суть заключается в обработке статистических данных языка, например,
рассчитать какова вероятность того, что слова следуют за другими словами
или, допустим, как часто за словом «красный» следует слово «роза». Такой
же анализ может быть выполнен с предложениями или даже целыми
абзацами. Далее такой модели можно дать подсказку, скажем,
«стихотворение о красных розах в стиле американской поэтессы Сильвии
Плат» - и она будет копаться в своем наборе статистических взаимосвязей
между языковыми единицами, чтобы найти текст, соответствующий
описанию.
Однако на самом деле создание такой языковой модели - большая
работа. Именно здесь в игру вступает искусственный интеллект - или
машинное обучение, особая область искусственного интеллекта. Копаясь в
огромных объемах письменного текста, обучаясь методом проб и ошибок из
миллионов попыток предсказания текста, компьютер может справиться с
этой трудоемкой задачей построения статистических взаимосвязей.
Чем сложнее алгоритм и чем больше он может обработать текстов, тем
лучше он будет работать. И именно беспрецедентный масштаб отличает gpt-3
от других программных обеспечений. Модель, лежащая в основе gpt-3,
может похвастаться 175 миллиардами параметров, каждый из которых
можно настраивать индивидуально - а это на порядок больше, чем у любой из
ее предшественников. Gpt-3 был обучен самому большому набору текста,
когда- либо накопленному, это смесь книг, Википедии и Common Crawl. Gpt-
3 также обучен набору миллиардов страниц текста, собранных со всех
уголков Интернета.
Что говорит статистика
Результаты могут быть впечатляющими. В середине июля Openai
предоставил избранным лицам раннюю версию программного обеспечения,
чтобы они могли узнать, на что оно способно. Аррам Сабети, художник,
продемонстрировал способность gpt-3 писать короткие рассказы, в том числе
крутой детектив с Гарри Поттером в главной роли («Гарри Поттер в
потрепанном твидовом костюме, мятой рубашке и грязных туфлях, сидит за
столом в изможденном, озлобленном и помятом виде… »), комедийные
зарисовки и даже стихи (включая стихотворение в начале этой статьи « Илон
Маск от доктора Сьюза »). Эллиот Тернер, предприниматель и специалист по
искусственному интеллекту, продемонстрировал, как эту модель можно
использовать для перевода грубых сообщений в более вежливые, что может
оказаться полезным во многих наиболее агрессивных уголках Интернета.
Читатели изо всех сил пытались отличить новостные статьи, написанные
машиной, от статей, написанных людьми (см. Диаграмму).
Учитывая, что Openai хочет в конечном итоге продать gpt-3,
результаты можно считать многообещающими, но программа неидеальна.
Иногда кажется, что он выдает фрагменты заученного текста, а не создает
новый текст с нуля. По сути, статистическое сопоставление слов не заменяет
последовательного понимания мира. Gpt-3 часто генерирует грамматически
правильный текст, тем ни менее, текст не всегда соответствует
действительности, утверждая, например, что «требуется две радуги, чтобы
прыгнуть с Гавайев на 17». Мелани Митчелл, специалист по информатике из
Института Санта-Фе, утверждает: «У него нет какой-либо внутренней модели
мира - или какого-либо мира - и поэтому он не может делать рассуждения,
требующие такой модели».
Заставить модель отвечать на вопросы - хороший способ разрушить все
мифы и показать отсутствие понимания. Майкл Нильсен, исследователь с
опытом работы как в искусственном интеллекте, так и в квантовых
вычислениях, опубликовал беседу с gpt-3, в которой программа уверенно
подтвердила ответ на важный открытый вопрос, связанный с потенциальной
мощностью квантовых компьютеров. Когда доктор Нильсен настаивал на
объяснении очевидного прорыва, дела пошли еще хуже. Без реального
понимания того, что его просят сделать, gpt-3 начал уклоняться от ответа,
повторив четыре раза стандартную фразу: «Мне очень жаль, но у меня нет
времени объяснить причину».
Есть также вещи, которые GPT-3 узнал из Интернета, но OpenAI,
должно быть, этого не хотела. Такие слова-подсказки, как «черный»,
«еврей»,
«женщина» и «гей», часто порождают расизм, антисемитизм,
женоненавистничество и гомофобию. Это тоже связано со статистическим
подходом GPT-3 и его фундаментальным непониманием. Частично
обучившись работе с текстом, взятым из Интернета, он заметил, что такие
слова, как «женщина», часто ассоциируются с женоненавистническими
текстами, и бездумно воспроизводит эту корреляцию, когда его спросят.
Это самая актуальная тема в исследованиях искусственного
интеллекта. Общеизвестно, что системы распознавания лиц лучше работают с
белыми лицами, чем с черными, поскольку белые лица чаще встречаются в
их обучающих наборах. Исследователи искусственного интеллекта пытаются
решить эту проблему. В прошлом году компания IBM выпустила набор
обучающих изображений, которые содержали более разнообразное сочетание
лиц. Сама Openai была основана для изучения способов снижения риска,
создаваемого системами искусственного интеллекта, что делает упущения
gpt-3 еще более заметными. gpt-2, его предшественник, был выпущен в 2019
году с фильтром, который пытался замаскировать проблему извергнутого
фанатизма, ограничивая способность модели говорить на деликатные темы.
По крайней мере, здесь, кажется, был достигнут небольшой прогресс.
gpt-3 был выпущен без фильтра, хотя казался таким же готовым
воспроизводить неприятные заблуждения, как и его предшественник (Openai
добавил фильтр в новую модель после того, как этот факт стал очевиден).
Неясно, какой именно контроль качества Openai применял к обучающим
данным gpt-3, но из-за огромного количества задействованного текста любая
попытка была бы непростой.
В будущем будет только сложнее. Язык обогнал зрение как отрасль
искусственного интеллекта с наибольшим интересом к данным и
вычислительной мощности, и отдача от масштаба не показывает никаких
признаков замедления. В скором времени gpt-3 вполне может быть свергнут
еще более чудовищно сложной и жадной до данных моделью. Как сказал
однажды настоящий доктор Сьюз: “Чем больше вы читаете, тем больше вы
узнаете”. Похоже, этот урок применим и к машинам, и к малышам.
Эта статья появилась в разделе "Наука и технологии" печатного
издания под заголовком "Bit-lit".

Вам также может понравиться