Академический Документы
Профессиональный Документы
Культура Документы
Amazon
Am
С помощью
по этого урав-
нен
нения компания опреде-
ляе
ляет, какие продукты вы
пре
предпочитаете.
YouTube
По такой формуле сер-
вис вычисляет, какое
видео вам нравится.
Apple Genius
По этому принципу
iTunes составляет
список ваших люби-
мых хитов.
Facebook
Fa
Из этой суммы соци-
ал
альный сервис узнает,
ка
какие друзья для вас
наиболее важны.
Google+
Данный алгоритм показывает
Google, кто из пользователей
разделяет ваши интересы.
Как Интернет
манипулирует
нами
Google, Facebook и другие сервисы собирают наши личные данные и внедряют их
в свои алгоритмы. Они анализируют наше поведение и самостоятельно принимают
решение о том, какой контент нам преподнести.
Н
екоторые действия мы со- полученный алгоритмом PageRank, ем, считает писатель Эли Паризер.
вершаем автоматически, и сравнивает его с уже имеющейся Он критикует персонализированный
не задумываясь. К ним от- информацией о пользователе. Затем Интернет, который скрывает от поль-
носятся, например, чистка он меняет порядок ссылок в результа- зователя новую или неугодную ин-
зубов или поиск информа- тах поиска таким образом, чтобы они формацию и показывает только то,
ции в Google: мы открываем браузер, в точности соответствовали потреб- что отвечает его требованиям. У этих
загружаем поисковик, вводим ключе- ностям данного конкретного пользо- манипуляций есть свои последствия:
вые слова в строке поиска и кликаем вателя, учитывали его предпочтения мы больше не стремимся перераба-
по ссылке, кажущейся нам многообе- и местонахождение. тывать массивы информации и кри-
щающей. Одновременно с запросом Опытные интернет-пользователи тически оценивать результаты поис-
Google получает файл cookie, кото- хорошо знают, что есть еще сайты, ка. Спросом пользуется комфорт, а не
рый соединяет пользователя с базой которые, стремясь к высокой по- необходимость размышлять, поэтому
данных. В этой базе хранится вся ин- сещаемости, используют оптимиза- персонализированный Интернет при-
формация о браузере пользователя, о цию под поисковые запросы и за счет меняет цензуру, а пользователь пре-
том, на каком языке и где был сфор- этого продвигаются на первые пози- вращается в потребителя.
мулирован запрос, по каким ключе- ции в результатах поиска Google. Этот феномен уже приобрел гло-
вым словам осуществлялся поиск, а Также не секрет, что компании, ра- бальные масштабы, поскольку наря-
также какие ссылки были выбраны в ботающие в Интернете, задейству- ду с Google многие веб-гиганты, та-
результатах поиска. ют файлы cookie для отображения кие как Facebook, YouTube и Amazon,
Затем к работе приступает алгоритм персонализированной рекламы. По- а также небольшие интернет-мага-
ссылочного ранжирования PageRank. этому они пользуются собственным зины применяют свои версии филь-
Он определяет значимость каждого «встроенным» фильтром и сами ре- тров. В их основе лежат алгоритмы,
веб-сайта, ориентируясь на то, какое шают, какие результаты поиска важ- последовательность сложных формул.
количество ссылок на него ведет. ны, а какие нет. Используя имеющиеся данные о поль-
Таким образом, веб-страницы, часто зователе, они вычисляют, какую ин-
упоминаемые на авторитетных сай- Фильтрация устанавливает формацию ему необходимо препод-
тах, постепенно передвигаются в верх- невидимые границы нести — будь то рекомендуемые това-
нюю часть списка. После этого дру- Этот фильтр в наших умах подменя- ры, сообщения от друзей или персо-
гой алгоритм обрабатывает результат, ется другим, который мы не замеча- нализированные результаты поиска.
В результате такие фильтры выдают
вам искаженную картину реальности.
«Алгоритмы фильтруют На примере трех крупнейших ин-
тернет-порталов CHIP расскажет вам,
поступающую к нам как работают данные алгоритмы и
насколько точны их рекомендации.
информацию» А вот стоит ли доверять им и пола-
гаться на персонализированный Ин-
Эли Паризер, автор книги «Фильтрующий пузырь»
тернет, решать только вам. ➜
CHIP
CHI
C
CHHIP | Д
ДЕКАБРЬ
ДЕ
ДЕК
ЕК
Е ААБ
АБР
Б Р Ь 2201
БР 2011
011111
0011 85
ТЕСТЫ И ОБЗОРЫ Онлайн-сервисы
Л
ишь немногие посетители Все- лишь наблюдать за его действием. новость с точки зрения того, насколь-
мирной сети отметили, что 4 де- Этим занимались английские исследо- ко она может быть интересна пользо-
кабря 2009 года Интернет стал ватели, которые пришли к выводу, что вателю. Два первых алгоритма будут
другим. В этот день компания Goo- доля модифицированных результатов сравнивать его предпочтения со вку-
gle внедрила персонализированный поиска повышается с 10% до более сами других людей и искать сходства.
поиск для каждого из нас. Это оз- чем 50% по мере того, как алгоритм Третий станет анализировать то,
начает, что результаты поиска у всех накапливает данные о нашей сетевой каким новостям этот человек отдает
пользователей всегда разные. Вам нра- активности. В поисковом сервисе «Ян- предпочтение и насколько интенсив-
вится совершать покупки в онлайн- декс» также ввели новую платформу но он занят их изучением. При этом
магазине Amazon, или вы обычно под названием «Рейкьявик». Пока ее комментарии пользователя будут ука-
подбираете турпоездки в Интернете? персонализированный поиск работает зывать на то, что предложенные ему
Все эти факторы влияют на то, что только с запросами на английском новости действительно прочитаны.
вы увидите в результатах поиска. По- языке, но выдает в списке результа- Исследователи из Microsoft Re-
исковая система регистрирует ссыл- тов и русскоязычные сайты. search разработали алгоритм, кото-
ки, по которым вы переходите, и рый пытается спрогнозировать, по
формирует результаты поиска соот- Алгоритмы предвидят ваш какой именно ссылке в результатах
ветствующим образом. следующий щелчок мышью поиска вы перейдете. И хотя на дан-
Персонализированная система по- Хорошим примером персонализации ный момент точность работы со-
иска работает для всех — независимо являются новости Google. Если поль- ставляет менее 20%, однако по мере
от того, есть у вас аккаунт Google или зователь активирует в своем аккаун- накопления данных о пользовате-
нет. Идентификатор файла cookie от те Google «Историю веб-поиска», для ле точность прогнозов повышается.
Google устанавливает связь компью- него будет создана персональная стра- В будущем достаточно будет ввести
тера пользователя со специальной ница новостей. Google будет регист- ключевое слово в строке поиска —
базой данных. Несмотря на то что рировать каждый клик, совершаемый и система автоматически откро-
функцию персонализированного по- на этой странице. ет подходящий сайт. Отображение
иска можно отключить на главной Затем начнут работать три алгорит- длинного списка вариантов больше
странице Google, сетевой гигант про- ма, которые станут оценивать каждую не понадобится.
должит регистрировать все ваши дей-
ствия с помощью файлов cookie. Ес-
ли вы хотите повлиять на результаты
поиска, войдите в свой аккаунт Goo-
«Персонализация — это
gle и удалите историю поиска. Таким
образом вы измените информацион-
очень тонкий процесс.
ную основу, на которую опирается Пользователь ничего
алгоритм в своих расчетах.
Поскольку Google скрывает детали не замечает»
работы данного алгоритма, остается Зепандар Камвар, разработчик персонализированного поиска Google
С
оциальная сеть Facebook объе- Алгоритм Edgerank определяет не оценивает, насколько сильно ваше
диняет 700 млн пользователей только то, что мы увидим на стра- поведение отличается от модели
и такое же количество профи- нице, но и то, с кем и как мы бу- среднестатистического пользовате-
лей, на которые приходится в общей дем общаться. Если автор хочет ля, и определяет значимость отдель-
сложности около триллиона про- привлечь к себе внимание и дер- ных факторов.
смотренных страниц в месяц. Сред- жаться на верхних позициях ленты В апреле этого года возможности
нее количество друзей у пользователя новостей, его публикация должна алгоритма были расширены. Теперь
Facebook составляет 120–130 чело- иметь как можно большее количе- при создании электронного сообще-
век. Каждый друг в месяц совершает ство комментариев. Приветствует- ния вам будут предлагаться адресаты
около 90 действий, начиная с просто- ся проведение дискуссии, разме- из списка контактов, которых мог-
го клика по кнопке «Мне нравится» щение ссылок или поддержание ло бы заинтересовать ваше письмо.
и заканчивая размещением публика- публикации в актуальном состоя- Кроме того, Google Mail проверяет,
ций. Все друзья из списка контактов нии, то есть пополнение контента. не отошлете ли вы письмо нежела-
за это время производят в совокуп- тельному адресату. Например, с помо-
ности более 11 000 действий. В такой Социальные сети сортируют щью анализа вашей переписки алго-
ситуации, разумеется, сложно быть наших друзей ритм может отделять профессиональ-
в курсе всех новостей, особенно с Google также попытается выяснить, с ные контакты от личных. Точность, по
учетом того, что в среднем пользо- кем вы предпочитаете общаться, как утверждению Google, составляет 70%.
ватель ежедневно проводит на Face- только вы активируете папку «Прио- За всем этим стоит система Google
book менее одного часа. ритетные» посредством опции «Филь- Implicit Social Graph, в которой каж-
Но вам не стоит беспокоиться — трация сообщений». дый пользователь Gmail является клю-
эту задачу решит алгоритм Edgerank. С этого момента Google Mail боль- чевым объектом гигантской матри-
Он сортирует ленту новостей ваших ше не будет сортировать сообщения цы. Как и Facebook, Google называет
друзей и определяет, какие события по дате. Вместо этого алгоритм по- взаимодействие между пользовате-
для вас важны, а какие вы не за- пытается определить, какие письма лями Edges (англ. «кромка, край, гра-
хотите читать. Сначала алгоритм про- важны, и поместит их отдельно от ница») и оценивает его. Граф создает
веряет, насколько интенсивно вы сле- всех остальных. Определение степе- для каждого пользователя модель, в
дите за новостями того или ино- ни важности осуществляется на ос- которой он является центром своей
го пользователя: часто ли читаете и нове сотен факторов, в том числе и «эгоцентрической сети». Алгоритм
комментируете его публикации, ре- социальных. Например, Gmail учи- Friend Suggest использует граф, что-
гулярно ли посещаете его страницу. тывает, как часто вы общаетесь с бы объединить людей с общими ин-
Помимо этого оценивается характер определенным пользователем. Так- тересами. Внедрение в Google+ гра-
публикаций. Например, той записи, же письма проверяются на наличие фа, позволяющего предлагать друзей
которая пользуется популярностью у ключевых слов, вызывающих у вас для кругов, сделает возможным по-
читателей или содержит видеоролик, интерес. Алгоритм учитывает также лучить такой же эффект, как если
алгоритм присваивает более высо- продолжительность переписки и ее бы Facebook кликнул за вас по кноп-
кий приоритет. инициатора. В завершение алгоритм ке «Мне нравится». ➜
П
атент, выданный в США под мим покупателем, чтобы разобрать- Модель матричной факторизации
номером 6266649, ознаменовал ся в том, что посоветовали и купи- опирается на базу данных, касаю-
рождение рекомендательных ал- ли другие клиенты. Алгоритм Cine- щихся активности пользователей в
горитмов в Глобальной сети. В нем match, применявшийся крупнейшим Сети. Анализу подвергается не толь-
описывается алгоритм Item to Item интернет-видеопрокатом DVD Net- ко оценка пользователем того или
(«товар-товар»), сделавший Amazon flix до 2009 года, подобным образом иного продукта, но и его поведение
крупнейшим интернет-магазином в добился довольно высокой точно- на сайте: начиная с вводимой в стро-
мире. Он учитывает, сколько раз то- сти — порядка 60%. ке поиска информации и заканчивая
вары были куплены разными лица- движением мыши. Результат — точ-
ми, как высоко они были ими оце- Систематизация покупателей ность рекомендаций выросла более
нены и насколько поведение этих Сегодня системой рекомендаций Net- чем на 10% по сравнению с примене-
пользователей схоже с вашим. Таким flix управляет расчетная модель ма- нием алгоритма Cinematch.
образом, в центре внимания оказы- тричной факторизации. Она систе- Некоторые покупатели доверяют
вается не сам покупатель, а товар, в матизирует пользователей и филь- спискам лучших товаров, другие –
отношении которого алгоритм при- мы в диаграмме, которая включает, мнениям экспертов или оригиналь-
меняет фильтрацию по принципу по- например, категории «серьезные» и ным рекламным слоганам. Необхо-
хожести предметов: чем больше сход- «эскапистские», а также делит пуб- димо только выяснить, что является
ство продуктов, тем выше точность. лику на мужскую и женскую. Такая определяющим для конкретного по-
Данный подход оправдывает себя: диаграмма показывает, насколько от- купателя, — и можно будет оказывать
исследователи рынка из компании дельные пользователи далеки от то- на него влияние. Сегодня уже ведутся
Nielsen в ходе обширного анализа го, чтобы выбрать какой-либо фильм. разработки алгоритмов со 100-про-
выяснили, что почти 60% онлайн- Иногда результат превосходит все центной точностью — правда, пока
покупателей помимо основного то- ожидания. Например, оказывается, только в рамках научных исследо-
вара часто обнаруживают и приобре- что есть люди, которые с одина- ваний. Может, это и к лучшему, так
тают что-то другое. ковым удовольствием смотрят как как практически каждый из нас хотел
Преимущество данной системы, за- «Волшебника из страны Оз», так и бы сохранить возможность делать
пущенной Amazon десять лет назад, «Молчание ягнят». свободный выбор.
заключается в том, что все расчеты
можно проводить в режиме офлайн.
К тому же она требует наличия под-
робной информации о профиле кли-
«Мы зарабатываем
ента. Поэтому в настоящее время да- деньги, когда
же YouTube рекомендует похожее ви-
део по принципу Amazon. помогаем людям
Описанная выше математическая
модель — коллаборативная фильтра-
принимать решения»
ция — может использоваться и са- Джефф Безос, основатель Amazon
1 Из базы данных (a) отбираются продукты (b), 1 Извлечение 2 Сравнение с по- 3 Расчет рекоменда- 4 Предложение
которые предпочитают покупать клиенты того же данных хожими клиентами ции на основе алгоритма товара
типа, что и вы.
2 На основании полученных данных строится мо- (a) (a) (a)
дель фильтрации по принципу схожести предметов:
на каком расстоянии клиент находится от других
покупателей (a) и в какой степени он соответствует
покупателям, отобранным по принципу сходства (b).
3 Результатом этого анализа являются две реко- (b) (b) (b)
мендации: при наличии недостаточных данных
предлагается самый популярный товар из отобран-
ных по принципу сходства продуктов (a), в осталь-
ных случаях — варианты, сформулированные
с учетом предпочтений схожих покупателей (b).