Вы находитесь на странице: 1из 5

ТЕСТЫ И ОБЗОРЫ Онлайн-сервисы

Amazon
Am
С помощью
по этого урав-
нен
нения компания опреде-
ляе
ляет, какие продукты вы
пре
предпочитаете.

YouTube
По такой формуле сер-
вис вычисляет, какое
видео вам нравится.
Apple Genius
По этому принципу
iTunes составляет
список ваших люби-
мых хитов.

ФОТО: КОМПАНИИ-ПРОИЗВОДИТЕЛИ; CHRISTOS GEORGHIOU/FOTOLIA.COM

Facebook
Fa
Из этой суммы соци-
ал
альный сервис узнает,
ка
какие друзья для вас
наиболее важны.

Google+
Данный алгоритм показывает
Google, кто из пользователей
разделяет ваши интересы.
Как Интернет
манипулирует
нами
Google, Facebook и другие сервисы собирают наши личные данные и внедряют их
в свои алгоритмы. Они анализируют наше поведение и самостоятельно принимают
решение о том, какой контент нам преподнести.

Н
екоторые действия мы со- полученный алгоритмом PageRank, ем, считает писатель Эли Паризер.
вершаем автоматически, и сравнивает его с уже имеющейся Он критикует персонализированный
не задумываясь. К ним от- информацией о пользователе. Затем Интернет, который скрывает от поль-
носятся, например, чистка он меняет порядок ссылок в результа- зователя новую или неугодную ин-
зубов или поиск информа- тах поиска таким образом, чтобы они формацию и показывает только то,
ции в Google: мы открываем браузер, в точности соответствовали потреб- что отвечает его требованиям. У этих
загружаем поисковик, вводим ключе- ностям данного конкретного пользо- манипуляций есть свои последствия:
вые слова в строке поиска и кликаем вателя, учитывали его предпочтения мы больше не стремимся перераба-
по ссылке, кажущейся нам многообе- и местонахождение. тывать массивы информации и кри-
щающей. Одновременно с запросом Опытные интернет-пользователи тически оценивать результаты поис-
Google получает файл cookie, кото- хорошо знают, что есть еще сайты, ка. Спросом пользуется комфорт, а не
рый соединяет пользователя с базой которые, стремясь к высокой по- необходимость размышлять, поэтому
данных. В этой базе хранится вся ин- сещаемости, используют оптимиза- персонализированный Интернет при-
формация о браузере пользователя, о цию под поисковые запросы и за счет меняет цензуру, а пользователь пре-
том, на каком языке и где был сфор- этого продвигаются на первые пози- вращается в потребителя.
мулирован запрос, по каким ключе- ции в результатах поиска Google. Этот феномен уже приобрел гло-
вым словам осуществлялся поиск, а Также не секрет, что компании, ра- бальные масштабы, поскольку наря-
также какие ссылки были выбраны в ботающие в Интернете, задейству- ду с Google многие веб-гиганты, та-
результатах поиска. ют файлы cookie для отображения кие как Facebook, YouTube и Amazon,
Затем к работе приступает алгоритм персонализированной рекламы. По- а также небольшие интернет-мага-
ссылочного ранжирования PageRank. этому они пользуются собственным зины применяют свои версии филь-
Он определяет значимость каждого «встроенным» фильтром и сами ре- тров. В их основе лежат алгоритмы,
веб-сайта, ориентируясь на то, какое шают, какие результаты поиска важ- последовательность сложных формул.
количество ссылок на него ведет. ны, а какие нет. Используя имеющиеся данные о поль-
Таким образом, веб-страницы, часто зователе, они вычисляют, какую ин-
упоминаемые на авторитетных сай- Фильтрация устанавливает формацию ему необходимо препод-
тах, постепенно передвигаются в верх- невидимые границы нести — будь то рекомендуемые това-
нюю часть списка. После этого дру- Этот фильтр в наших умах подменя- ры, сообщения от друзей или персо-
гой алгоритм обрабатывает результат, ется другим, который мы не замеча- нализированные результаты поиска.
В результате такие фильтры выдают
вам искаженную картину реальности.
«Алгоритмы фильтруют На примере трех крупнейших ин-
тернет-порталов CHIP расскажет вам,
поступающую к нам как работают данные алгоритмы и
насколько точны их рекомендации.
информацию» А вот стоит ли доверять им и пола-
гаться на персонализированный Ин-
Эли Паризер, автор книги «Фильтрующий пузырь»
тернет, решать только вам. ➜

CHIP
CHI
C
CHHIP | Д
ДЕКАБРЬ
ДЕ
ДЕК
ЕК
Е ААБ
АБР
Б Р Ь 2201
БР 2011
011111
0011 85
ТЕСТЫ И ОБЗОРЫ Онлайн-сервисы

Google: «Я знаю, что тебя интересует»


Персонализацией сегодня пользуются все крупные поисковые системы. Это значит, что они проводят предва-
рительный отбор информации и выдают результаты в соответствии с предпочтениями пользователей.

Л
ишь немногие посетители Все- лишь наблюдать за его действием. новость с точки зрения того, насколь-
мирной сети отметили, что 4 де- Этим занимались английские исследо- ко она может быть интересна пользо-
кабря 2009 года Интернет стал ватели, которые пришли к выводу, что вателю. Два первых алгоритма будут
другим. В этот день компания Goo- доля модифицированных результатов сравнивать его предпочтения со вку-
gle внедрила персонализированный поиска повышается с 10% до более сами других людей и искать сходства.
поиск для каждого из нас. Это оз- чем 50% по мере того, как алгоритм Третий станет анализировать то,
начает, что результаты поиска у всех накапливает данные о нашей сетевой каким новостям этот человек отдает
пользователей всегда разные. Вам нра- активности. В поисковом сервисе «Ян- предпочтение и насколько интенсив-
вится совершать покупки в онлайн- декс» также ввели новую платформу но он занят их изучением. При этом
магазине Amazon, или вы обычно под названием «Рейкьявик». Пока ее комментарии пользователя будут ука-
подбираете турпоездки в Интернете? персонализированный поиск работает зывать на то, что предложенные ему
Все эти факторы влияют на то, что только с запросами на английском новости действительно прочитаны.
вы увидите в результатах поиска. По- языке, но выдает в списке результа- Исследователи из Microsoft Re-
исковая система регистрирует ссыл- тов и русскоязычные сайты. search разработали алгоритм, кото-
ки, по которым вы переходите, и рый пытается спрогнозировать, по
формирует результаты поиска соот- Алгоритмы предвидят ваш какой именно ссылке в результатах
ветствующим образом. следующий щелчок мышью поиска вы перейдете. И хотя на дан-
Персонализированная система по- Хорошим примером персонализации ный момент точность работы со-
иска работает для всех — независимо являются новости Google. Если поль- ставляет менее 20%, однако по мере
от того, есть у вас аккаунт Google или зователь активирует в своем аккаун- накопления данных о пользовате-
нет. Идентификатор файла cookie от те Google «Историю веб-поиска», для ле точность прогнозов повышается.
Google устанавливает связь компью- него будет создана персональная стра- В будущем достаточно будет ввести
тера пользователя со специальной ница новостей. Google будет регист- ключевое слово в строке поиска —
базой данных. Несмотря на то что рировать каждый клик, совершаемый и система автоматически откро-
функцию персонализированного по- на этой странице. ет подходящий сайт. Отображение
иска можно отключить на главной Затем начнут работать три алгорит- длинного списка вариантов больше
странице Google, сетевой гигант про- ма, которые станут оценивать каждую не понадобится.
должит регистрировать все ваши дей-
ствия с помощью файлов cookie. Ес-
ли вы хотите повлиять на результаты
поиска, войдите в свой аккаунт Goo-
«Персонализация — это
gle и удалите историю поиска. Таким
образом вы измените информацион-
очень тонкий процесс.
ную основу, на которую опирается Пользователь ничего
алгоритм в своих расчетах.
Поскольку Google скрывает детали не замечает»
работы данного алгоритма, остается Зепандар Камвар, разработчик персонализированного поиска Google

ТАК GOOGLE ВЫЧИСЛЯЕТ, КАКИЕ НОВОСТИ ВАМ ПОКАЗЫВАТЬ


Стоит активировать историю веб-поиска в своем аккаунте — Google News будет получать информацию о том,
какие темы вас интересуют, подбирая для вас подходящие новости.
1 История веб-поиска 2 Три алгоритма анализируют 3 Подсчитываются результаты 4 Составляется ваша личная
реагирует на ваши пере- вашу историю веб-поиска вычислений алгоритмов новостная рубрика
ходы по ссылкам
MinHash Clustering (MinHash- По этой формуле производится расчет
кластеризация): чем интересуются и определение значимости отдельных
пользователи, которые читают те алгоритмов.
же новости, что и вы?
PLSI* (вероятностный латентно-семан-
тический анализ): создание и сравнение
групп пользователей и групп новостей.
К какой группе относитесь вы?
Covisitation (статьи, просматривае- Алгоритм
мые пользователями после предло- Значимость алгоритма
женных новостей): какие новости и Количество баллов алгоритма
в какой последовательности вы
по отношению к новости
недавно читали?

*Probabilistic Latent Semantic Indexing

86 CHIP | ДЕКАБРЬ 2011


Facebook: «Я знаю, кто тебе нравится»
Социальные сети анализируют отношения между отдельными пользователями. Так Facebook и Google+
определяют, с кем вы предпочитаете общаться и кем интересуетесь, и выстраивают иерархию.

С
оциальная сеть Facebook объе- Алгоритм Edgerank определяет не оценивает, насколько сильно ваше
диняет 700 млн пользователей только то, что мы увидим на стра- поведение отличается от модели
и такое же количество профи- нице, но и то, с кем и как мы бу- среднестатистического пользовате-
лей, на которые приходится в общей дем общаться. Если автор хочет ля, и определяет значимость отдель-
сложности около триллиона про- привлечь к себе внимание и дер- ных факторов.
смотренных страниц в месяц. Сред- жаться на верхних позициях ленты В апреле этого года возможности
нее количество друзей у пользователя новостей, его публикация должна алгоритма были расширены. Теперь
Facebook составляет 120–130 чело- иметь как можно большее количе- при создании электронного сообще-
век. Каждый друг в месяц совершает ство комментариев. Приветствует- ния вам будут предлагаться адресаты
около 90 действий, начиная с просто- ся проведение дискуссии, разме- из списка контактов, которых мог-
го клика по кнопке «Мне нравится» щение ссылок или поддержание ло бы заинтересовать ваше письмо.
и заканчивая размещением публика- публикации в актуальном состоя- Кроме того, Google Mail проверяет,
ций. Все друзья из списка контактов нии, то есть пополнение контента. не отошлете ли вы письмо нежела-
за это время производят в совокуп- тельному адресату. Например, с помо-
ности более 11 000 действий. В такой Социальные сети сортируют щью анализа вашей переписки алго-
ситуации, разумеется, сложно быть наших друзей ритм может отделять профессиональ-
в курсе всех новостей, особенно с Google также попытается выяснить, с ные контакты от личных. Точность, по
учетом того, что в среднем пользо- кем вы предпочитаете общаться, как утверждению Google, составляет 70%.
ватель ежедневно проводит на Face- только вы активируете папку «Прио- За всем этим стоит система Google
book менее одного часа. ритетные» посредством опции «Филь- Implicit Social Graph, в которой каж-
Но вам не стоит беспокоиться — трация сообщений». дый пользователь Gmail является клю-
эту задачу решит алгоритм Edgerank. С этого момента Google Mail боль- чевым объектом гигантской матри-
Он сортирует ленту новостей ваших ше не будет сортировать сообщения цы. Как и Facebook, Google называет
друзей и определяет, какие события по дате. Вместо этого алгоритм по- взаимодействие между пользовате-
для вас важны, а какие вы не за- пытается определить, какие письма лями Edges (англ. «кромка, край, гра-
хотите читать. Сначала алгоритм про- важны, и поместит их отдельно от ница») и оценивает его. Граф создает
веряет, насколько интенсивно вы сле- всех остальных. Определение степе- для каждого пользователя модель, в
дите за новостями того или ино- ни важности осуществляется на ос- которой он является центром своей
го пользователя: часто ли читаете и нове сотен факторов, в том числе и «эгоцентрической сети». Алгоритм
комментируете его публикации, ре- социальных. Например, Gmail учи- Friend Suggest использует граф, что-
гулярно ли посещаете его страницу. тывает, как часто вы общаетесь с бы объединить людей с общими ин-
Помимо этого оценивается характер определенным пользователем. Так- тересами. Внедрение в Google+ гра-
публикаций. Например, той записи, же письма проверяются на наличие фа, позволяющего предлагать друзей
которая пользуется популярностью у ключевых слов, вызывающих у вас для кругов, сделает возможным по-
читателей или содержит видеоролик, интерес. Алгоритм учитывает также лучить такой же эффект, как если
алгоритм присваивает более высо- продолжительность переписки и ее бы Facebook кликнул за вас по кноп-
кий приоритет. инициатора. В завершение алгоритм ке «Мне нравится». ➜

ТАК FACEBOOK СОРТИРУЕТ ВАШИ СОЦИАЛЬНЫЕ КОНТАКТЫ


Среди главных сообщений отображаются новые публикации ваших друзей. Какие из них перемещаются
вверх, то есть важны для вас, определяет алгоритм Edgerank.
Edgerank оценивает публикуемые новости,
основываясь на действиях (Edge), связанных
с данными сообщениями. Перед тем как при-
ступить к вычислениям, алгоритму необходимо
получить три составляющие: 1 Edgerank проводит
оценку…
Ue — связь: насколько тесной является связь
между тем, кто просматривает публикацию,
и ее автором, а также пользователями, кото- ссылки, количество нажатий на кнопку «Мне
рые прокомментировали публикацию. Связь нравится»). Выше оцениваются действия,
оценивается односторонне, то есть с точки которые требуют больше усилий. Например,
зрения важности автора новости для вас, отметки «Мне нравится» менее значимы, чем
а не наоборот. комментарии к фотографиям.
We — значение: из каких элементов состоит De — время: какой срок прошел с момента появле-
публикация (текст, фотографии, видео, ния публикации. 2 ...и сортирует новости ваших друзей

CHIP | ДЕКАБРЬ 2011 87


ТЕСТЫ И ОБЗОРЫ Онлайн-сервисы

Amazon: «Я знаю, что тебе нравится»


Точные рекомендации для покупок — рецепт успеха онлайн-магазинов. С этой целью используются алгорит-
мы, которые изучают покупателей, анализируют их предпочтения и сравнивают с другими клиентами.

П
атент, выданный в США под мим покупателем, чтобы разобрать- Модель матричной факторизации
номером 6266649, ознаменовал ся в том, что посоветовали и купи- опирается на базу данных, касаю-
рождение рекомендательных ал- ли другие клиенты. Алгоритм Cine- щихся активности пользователей в
горитмов в Глобальной сети. В нем match, применявшийся крупнейшим Сети. Анализу подвергается не толь-
описывается алгоритм Item to Item интернет-видеопрокатом DVD Net- ко оценка пользователем того или
(«товар-товар»), сделавший Amazon flix до 2009 года, подобным образом иного продукта, но и его поведение
крупнейшим интернет-магазином в добился довольно высокой точно- на сайте: начиная с вводимой в стро-
мире. Он учитывает, сколько раз то- сти — порядка 60%. ке поиска информации и заканчивая
вары были куплены разными лица- движением мыши. Результат — точ-
ми, как высоко они были ими оце- Систематизация покупателей ность рекомендаций выросла более
нены и насколько поведение этих Сегодня системой рекомендаций Net- чем на 10% по сравнению с примене-
пользователей схоже с вашим. Таким flix управляет расчетная модель ма- нием алгоритма Cinematch.
образом, в центре внимания оказы- тричной факторизации. Она систе- Некоторые покупатели доверяют
вается не сам покупатель, а товар, в матизирует пользователей и филь- спискам лучших товаров, другие –
отношении которого алгоритм при- мы в диаграмме, которая включает, мнениям экспертов или оригиналь-
меняет фильтрацию по принципу по- например, категории «серьезные» и ным рекламным слоганам. Необхо-
хожести предметов: чем больше сход- «эскапистские», а также делит пуб- димо только выяснить, что является
ство продуктов, тем выше точность. лику на мужскую и женскую. Такая определяющим для конкретного по-
Данный подход оправдывает себя: диаграмма показывает, насколько от- купателя, — и можно будет оказывать
исследователи рынка из компании дельные пользователи далеки от то- на него влияние. Сегодня уже ведутся
Nielsen в ходе обширного анализа го, чтобы выбрать какой-либо фильм. разработки алгоритмов со 100-про-
выяснили, что почти 60% онлайн- Иногда результат превосходит все центной точностью — правда, пока
покупателей помимо основного то- ожидания. Например, оказывается, только в рамках научных исследо-
вара часто обнаруживают и приобре- что есть люди, которые с одина- ваний. Может, это и к лучшему, так
тают что-то другое. ковым удовольствием смотрят как как практически каждый из нас хотел
Преимущество данной системы, за- «Волшебника из страны Оз», так и бы сохранить возможность делать
пущенной Amazon десять лет назад, «Молчание ягнят». свободный выбор.
заключается в том, что все расчеты
можно проводить в режиме офлайн.
К тому же она требует наличия под-
робной информации о профиле кли-
«Мы зарабатываем
ента. Поэтому в настоящее время да- деньги, когда
же YouTube рекомендует похожее ви-
део по принципу Amazon. помогаем людям
Описанная выше математическая
модель — коллаборативная фильтра-
принимать решения»
ция — может использоваться и са- Джефф Безос, основатель Amazon

ТАК AMAZON УЗНАЕТ О ВАШИХ ПРЕДПОЧТЕНИЯХ


На сайте и в почтовых рассылках Amazon вы получаете рекомендации продуктов, которые могли бы вам
понравиться. Система рекомендаций определяет ваши предпочтения в три этапа.

1 Из базы данных (a) отбираются продукты (b), 1 Извлечение 2 Сравнение с по- 3 Расчет рекоменда- 4 Предложение
которые предпочитают покупать клиенты того же данных хожими клиентами ции на основе алгоритма товара
типа, что и вы.
2 На основании полученных данных строится мо- (a) (a) (a)
дель фильтрации по принципу схожести предметов:
на каком расстоянии клиент находится от других
покупателей (a) и в какой степени он соответствует
покупателям, отобранным по принципу сходства (b).
3 Результатом этого анализа являются две реко- (b) (b) (b)
мендации: при наличии недостаточных данных
предлагается самый популярный товар из отобран-
ных по принципу сходства продуктов (a), в осталь-
ных случаях — варианты, сформулированные
с учетом предпочтений схожих покупателей (b).

88 CHIP | ДЕКАБРЬ 2011