Введение и Обзор
Для этого Вам будет необходимо изучить веб-страницу, обращая внимание на различные виды
поисковой оптимизации (SEO), которые на ней присутствуют. Некоторые SEO-технологии допустимы и
даже необходимы для создания успешного сайта, в то время как другие SEO-технологии используются в
спам-целях для увеличения посещаемости сайта и являются незаконными.
В рамках данного задания, если на странице используются какие-либо спам-методы SEO, страница
оценивается как «Spam» и в дальнейшем не будет применяться в качестве результата в поисковой
системе Bing. Если на странице не используются никакие SEO-технологии или используются только
допустимые SEO-технологии, страница должна быть отмечена как «Acceptable», и значит, она будет
продвигаться в результатах поиска Bing. Допустимые страницы - это страницы, которые безопасны и
полезны для наших пользователей!
Страницы также могут быть помечены как «Not Applicable» по нескольким причинам, включая, в
частности, ошибку HTTP, материалы для взрослых, расположенные на сайте, или по причине отсутствия
любого содержания на странице.
В оставшейся части данного руководства Вы научитесь всему, что Вам необходимо знать для вынесения
точного и обоснованного суждения. Сюда войдут определения всех категорий SEO, а также категории
страниц, несоответствующие критериям, с многочисленными наглядными примерами, которые
проиллюстрируют различные типы страниц, с которыми вы столкнетесь при выполнении этого задания.
Подготовка
Перед началом работы над хитапом «Спам», пожалуйста, выполните следующие шаги для настройки
вашего веб-браузера и компьютера, чтобы убедиться, что все приложения и программы работают
правильно.
Интернет-браузеры
В этом проекте настоятельно рекомендуется использовать Microsoft Edge, однако в определённых
обстоятельствах можно использовать и другие веб-браузеры.
- Microsoft Edge
- Google Chrome
- Mozilla Firefox
Расширения браузера
Чтобы веб-страницы воспринимались нами точно так же, как обычными пользователями, необходимо отключить или удалить все
соответствующие расширения браузера.
Любое расширение, блокирующее рекламу, мгновенную переадресацию или всплывающие окна, должно быть отключено или удалено, чтобы
гарантировать, что при оценке все будут видеть одну и ту же веб-страницу со всеми характеристиками.
Вы можете обратиться к вашему руководителю, чтобы убедиться, что ваш компьютер или иное устройство правильно настроены.
Google Chrome
После выбора хитапа «Crowd Spam Labeling – Russian» в UHRS, вы увидите пользовательский
интерфейс хитапа:
Работа в хитапе проста; хитап содержит всего несколько элементов интерфейса. Он разработан для простоты
использования и должен подходить практически под любой размер экрана.
Первым элементом, на который следует обратить внимание, является заголовок UHRS. В нем
содержится название хитапа, время, данное для работы над заданием, ваше имя пользователя и элементы
управления для закрытия хитапа или сообщения о технической проблеме:
Далее находится строка URL и связанные с ней кнопки. Это URL-адрес страницы, которую вы будете
оценивать:
Используйте кнопку «Open» в правой части панели URL, чтобы открыть страницу в новой вкладке, или
используйте вкладку «Landing Page» в нижней части пользовательского интерфейса хитапа.
После того как выбран рейтинг, используйте кнопку «Submit» в крайнем правом углу, чтобы отправить
хит на рассмотрение и перейти к следующему.
Далее следует раздел «SEO Usage», где мы указываем, какие SEO-технологии были использованы на
странице:
Каждая кнопка относится к определенной категории SEO. Большинство из них можно оставить либо в
зеленом, либо в красном состоянии. Если использование SEO допустимо, переключите кнопку на
зеленый цвет. Если используется спам SEO, переключите кнопку на красный цвет. Некоторые
категории можно переключить только в красное состояние (Spam), поскольку является невозможным
использование категории приемлемым образом (например, машинно-генерируемый контент).
Следующее изображение - пример того, как выглядит раздел с многочисленными категориями,
установленными в случайные красные и зеленые состояния (изображение представлено в целях
иллюстрации):
Далее находится основная область оценки. Здесь мы оцениваем, является ли страница «Acceptable»,
«Spam» или «Not Applicable»:
Выберите один из вариантов, чтобы пометить страницу как «Acceptable», «Spam» или «Not Applicable».
Наконец, кнопка «Escalate» используется для того, чтобы сообщить о задании аудиторам. Эту функцию
следует использовать в крайних случаях. Если страница содержит изображения или медиаматериалы,
сексуализирующие детей или содержащие порнографию с участием детей, пожалуйста, сообщите об
этом и укажите вебсайт с помощью инструкций, приведённых в конце данного руководства.
Как Принимается Решение
После того как вы освоитесь с элементами пользовательского интерфейса, приступайте к оценке веб-
страницы на предмет спама. Оценка проводится в несколько этапов:
1) Откройте URL-адрес в новой вкладке или изучите страницу из вкладки «Landing Page». Следите за
изменениями URL-адреса по мере загрузки страницы, так вы можете быть перенаправлены
(подробнее об этом в разделе о мгновенной переадресации).
Помните, что методы SEO могут быть использованы как в качестве спама, так и приемлемым
образом. Если какие-либо методы SEO используются как спам, вся страница должна быть
помечена как спам.
ПРИМЕЧАНИЕ: на всех страницах с медиафайлами (такими как фильмы и музыка) обязательно
попробуйте воспроизвести медиафайл, прежде чем принимать решение. Обычно сайты потокового
вещания скрывают спамерское поведение до тех пор, пока вы не нажмете кнопку
«Play». Если страница с фильмом или музыкой воспроизводит мультимедиа без вредоносного
использования SEO (ссылки, перенаправляющие на иные вебсайты, наполнение ключевыми
словами, слишком агрессивная реклама и т. д.), страница приемлема.
Это правило также относится к страницам, на которых размещены онлайн-игры. Если в игру можно
играть без вредоносного использования SEO (вводящие в заблуждение ссылки, наполнение
ключевыми словами, слишком агрессивная реклама и т. д.), страница приемлема.
3) После изучения страницы вернитесь в хитап и отметьте, какие из SEO техник были использованы на
странице. Например, если вы посетили известный новостной сайт, такой как CNN, и на нем
было несколько допустимых объявлений с некоторой аффилированностью, ваше суждение может
выглядеть примерно так:
4) После того как оценка завершена, нажмите на синюю кнопку «Submit» справа от URL, чтобы отправить
хит. Загрузится следующий хит, и вы увидите новое задание.
Категории и техники SEO
Кроме того, некоторые методы SEO помечены «Spam Only». Эти методы используются только как спам и
никогда приемлемым способом. Если вы заметили на странице SEO-технику, отмеченную как «Spam
Only», то страница должна быть помечена как спам, а для соответствующей SEO-категории
установлено красное значение в области «SEO Usage».
Скопированный контент
Дешевый контент/CheapContent
Чрезмерное количество
грамматических/орфографических ошибок (Spam Only)
Плохой/дешевый дизайн
Мгновенная переадресация
Манипулирование ссылками/Link Manip.
Недостоверные ссылки (Spam Only)
Допустимая аффилированность
Аффилированность/Affiliation
Слабая аффилированность (Spam Only)
Несогласованное использование
бренда/Brand Ложная ассоциация (Spam Only )
Abuse
Как вы можете видеть, значительное количество методов являются «только спамом» а некоторые
категории содержат исключительно «только спам». Например, категория SEO «Вредоносные
намерения» никогда не может быть допустимой, она может быть только спамом. Что правда: ни
один приемлемый, нормальный сайт не будет использовать вредоносные методы в отношении
пользователей, которые посещают этот сайт.
Not Applicable
Пустые страница
Ошибки
Иностранный язык
Автоматические загрузки
Помните, что не все категории могут быть использованы на допустимых страницах, так как некоторые
методы являются «только спамом».
Ads (объявления)
Реклама на сайтах может принимать различные формы, но мы сосредоточимся на двух типах: броская
или мешающая просмотру реклама и реклама, которая настолько навязчива, что становится
агрессивной.
Эти объявления либо анимированы (броские), либо прерывают основное содержание. Объявления
над или в середине контента считаются мешающими просмотру, тогда как объявления сбоку от
контента - нет. Обратите внимание, что броская/мешающая просмотру реклама редко или никогда не
является
причиной того, что страница помечается как спам, хотя она может способствовать повышению
рейтинга спама, если используется вместе с другими методами или категориями.
Следующая страница содержит рекламу перед основным контентом, мешающую просмотру, но это
всё ещё является приемлемым использованием броской/мешающей просмотру рекламы:
Aggressive Ads (Агрессивные объявления) (Spam Only):
Мигающая/отвлекающая реклама:
Этот вид рекламы либо как-либо анимирован (мигает), либо прерывает контент.
Реклама сверху или в середине контента может считаться
отвлекающей, однако реклама по бокам контента таковой не
считается.
*Большие рекламные блоки сбоку контента, или те, которые можно закрыть.
Скопированный контент — это контент, который, если это возможно подтвердить, был взят с другого
веб-сайта. Обычно это текстовый контент, поскольку текст легко найти и проверить, не был ли он
скопирован. Изображения также могут быть скопированы и найдены с помощью поиска изображений.
Иногда скопированный контент может быть использован приемлемым образом на сайтах: в тех
случаях, когда он добавляет значительное количество дополнительной ценности. Например, сайт,
который
копирует часть текста из книги, но затем указывает свой собственный обзор на книгу, может быть
приемлемым. Такое использование добавляет ценность оригинальному скопированному контенту.
Страницы, дизайн и оформление которых не требуют больших усилий, всегда должны вызывать
подозрение при оценке. Создатели спама часто создают спам-страницы с помощью шаблонов или
других дешевых и быстрых методов, в результате чего получаются плохие макеты или дизайн, не
имеющий смысла.
Следующая страница — это дешевая и плохо оформленная шаблонная Commented [VL4]: сертификация по уходу за зрением
Примечание: не всегда мгновенная переадресация являются спамом. Например, если у вас есть
учетная запись электронной почты Hotmail и вы пытаетесь перейти на "https://hotmail.com", вместо
этого вы будете перенаправлены на "https://outlook.live.com/owa/". В данном случае, одна
известная ссылка, связанная с компанией «Microsoft», перенаправляет пользователя на другую
подобную
ссылку.
Недостоверная ссылка — это любая ссылка на веб-странице, которая при нажатии ведет нас туда, куда
мы не намеревались переходить. Например, если на странице загрузки программного обеспечения
есть ссылка «Загрузить», но она ведет на страницу рекламы казино, это недостоверная ссылка.
В следующем примере показана страница PDF с фальшивой ссылкой captcha в середине. Мы ожидаем, что
произойдёт переход на полезную страницу, но вместо этого ссылка переводит нас на спам. Это недостоверная
ссылка: Commented [VDA7]: Данное
изображение не является настоящим и чаще
всего будет встречаться, написанное на
английском языке.
Commented [VDA8]: Arundhati
tamil full movietamilrockers
(studiodebiaggi.eu)
В следующем примере показана страница технической поддержки с одной ссылкой. Вместо перехода
на официальный сайт техподдержки эта ссылка ведет на другой, поддельный сайт техподдержки:
Overwhelming Outlinks (Подавляющее число внешних ссылок):
Спам-страницы иногда заполняют всю страницу ссылками на различные другие сайты. Это спам-
поведение, не имеющее особой ценности для пользователя.
Следующая страница полностью заполнена ссылками на другие сайты. Все эти ссылки ведут на сайты,
не совпадающие с тем, на котором мы находимся. Это подавляющее число ссылок:
Commented [VL9]: Несмотря на то, что ссылк
названия страниц написаны на английском язы
ссылки составляют всё содержание страницы,
является спамом.
Фаннелинг:
Фаннелинг присутствует тогда, когда на веб-странице размещается несколько ссылок на один веб-сайт,
не совпадающий с исходной веб-страницей. Например, если на «examplesiteone.com» находится 20
ссылок на «examplesiteten.com», то «examplesiteon.com» переводит пользователей на
«examplesiteten.com» через большое количество ссылок.
Affiliation (Аффилированность
Аффилированность — это ситуация, в которой на сайте размещаются ссылки на товар или услугу
другого сайта электронной коммерции. Например, если на сайте «supertelevisions.com» размещены
ссылки на телевизоры, продаваемые на eBay или Amazon, это и есть аффилированность. Хост такого
сайта часто
получает определенную оплату от компаний, если кто-то покупает товар по одной из этих ссылок. Эта
функциональность может быть использована как в допустимых, так и в спам-целях, о чем
рассказывается ниже.
В следующем примере, взятого с сайта «Men's Health», страница содержит уникальное и полезное
содержание статьи, за которым следует допустимая аффилированность с Amazon:
Для данного хитапа недопустимо использование наполнения ключевыми словами, поэтому убедитесь,
что вы понимаете разницу между допустимым использованием ключевых слов и наполнением
ключевыми словами. Наполнение — это процесс чрезмерного использования ключевых слов до такой
степени, что это становится назойливым и зловредным для пользователя веб-страницы.
Использование одного или двух ключевых слов — это использование, а использование одного и того
же ключевого слова 25 раз — это наполнение.
Numerical (Использование чисел):
Числовой вброс обычно связан с номерами телефонов, адресами или другим числовым
Использование определённых ключевых слов можно наблюдать тогда, когда на странице упоминается
определенная фраза или слово (или вариации фразы/слова) много раз. Помните о различии между
приемлемым использованием и спам-вбросом.
Наполнение URL происходит, когда URL-адрес конкретной страницы использует слишком много
ключевых слов в самом URL-адресе. Помните о различии между приемлемым использованием и
спамом.
«https://www.nicksbuilding.com/Clearance_door_pics/clearance_door_index.php/closeout-doors/b-line-
unfin/cl-a422~430/discounted_doors/feature_doors/entry-doors-clearance/discounted-
doors/contact/discounted_doors/discounted-doors/discounted_doors_cl500-
up/finished_entry_doors_pfc250/b-line-unfin/discounted-doors/Discounted-Doors/CL-
10_Mahogany_Black_Full-Lite_Glass_Entry_Door.php»
Commented [VDA15]: Прозрачные наружные
подфарниками (nicksbuilding.com)
User Generated Content (Пользовательский контент):
Пользовательский контент (или «UGC») — это любой тип контента, созданный пользователями на
онлайн-платформе или форуме социальных сетей. Большинство пользовательского контента
допустимо и законно размещается на популярных сайтах социальных сетей, таких как «Facebook» или
«Twitter».
Любой контент в социальных сетях или на форуме должен считаться пользовательским контентом и
отмечаться в категории пользовательского контента в хитапе.
Ниже приведен пример спам-использования пользовательского контента, где автор поста ссылается на
игровой спам. Не стоит забывать, что здесь также используются и другие спам SEO-приемы: плохая
грамматика и недостоверные ссылки. UGC редко бывает единственной категорией SEO, которую
можно увидеть на страницах со спам-UGC:
Commented [VDA16]: asphalt 8 airborne hack
Cheats Game Hack Android and iOS | Asphalt 8 air
Racing games, Airborne (pinterest.com)
Off Topic Comments (Комментарии Не По Теме):
Phishing (Фишинг):
Фишинг возникает, когда веб-сайт пытается украсть личную или персонально идентифицируемую
информацию посетителей, обычно способом ввода данной информации. Если посетитель добровольно
предоставляет эту информацию, мошенник может использовать ее, чтобы попытаться получить доступ к
учетной записи посетителя.
Например, поддельный сайт онлайн-банкинга может иметь форму входа, в которую посетители
вводят свою настоящую банковскую информацию. Затем мошенник может использовать эту
информацию, чтобы попытаться войти в банковские счета посетителя на официальном банковском
сайте.
Следующий пример показывает попытку собрать имена пользователей для игры Roblox. Затем эти
имена могут быть использованы мошенниками другими способами:
Загрузка вредоносных программ встречается реже, чем простое мошенничество, но она не менее
опасна, если не более опасна, чем фишинг или мошенничество. Если сайт загружает файл, но ваш
браузер блокирует загрузку или антивирус вашей операционной системы блокирует загрузку, скорее
всего, это вредоносное ПО. Сайты, на которых размещается вредоносное ПО, всегда следует помечать
как спам.
В следующем примере показан сайт загрузки игр, который пытается загрузить файл, помеченный
браузером как вредоносный. Эта страница может быть помечена как спам для вредоносных
программ:
«scrubbleswebloader.swf был
заблокирован, поскольку данный
тип файла может являться
вредоносным для Вашего
Scam (Мошенничество):
устройства»
Мошенничество — это широкий термин для обозначения любого веб-сайта, который пытается
выманить у посетителей деньги, информацию или поставить под угрозу их благополучие.
Как уже говорилось выше, ложная ассоциация — это когда веб-страница (или весь сайт) пытается
выглядеть как официальная страница известного бренда, компании или сервиса. Например, многие
спам-сайты техподдержки пытаются создать впечатление, что они заслуживают доверия, используя
дизайн, логотипы и цвета официальной технической компании, на который они пытаются быть
похожи.
Автогенерируемый контент не имеет ценности для пользователя и часто представляет собой текст, не
имеющий смысла, или скопированный из других источников и вставленный контент.
Все остальные автоматически загружаемые типы файлов не следует открывать, как описано ниже в
правилах категории "Not Applicable".
Пустая страница
Отсутствуют результаты поиска
Любая ошибка, которая не позволяет пользователю увидеть содержание страницы, является причиной
для пометки страницы как «Not Applicable».
Ошибка 404
Ошибка IP
Ошибка безопасности
Такие страницы должны быть помечены только как ‘NOT APPLICABLE’. Например, если вы занимаетесь
оценкой для английского языка, то не оценивайте никакие страницы на любом другом, отличном от
английского, языке, даже если вы понимаете его.
1) Более 50% основного контента страницы представлены на другом языке (не относится к видео и
изображениям)
Примечания:
Если браузер открывает веб-страницу, а через некоторое время начинает загрузку, оцените страницу
как обычную, присвоив ей ярлык «Spam» или «Acceptable».
Примечание: судьи должны настроить параметры загрузки в браузере так, чтобы браузер всегда
предлагал варианты загрузки перед загрузкой файла. Во время работы над заданием «Спам» никогда
не позволяйте браузеру загружать файлы без предварительного запроса.
Если вы видите изображения, которые, по вашему мнению, могут считаться ДП, выполните следующие
действия:
Создание сайтов, которые сексуализируют детей, - еще один острый вопрос. Изображения,
предназначенные для сексуализации/эксплуатации детей, даже если они не содержат наготы
или порнографии, также являются нежелательными, и в этом случае следует придерживаться
вышеуказанных правил и рекомендаций. Сообщите о задании и URL-адресе, чтобы на эти
страницы обратили внимание соответствующие команды Bing.
Вряд ли компания, у которой столько лайков, создает спамные страницы. С другой стороны, если
компания, новостной портал, сервис и т.п. проявляет слабую активность в соц. сетях, то, скорее всего, ее
стоит более тщательно проверить на спам.
На заметку: Пожалуйста, просматривайте страницы социальных сетей НЕ зарегистрированными!
Просматривая как зарегистрированный пользователь, оценивающий может спровоцировать страницу
показывать контент, который другие аудиторы не видят или не могут видеть. Все аудиторы должны выйти из
своих профилей в социальных сетях, чтобы давать адекватную оценку контенту.