Вы находитесь на странице: 1из 384

Загуменов А. П.

Как раскрутить и разрекламировать Web сайт в сети Интернет

раскрутить и разрекламировать Web сайт в сети Интернет Москва, 2005

Москва, 2005

УДК 004.4’234

ББК

32.973.26 018.2

314

Загуменов А. П.

314

Как раскрутить и разрекламировать Web сайт в сети Интернет. – М.: ДМК Пресс, 2005. – 384 с., ил.

ISBN 5 94074 027 8

Настоящая книга заинтересует всех, кто столкнулся с вопросами подготовки, размещения в Сети и популяризации Internet ресурсов различного уровня: от до машней странички до корпоративного сайта. В ней вы найдете все, что необходимо для оптимизации Web сайтов под поисковые системы: приемы написания Web страниц, описание множества самых популярных специализированных программ, предназначенных для подготовки сайта и его раскрутки, создания удачного HTML кода страниц с правильными метаданными. Книга является практическим руководством для разработчиков Web сайтов и всех, занимающихся их продвижением. Автор приводит множество советов, касаю щихся создания и анонсирования Web страниц. Рассмотрены средства автоматиза ции для повышения эффективности разработки и маркетинга при создании и обслу живании сайта. Описание программных и сетевых средств, автоматизирующих процессы тестирования и отладки сайта, обеспечивающих проверку работоспособ ности и корректности гиперссылок, синтаксиса HTML кода и грамматики разме щенного на странице текста, занимает центральное место в книге. Подробно излага ются возможности таких программ, как Linkbot Developer Edition, Domain Name

Checker, Retrieve, CyberSpyder Link Test, HTML Link Validator, CSE HTML Validator,

A Real Validator, MetaTag ToolKit, MetaMan, WebQA. Отдельная глава посвящена регистрации Web ресурсов в поисковых системах

и каталогах. Описываются программы автоматической регистрации (WebPosition,

Page Promoter, Web Регистратор), способы взаимодействия с индексирующими роботами поисковых машин, правила применения метаданных. Рассматриваются приемы и методы рекламы сайтов в Internet, указаны критерии ее эффективности. Издание рассчитано на широкий круг читателей и будет полезно как начинаю щим создателям Web сайтов, так и профессионалам, которые хотят научиться бо лее качественно продвигать в Сети свой Web продукт.

УДК 004.4’234 ББК 32.973.26 018.2

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Материал, изложенный в данной книге, многократно проверен. Но, поскольку вероятность технических ошибок все равно существует, издательство не может гарантировать абсолютную точность и правильность приводимых сведений. В связи с этим издательство не несет ответ ственности за возможные ошибки, связанные с использованием книги.

ISBN 5 94074 027 8

© Загуменов А. П., 2005 © Оформление ДМК Пресс, 2005

Краткое содержание

Глава 1

ЭТАПЫ БОЛЬШОГО

ПУТИ

11

Глава 2 АВТОМАТИЗАЦИЯ

99

Глава 3

 

РАБОТА С ПОИСКОВЫМИ СИСТЕМАМИ

 

И

КАТАЛОГАМ И

279

Глава 4

 

СТАТИСТИКА

 

369

Содержание

Введение

9

Глава 1 Этапы большого пути

11

Собственное доменное имя

13

Разработка семантического ядра

15

Обновление информации

15

Заголовки

16

Метаданные

17

Метатэги – эквиваленты HTTP заголовков

18

Свойство Expires

18

Свойство Pragma

19

Свойство Content Type

19

Немного о кодировках

20

Свойство Content language

21

Свойство Refresh

22

Свойство Window target

22

Свойство Content Script Type

22

Свойство Content Style Type

23

Метатэги для поисковых машин

23

Ключевые слова и описания

24

Язык документа

28

Языковые варианты документа

28

Начало набора

29

Инструкции для роботов – файл robots.txt

29

Тэг META для роботов

32

Другие метатэги

33

Проверка ссылок

33

Проверка ошибок кода в HTML документах

34

Задание типа документа

35

Шрифтовое оформление

37

Время загрузки страниц

38

Использование фреймов

39

Содержание

5

Проверка правописания

39

Ошибки правописания – какая от них польза

39

Навигация по сайту

40

Появление новых окон

40

Нестандартное использование элементов управления

40

Сведения об авторах

41

Отсутствие архивов

42

Улучшение посещаемости сайта за счет обработки ошибок

42

Перевод на другие языки

43

Анонсирование в поисковых системах

44

Информационно поисковые системы

45

Индекс поисковой системы

46

Полнотекстовый поиск

47

Учет морфологии

48

Релевантность

49

Методы регистрации

50

Подготовка к регистрации

52

Адреса регистрационных форм

55

Особенности регистрации в поисковой системе Яndex

55

Особенности регистрации в поисковой системе Апорт

57

Особенности регистрации в поисковой системе Rambler

57

Что не надо делать при регистрации

58

Как управлять индексированием

58

Индекс цитирования

59

Контроль наличия документов в индексе поисковых машин

63

Поисковая система AltaVista

63

Поисковая система Go.com

63

Поисковая система HotBot

63

Поисковая система Lycos

64

Поисковая система Google

65

Поисковая система Яndex

65

Поисковая система Апорт

65

Поисковая система Rambler

65

Поисковая система Поиск@Mail.Ru

65

Регистрация в каталогах

66

Как выяснить популярность каталога

67

Оценка популярности в поисковой системе AltaVista

67

Оценка популярности в поисковой системе Go.com

68

Оценка популярности в поисковой системе Excite

68

Оценка популярности в поисковой системе HotBot

68

6

Как раскрутить Web сайт

Оценка популярности в поисковой системе Lycos

68

Оценка популярности в поисковой системе Google

68

Оценка популярности в поисковой системе Яndex

69

Оценка популярности в поисковой системе Rambler

70

Оценка популярности в поисковой системе Поиск@Mail.Ru

70

Баннерная реклама

71

Требования к баннеру

74

Эффективность баннера

75

Тенденции

76

Рекламные сети

76

Российская баннерная сеть RLE Banner Network

77

Рекламная сеть AdRiver

81

Рекламная сеть ИнтерРеклама

82

Баннерная сеть RB2

82

Контекстная реклама

84

Бегун

85

Директ

86

Система контекстной рекламы Mail.Ru

87

Google AdWords

87

Обмен ссылками

89

Сервисы по обмену ссылками

92

Автоматизированная система обмена ссылками AddWeb

92

Почтовые рассылки

93

Реклама вне WWW

96

Другие технологии

96

Анализатор продвижения сайта Stat

96

Клуб Mnogo.ru

98

Глава 2 Автоматизация

99

Сетевые средства

100

Комплексная автоматизация

100

NetMechanic HTML Toolbox

100

Проверка доменных имен

109

Whois сервис РосНИИРОС

109

Служба Whois InterNIC

112

Проверка доменных имен на сайтах Internet провайдеров

112

Проверка гиперссылок

114

Содержание

7

Проверка HTML кода

117

Сервис проверки HTML документов Markup Validation Service

117

Сервис WDG HTML Validator

121

Проверка метатэгов

125

Анализатор SpiderView Density Analyzer

125

Служба подбора ключевых слов Wordtracker

129

Служба проверки файла исключений Robots.txt Validator

137

Анализатор Keyword Density Analyzer

139

Украинский Генератор метатэгов

140

Проверка правописания

142

Фотиния – проверка грамотности Web сайтов

142

Другие службы русского языка

144

Программы

145

Комплексные решения

145

Linkbot Developer Edition 6.0

145

WebQA 3.0

180

Поиск свободных доменных имен

190

Domain Name Checker

190

Проверка ссылок

199

Retrieve 1.0

199

CyberSpyder Link Test 2.2.0

209

HTML Link Validator 4.21

230

Проверка HTML кода

236

CSE HTML Validator

236

A Real Validator

244

Программы для работы с метатэгами

245

Программа построения метатэгов MetaTag ToolKit

245

Программа для создания и модификации метатэгов MetaMan

248

Компонент WebQA Tag программы WebQA

257

Программа для работы с метатэгами TagPromoter

273

Программы для проверки правописания

276

Текстовый редактор Microsoft Word

276

Глава 3 Работа с поисковыми системами и каталогами

279

Обзор поисковых систем

280

Российские поисковые системы

280

Яndex

280

Поисковая система Rambler

287

Поисковая система Апорт

292

8

Как раскрутить Web сайт

Поиск@Mail.ru

297

Tela

300

Rundex

301

Специализированные российские поисковые системы

303

Файловая поисковая система FileSearch.ru

303

Поиск музыкальных файлов

305

Поисковые системы по ценам на электронику

305

Поиск по серверам Удмуртии UdmSearch

305

Поисковые системы ближнего зарубежья

305

Поисковые ресурсы Украины

305

Поисковые ресурсы Армении

306

Поисковые ресурсы Киргизии

307

Поисковые ресурсы Латвии

307

Поисковые ресурсы Эстонии

307

Зарубежные поисковые системы

307

Поисковая система AltaVista

308

Поисковая система GO.com

310

Поисковая система Excite

310

Поисковая система HotBot

311

Поисковая система Lycos

311

Поисковая система Google

311

Обзор наиболее известных каталогов

313

Русскоязычные каталоги

313

Каталог List.Mail.ru

313

Каталог Улитка

315

Каталог Optime

316

Каталог портала Российская Информационная Сеть

317

Каталог Russia on the Net

319

Каталог WebList.Ru

320

Каталог Iван Sусанин

320

Адреса регистрационных форм

321

Зарубежные каталоги

322

Программы для автоматического заполнения форм

323

Программа для заполнения форм AI RoboForm 6.1.1

323

Пасскарты

327

Заметки

330

Персоны

330

Защита паролем

333

Генератор паролей

334

Браузер Mozilla

334

Браузер Netscape 7.2

337

Сетевые средства регистрации

338

Регистратура

338

Служба Submitter.ru

340

Содержание

9

Авторегистрация The Best Free

340

Служба Add Me!

341

Сервис SelfPromotion.com

345

Система регистрации Internet ресурсов 1PS.RU

348

Служба регистрации Submit Plus

354

Программы регистраторы

354

WebPosition 3

354

Page Promoter 6.3

358

Web Регистратор

366

Глава 4 Статистика

369

Системы статистики в Internet

370

Счетчики и рейтинги

370

Анализ файлов посещений

370

Программы

372

Программа анализа серверных файлов Analog 5.32

372

Время загрузки страниц

375

Программы

375

HTMLSizer 3.0

375

HTML оптимизатор 2.0

376

Краткий бюллетень Internet

379

Организации

379

HTML

381

JavaScript

380

Java

380

CGI

380

Perl

380

PHP

381

Электронные издания

381

Советы Web мастеру

382

Каскадные (иерархические) таблицы стилей

382

Программное обеспечение

382

Литература

383

Введение

Настоящее издание заинтересует всех, кто разместил в Internet Web страницу или целый сайт и стремится привлечь к ним посетителей или своих клиентов. В книге рассматриваются подготовка и проведение рекламной кампании Web ресурсов, ана лиз ее результатов. Особое внимание уделено оценке популярности Internet стра ниц, исправлению ошибок и поддержке посещаемости на высоком уровне. Указанные задачи вполне поддаются автоматизации при помощи программного обеспечения, а также средствами Internet, чему и посвящена большая часть страниц издания.

В главе 1 рассказывается обо всех аспектах раскрутки сайтов, выборе доменного

имени, разработке семантического ядра запросов, о том, как управлять индексирова нием страниц в поисковых системах, о пользе регистрации в каталогах и обмена ссылками с партнерами, о почтовых рассылках, о влиянии баннерной и контекстной рекламы на посещаемость сайта. Большое внимание уделено описанию метаданных, применяемых для оптимизации Web сайтов под поисковые системы Internet. Опи саны различные методы обнаружения технических ошибок при размещении сайтов

в Сети, – неверных ссылок, погрешностей HTML кода, ошибок правописания.

Предлагаются разнообразные способы всесторонней проверки страниц. Глава 2 посвящена автоматизации всех этапов работы над сайтом по его про движению в Internet. То, о чем написано в главе 1, здесь подкреплено описанием

возможностей ресурсов Internet и таких программ, как Linkbot Developer Edition, Domain Name Checker, Retrieve, CyberSpyder Link Test, HTML Link Validator, CSE HTML Validator, A Real Validator, MetaTag ToolKit, MetaMan, WebQA.

В главе 3 рассмотрены методы и средства анонсирования сайта в поисковых

системах, благодаря которому сайт при поиске по ключевым словам попадает

в первую десятку найденных. Подробно описываются наиболее популярные отече

ственные и зарубежные поисковые машины. Поиск в каталогах часто обеспечи вает лучшие результаты, нежели в автоматических поисковых системах, поэтому и они не обойдены вниманием, описаны способы добавления сайта в разнообраз ные каталоги, приведены методы работы с соответствующим программным обес печением: AI RoboForm, WebPosition, Page Promoter, Web Регистратор. Прочитав первую главу книги и воспользовавшись какими либо средствами, представленными во второй и третьей ее главах, вы можете и не читать книгу дальше, так как у вас будет информация и инструменты для практической рабо ты. Однако если вы хотите увидеть не только направление, в котором движетесь,

но и результаты своей работы, вам потребуется ознакомиться с главой 4, которая повествует о том, какую важную и интересную информацию можно узнать из журнальных файлов сервера, и посвящена методам их обработки с помощью со ответствующего программного обеспечения.

В приложении к книге приводится список полезных ссылок на сайты, реко

мендуемые к посещению. Книга предназначена для лиц, столкнувшихся с вопросами размещения и про движения Web ресурсов независимо от их уровня: будь то домашняя страничка или корпоративный сайт.

Вопросы к автору присылайте по электронному адресу: www@inotec.ru, посе тите его сайт http://promote.inotec.ru.

Глава 1

Глава 1

Этапы большого пути

Собственное доменное имя

13

Разработка семантического ядра

15

Обновление информации

15

Заголовки

16

Метаданные

17

Проверка ссылок

33

Проверка ошибок кода

в

HTML документах

34

Шрифтовое оформление Время загрузки страниц

37

38

Использование фреймов

39

Проверка правописания

39

Навигация по сайту Улучшение посещаемости сайта за счет обработки ошибок

40

42

Перевод на другие языки

43

Анонсирование

в

поисковых системах

44

Как управлять индексированием Регистрация в каталогах

58

66

Баннерная реклама

71

Контекстная реклама

84

Обмен ссылками Почтовые рассылки

89

93

Реклама вне WWW

96

Другие технологии

96

12

Этапы большого пути

Хороший web сайт – это не просто набор страниц, связанных гиперссылками, и далеко не только то, что видит пользователь на экране монитора. Его внутреннее устройство довольно сложно. Ведь требуется обеспечить максимум удобств, как для посетителей, так и для его владельцев, которые будут управлять сайтом. По этому при его создании должны быть учтены тысячи мелочей, что, собственно, и отличает хороший web сайт от плохого. Но самое главное – сайт должны найти люди, он не должен затеряться на бес крайних просторах Сети. А иначе, какой от него толк, если сайт никто не увидит? Пусть он даже фантастически красив. Грамотно построенный web сайт – довольно сложная конструкция, прони занная многочисленными внутренними и внешними связями, с четкой и жесткой логикой. Уже в процессе разработки сайта должны быть заложены механизмы, работающие на его будущую популярность. Internet – мощный и стремительно развивающийся канал для продвижения информации, товаров и услуг. Однако чтобы добиться успеха, недостаточно лишь разместить в Сети свой сайт. Его необходимо разрекламировать или, как говорят, «раскрутить». Вот этим мы с вами и займемся. Чтобы сайт работал, и с его помощью появлялись новые клиенты, его следу ет правильно спроектировать, учтя все детали, которые важны для поисковых систем, ведь основной поток целевых посетителей идет именно через них. Если считать основной задачей сайта привлечение новых клиентов или читателей, следует начинать работу с анализа ключевых слов, по которым будут искать сайт. На его основе строится так называемое семантическое ядро возможных зап росов, с учетом которого проводится разработка страниц и подготовка исходных данных. Далее выполняются следующие работы по оптимизации сайта для поисковых систем:

формируются заголовки HTML страниц, которые видны в заголовочной части окна браузера; создаются метатэги с описаниями и ключевыми словами. Их не видят по сетители сайта, но учитывают многие поисковые системы; изготавливается карта сайта, которая очень важна для поисковых машин, так как она позволяет быстрее и с большим весом проиндексировать стра ницы сайта. Иногда карта сайта не виднапосетителям;

вырабатываются альтернативные подписи ко всем иллюстрациям. Альтер

нативная подпись возникает на экране при наведении мыши на изображе ние. Так как эти подписи также индексируются поисковыми системами, их следует насыщать ключевыми словами; создаются дублирующие переходы. Многие поисковые системы не пони мают переходов по формам с выпадающими списками, поэтому нужно сде лать дополнительные переходы в виде обычных ссылок; специальным образом организуется архив новостей. Появление новой ин формации должно приводить к обновлению всех страниц архива, что очень привлекательно для поисковых машин;

Собственное доменное имя

13

формируется дублирующая навигация в виде цепочки гиперссылок, если дизайн сайта допускает такой подход, что не только улучшает удобство пользования сайтом, но и позволяет увеличить количество ключевых слов; навигационные элементы сайта по возможности делаются текстовыми.

При этом используются слова из семантического ядра запросов; новости выводятся на главную страницу, в результате чего информация на главной странице постоянно обновляется, а это благоприятно сказывается на результатах поиска; на всех страницах, включая главную, организуются информационные бло

всех страницах, включая главную, организуются информационные бло

ки. Они не являются обязательными, но заполнение их информацией и пе риодическая ее смена очень полезна для повышения рейтинга в результа тах поиска; организуются места для баннеров каталогов и счетчиков. При продвиже нии сайта обязательно придется прописывать его в различных каталогах. Чтобы не пришлось делать крупных доработок, заранее следует заклады вать эту возможность; ссылки с сайта делаются такими, чтобы в них присутствовали ключевые слова. Конечно, это не все приемы, которые используются при оптимизации сайта для того, чтобы он занимал первые места в результатах поиска. Поэтому, рассмат ривая вышеназванные приемы, мы поговорим и о других.

Собственное доменное имя

Доменное имя наряду с логотипом и торговой маркой является частью бизнес иден тичности компании. При правильном выборе оно ассоциируется у покупателей именно с вашей компанией, ее продуктами, услугами и т. д. Часто доменные имена используются для нескольких целей, включая имя web сайта, адрес электронной по чты, имя FTP или другого сервера. Собственное доменное имя придаст вам допол нительную солидность и доверие. Доверие – это одна из основ вашего сайта. Если доменное имя легко запоминается, вы сможете привлечь больше покупа телей. Люди будут использовать сайт или адрес электронной почты для быстрого и удобного доступа к информации или услуге, которую вы предлагаете. Доменные имена мобильны. Вы можете сменить адрес, номера телефонов, провайдера Internet услуг, но доменное имя не изменится. Это дает возможность постоянно поддерживать контакты с клиентами и пользователями ваших услуг. Полная длина доменного имени, как правило, составляет от 2 до 67 символов, включая точку и имя домена первого уровня. Имя может состоять из следующих символов:

латинские буквы (от a до z);

арабские цифры (от 0 до 9);

дефис ( ), если доменное имя не начинается и не оканчивается этим сим волом.

14

Этапы большого пути

Доменные имена не чувствительны к регистру букв, так что часто удобно ис пользовать в рекламе прописные буквы. Например, www.ShoppingWorld.com.

В настоящее время можно регистрировать и многоязычные доменные имена. При выборе имени ориентируйтесь на свою целевую аудиторию. В зависимо сти от этого имя может быть популярным, веселым, строгим, составляться из профессиональных терминов и т. д.

Доменное имя должно быть простым и коротким. Как правило, чем оно коро че, тем легче его запомнить или записать, и тем меньше вероятность того, что его воспроизведут неправильно. При остальных равных условиях отдавайте пред почтение словам с меньшим количеством слогов и словам, которые легко произ носить. Не используйте сложные для запоминания акронимы, такие как qmxf. Чтобы получить более высокий рейтинг у некоторых поисковых машин, реги стрируйте доменные имена, составленные из ключевых слов вашего web сайта.

В этом случае лучше разделять слова дефисами. Можно создать и зарегистриро

вать отдельную страницу с таким длинным именем и автоматически переводить посетителей на основной сайт. Употребляйте подходящие слова во множественном числе. Например, searchengines.com (поисковые машины) лучше, чем searchengine.com (поисковая машина), если только web сайт не имеет отношения к какой то отдельной поис ковой машине. Не забывайте о перспективе. Если в будущем вы планируете выпускать новые продукты, позаботьтесь, чтобы доменное имя соответствовало как новым, так и первоначальным продуктам и услугам. Эксперты по Internet маркетингу ут верждают, что web сайт должен иметь только одну тематику. Cайт широкого про филя не очень привлекает посетителей, которые ищут конкретную информацию. Регистрируйте доменное имя в правильном домене – глобальном или регио нальном. Для глобальных сайтов используйте домены .com, .org или .net. Для ре гиональных – соответствующие домены страны, для России – .ru или .org.ru. Расширения .com и .net предпочтительны для бизнес сайтов. Доменные имена .org традиционно используются некоммерческими организациями. Обратите внимание, что многие домены имеют ограничения по выбору имен. В некоторых доменах можно использовать только имя, производное от названия организации или зарегистрированной торговой марки. Можно зарегистрировать несколько доменных имен в разных доменах и направлять их на один и тот же сайт. Проверяйте, не посягаете ли вы на торговую марку или имя, которое по праву принадлежит другой компании или отдельному человеку. Не всякое доступное доменное имя следует регистрировать и использовать. По возможности не используйте доменные имена, похожие на другие. Ведь нужно, чтобы посещали именно ваш сайт, а не конкурента! Исключением из это го правила будет ситуация, когда с целью привлечения дополнительных покупа телей вы регистрируете доменное имя, состоящее из слов с распространенными орфографическими ошибками. Чтобы проверить доступность конкретного доменного имени, можно восполь зоваться сетевыми сервисами или специализированными программами, которые

мы рассмотрим в следующей главе.

Обновление информации

15

Разработка семантического ядра

Процедура проработки семантического ядра запросов не вполне технологична

и зиждется, скорее, на интуитивных догадках исследователя, чем на строгих вык ладках. Существуют способы получения данных о популярности того или иного слова, но нет четкого механизма определения, являются ли люди, воспользовав шиеся им, вашими целевыми посетителями. Кроме того, далеко не всегда ясно,

а какие, собственно, слова нужно рассмотреть. То, что кажется очевидным про

давцу, может совсем иначе представляться покупателю. При анализе семантического ядра особое внимание следует уделить запросам с низкой частотой появления. Очень часто практически невозможно позициони ровать сайт по запросам, имеющим высокую популярность, зато это достаточно просто делается по большому количеству запросов низкочастотных. А по общей сумме удачных запросов результат продвижения может оказаться и лучше. В итоге работы над семантическим ядром должна быть составлена таблица, в которой отражается:

запрос (слово или выражение);

частота запроса (его популярность);

количество сайтов, найденных по запросу;

место в результатах поиска первого реального конкурента.

Такие таблицы составляются на основании данных, по крайней мере, трех ос новных российских поисковых систем Яndex, Рамблер и Апорт, а также Google и Yahoo!. После этого отбираются те ключевые слова, по которым имеет смысл бо роться за место на первых трех страницах результатов поиска: многочисленные исследования показывают, что пользователи редко заглядывают дальше. Старайтесь использовать эти слова, где только возможно (но не злоупотреб ляйте). Этот прием действенен и очень важен. Лучше уделить больше внимания продумыванию ключевых слов на начальной стадии разработки сайта, чем ис правлять их позже, теряя гораздо больше драгоценного времени.

Обновление информации

Устаревшая информация – это очень серьезная проблема для владельца сайта. Ведь множество сайтов, сходных по тематике с вашим, продолжают постоянно об

новляться. Сейчас же, с развитием электронной торговли, особенно важно не поте рять доверия посетителей, а показать им устаревшую информацию – верный спо соб дать понять, чего стоят ваш сайт и ваши услуги. Обратите внимание на то, что архивы и информация о старом товаре или продукте – как раз достоинство сайта,

а не недостаток, и они очень сильно отличаются от устаревшей информации. Если вы описываете в документе некую сложную часть системы или чувству ете, что читатели рады иметь хоть какие то сведения о данном предмете, нет смысла в детальной проверке такого документа. Если есть люди, действительно нуждающиеся в этой информации, они могут смириться с некоторыми недочета ми и просмотреть весь материал, чтобы понять ваши идеи. Такой путь может

16

Этапы большого пути

быть весьма эффективным. Обратите на это внимание, потому что существует определенный слой информации, предназначенной для быстрого ознакомления или создания новых файлов на ее основе, и она важна для будущих читателей. Лучше, чтобы эта информация была доступна хотя бы в незаконченной форме, чем отсутствовала вовсе. До появления электронных технологий усилия на пуб ликацию «сырого» материала приводили к браку и могли быть приняты за оскор бление читателя, так как выглядели как издание низкого качества. В настоящее время публикации идут на всех уровнях, и имеют свою ценность, как документы высокого качества, так и недоработанные. Поэтому обратите внимание читателей на текущий уровень подготовки документа, дабы избежать разочарования.

Заголовки

Корректные заголовки, кратко отражающие общую тематику, облегчают поиск Internet ресурсов. Использование каждого слова в названиях страниц следует тща тельно обдумать. Очень важно грамотно составить начальные фразы; это требова

ние особенно касается текста внутри тэгов <HEAD><TITLE>

</HEAD>, так поисковые системы, отвечающие на запросы пользователей, рабо тают в первую очередь с этой лексикой. У всех документов может быть только один заголовок – он должен идентифицировать содержание в довольно широком контексте. Обычно именно эти фразеологические единицы видны в результатах запросов, и именно по ним читатели будут определять, стоит ли щелкнуть по ссылке или продолжить поиск. Заголовок не является частью текста документа. Он не может содержать ссы лок, знаков параграфа или подчеркивания. Идеальная длина заголовка – не бо лее 64 символов. Как и прочие смысловые элементы текста Web страницы, заго ловки должны быть написаны иначе, нежели для других средств массовой информации: ведь это часть пользовательского интерфейса и навигационный элемент сервера. Если вы учитываете данный фактор, то многие приложения мо гут показать заголовки ваших документов в соответствующем окне, в меню, зак ладках, – другими словами, там, где место ограничено. Специальных ограниче ний на длину заголовков не существует, они легко генерируются автоматически, но слишком длинные могут быть обрезаны. Заголовок страницы должен содержать как можно больше ключевых слов и в то же время не выглядеть тяжеловесным. Часто заголовки вырезают из контекста, чтобы составить оглавление, краткий обзор сервера и т. п. Кроме того, именно эти элементы в первую очередь считыва ются роботами поисковых машин. В любом случае писать заголовки текстов для Internet нужно, ставя перед собой две задачи:

дать пользователю точную информация о содержании документа, чтобы ему не приходилось строить догадки; не ввести пользователя в заблуждение привлекательным, но дезинформи рующим заголовком. Сиюминутный успех обернется в дальнейшем резким снижением посещаемости вашего сайта из за подрыва доверия.

</TITLE >

Метаданные

17

Метаданные

Метаданными (от греч. metб – после, за; между, среди) называют информацию о документе, служащую дополнением к его содержимому. Язык гипертекстовой разметки HTML позволяет авторам указывать подоб ные сведения множеством способов. С этой целью используют метатэги – дан ные, размещаемые за словом <META >. Если обычные тэги языка HTML при меняются для разметки страниц, то есть для придания им определенного внешнего вида, то назначение метатэгов совсем другое. Они несут в себе справоч ную и управляющую информацию, которая предназначена для различных аген тов (клиентских приложений, поисковых роботов). Включение метатэгов в доку мент, как правило, обусловливает следующие основные цели:

управление процессом индексации документа или всего сайта в целом по

исковыми роботами; описание содержимого документа (также для поисковых роботов);

управление некоторыми функциями браузеров.

Многие из метатэгов довольно абстрактны, то есть не содержат никаких по лезных сведений и не заслуживают внимания с точки зрения агентов. Сами мета тэги и их содержание скрыты от посетителя сайта. Однако поисковые машины их находят, а содержащиеся там данные играют не последнюю роль при определе нии рейтинга страницы. Однако не следует забывать, что некоторые поисковые машины не придают им значения. Метатэги не несут никакой визуальной информации и располагаются в заго ловочной части HTML документа между тэгами <HEAD> и </HEAD>. В любом другом месте они будут проигнорированы. Особенно важны они для страниц, ис пользующих фреймы. Существует два вида метатэгов:

метатэги – эквиваленты

HTTP заголовков, имеющие формат записи:

<META HTTP-EQUIV=“ñâîéñòâî” CONTENT=“çíà÷åíèå”>

информационно указательные, записываемые следующим образом:

<META NAME=“ñâîéñòâî” CONTENT=“çíà÷åíèå”>

Элементом META задается свойство, которому присваивается значение. Мета тэги первого вида эквивалентны HTTP заголовкам и обычно управляют дей ствиями браузеров. Они используются, чтобы оптимизировать информацию, ко торую содержат обычные заголовки, и особенно важны, если документы загружаются по протоколу HTTP (протоколу передачи гипертекста – ftp:// ftp.nsc.ru/pub/rfc/rfc2068.txt). Серверы HTTP могут использовать имя свойства, указанное в атрибуте HTTP-EQUIV, для создания заголовка в ответе HTTP. Мета тэги второго вида чрезвычайно важны для работы поисковых машин. Элемент META лежит в основе механизма введения метаданных. Существуют, однако, некоторые тэги и атрибуты тэгов языка HTML, которые обрабатывают часть метаданных и могут использоваться авторами вместо элементов META: тэги TITLE, ADDRESS, INS и DEL, атрибуты тэгов TITLE и CITE.

18

Этапы большого пути

Метатэги – эквиваленты HTTP заголовков

Для метатэгов этого вида могут быть использованы следующие свойства:

Expires; Pragma; Content-Type; Content-language; Refresh; Window-target; Content-Script-Type; Content-Style-Type. Рассмотрим их применение.

Свойство Expires

В примере ниже показано, как выглядит формат метатэга со свойством Expires (Дата устаревания):

<META HTTP-EQUIV=“Expires” CONTENT=“Mon, 29 Nov 2004 08:21:57 GMT”>

Клиенту будет возвращен такой заголовок HTTP:

Expires: Mon, 29 Nov 2004 08:21:57 GMT

Заголовок данного вида используется для управления кэшированием. Если указанный в метатэге срок устаревания истек, то при запросе документа он будет доставлен по сети, а не загружен из кэша. Нулевое значение даты (CONTENT=“0” ) приводит к тому, что браузер проверя ет при каждом запросе, не изменился ли документ. Поисковые роботы могут либо совсем не индексировать его, либо постоянно отслеживать изменения в документе. Формат даты описан в стандарте RFC850 (ftp://ftp.nsc.ru/pub/rfc/rfc850.txt). Для решения ряда задач требуется, чтобы при каждом запросе документ заг ружался не из кэша браузера, а с сервера. Обычно это необходимо для сайтов, которые поставляют динамически изменяющееся содержание. В качестве приме ра можно привести результат какого либо поиска (информация о курсе доллара в реальном режиме, электронный магазин или обычный чат). В таких случаях страница в кэше не обязательно соответствует реальной. В подобной ситуации можно запретить браузеру кэшировать страницы при помощи свойства метатэга Expires, которое указывает дату устаревания содер жимого страницы. Для того чтобы она не кэшировалась, достаточно установить прошедшую дату – например, вот так:

<META HTTP-EQUIV=“Expires” CONTENT=“Mon, 01 Jan 2000 00:00:00 GMT”>

Если страница содержит постоянные данные и не требует регенерации при каждом запросе, то вам не следует отключать кэширование для браузера. Это по зволит браузерам использовать сохраненную в кэше копию страницы в течение некоторого отрезка времени, которым вы можете управлять. Кэширование может значительно снизить нагрузку на вашем сервере.

Метаданные

19

Обычно имеет смысл отключать кэширование лишь для динамических стра ниц, которые содержат информацию, изменяющуюся со временем. И то далеко не всегда. Какие же из динамических страниц могут быть кандидатами на кэширо вание? Например, страница с прогнозом погоды, где информация обновляется каждые 5 минут. Или начальная страница сайта, которая содержит список мате риалов на сервере или официальные сообщения для печати, которые модифици руются два раза в день. Другие подобные страницы, где обновления происходят раз в несколько часов. Заметьте, что с кэшированием в браузере вы получите меньшее количество посетителей, зарегистрированных на вашем сервере. Поэтому, если вы хотите точно измерять количество просмотров страниц или показов баннеров, то, скорее всего, вы откажетесь от кэширования.

Свойство Pragma

Свойство Pragma (Контроль кэширования) применяется для отказа от кэширо вания и задается следующим образом:

<META HTTP-EQUIV=“Pragma” CONTENT=“no-cache”>

Отказ от кэширования означает, что при запросе документа он будет достав лен по сети, а не загружен из кэша. Обратите внимание, что неразумное запреще ние кэширования усложняет навигацию по сайту и увеличивает время ожидания. Так, при нажатии в браузере кнопки Back (Назад) происходит новый запрос сер вера и приходится ждать загрузки страницы, которая минутой ранее была от правлена клиенту и уже есть у него в компьютере.

Свойство Content Type

Свойство Content type (Тип содержимого) служит для указания типов содер жимого (типов MIME), к которым относятся “text/html”, “image/png”, “image/gif”, “video/mpeg”, “audio/basic”, “text/tcl”, “text/ javascript” и “text/vbscript” (с учетом регистра). Текущий список за регистрированных типов MIME можно найти по адресу ftp://ftp.isi.edu/in notes/iana/assignments/media types/. Тип содержимого “text/css”, хотя он

и не зарегистрирован, используется для иерархических, или каскадных, таблиц стилей (CSS). Тип документа “text/html” дополнительно расширяется указанием коди ровки страницы charset (набор символов) – тогда браузер выводит ее сразу

в заданной кодировке. Однако обратите внимание: если текст документа написан

в windows 1251, а значение указано charset=KOI8-r, то изменить кодировку

в браузере невозможно и текст совершенно не читается. Формат метатэга следующий (для типа содержимого “text/html” и набора символов windows 1251):

<META HTTP-EQUIV=“Content-type” CONTENT=“text/html; charset=

windows-1251”>

20

Этапы большого пути

Немного о кодировках

Кодировка представляет собой таблицу, где каждому символу – буквам алфави та, цифрам и специальным знакам – соответствует свой уникальный номер, код символа. Полностью стандартизирована лишь первая часть таблицы, так называемый ASCII код – первые 128 символов, включающих цифры и буквы латинского ал фавита. Поэтому с ними никогда не бывает проблем. Вторая же часть таблицы (всего в ней 256 символов – по числу состояний, которые может принять один байт) отведена под специальные символы. Она используется для кодировки сим волов национальных алфавитов, причем для каждого языка и в каждой стране она различна. При этом для букв русского языка создано пять различных кодиро вок, то есть одному символу соответствуют разные цифровые коды. Таким обра зом, при неправильной кодировке мы получим совершенно нечитаемый текст. На заре развития вычислительной техники очень широко использовалась ко дировка с кириллицей KOI 8. Она появилась в семидесятые годы при адаптации операционной системы UNIX к русскому языку – персональных компьютеров тогда еще не было. KOI 8 – до сих пор основная кодировка в UNIX. Потом нача лось победное шествие персональных компьютеров IBM, а с ними – операцион ных систем MS DOS, имевших DOS кодировку (или кодовую страницу 866). Параллельно развивались компьютеры Macintosh, и, разумеется, была придума на еще одна кодировка – MAC. Наконец, с появлением операционной системы Microsoft Windows появилась и новая windows кодировка (кодовая страница 1251). Она то и стала самой распространенной в России. Еще один вариант связан с попытками стандартизации кодировок на уровне всей планеты. Разработчики из ISO, международной организации по стандартам, , создали еще одну кодировку и назвали ее ISO 8859 5. В настоящее время она прак тически не применяется (по видимому, ее используют лишь в базе данных Oracle), однако поддержка данной кодировки предусмотрена во всех браузерах. В настоящее время создана универсальная кодировка UNICODE, в которую вошли все языки мира, поэтому на каждый символ в ней отведено по два байта. Таким образом, максимальное число знаков в таблице расширилось до 65 535. Сейчас UNICODE находит свое применение, но пока не слишком широкое. Правильное отображение символов национальных алфавитов касается как Web серверов, так и браузеров. Они должны осуществлять информационный обмен на одном языке и в одной кодировке, и только в этом случае сообщения будут доступны. Сервер должен иметь эффективную систему предварительного оповещения о том, в какой кодировке будет прислана страница. Клиентской программе (брау зеру) необходимо принять такое сообщение и, соответственно, настроиться на нужное отображение. Если все сделать правильно, то никаких трудностей не воз никнет. Однако при некорректной настройке Web сервера он сообщает об одной кодировке (например, windows 1251), а страницу пересылает в другой (напри мер, в KOI 8). Пользуясь указаниями сервера, браузер, естественно, ошибается и отображает страницу неверно.

Метаданные

21

Как показано выше, можно задать кодировку документа не на сервере, а непо средственно в HTML коде – с помощью метатэга со свойством Content-type. Но не все так просто. В России распространен способ, при котором сервер автомати чески определяет, в какой кодировке приходит запрос от клиента, и пересылает страницу Web браузеру уже перекодированной. Вот тут то использование ука

занного метатэга и может сыграть с вами злую шутку. Дело в том, что указания на странице имеют приоритет над командами, присылаемыми Web сервером, и, пра вильно перекодировав страницу, сервер не может изменить содержимое метатэга. Происходит несовпадение реальной кодировки, в которой пришел документ,

и указаний в тэге META. Такую страницу нельзя будет нормально просмотреть

и перекодировать средствами браузера. Выбор кодировки вручную в данном слу

чае не поможет, так как метатэг имеет приоритет и над установками браузера. Единственный способ прочитать документ – это сохранить страницу и удалить злосчастный тэг. Учитывая все вышесказанное, данный тэг можно вообще не применять. Тогда просмотр будет вестись в той кодировке, на которую настроен браузер, если сервер не пришлет уведомление о другой кодировке документа. В этом случае клиент смо жет легко ее переключить. У подавляющего большинства ваших посетителей из России по умолчанию выставлена кодировка windows 1251, поэтому у них стра

ница сразу же будет показана правильно.

Свойство Content language

Язык документа, указанный в метатэге со свойством Content language (Язык со держимого), может использоваться поисковыми машинами при индексировании страниц. Метатэг имеет следующий формат:

<META HTTP-EQUIV=“Content-language” CONTENT=“en-GB” >

Язык задается комбинацией двух значений язык диалект (при этом значение диалект может отсутствовать), в данном примере – английский Великобрита ния. Язык представляет собой двухбуквенный код, зарезервированный для со кращений типа fr – французский, de – немецкий, ru – русский. Спецификация HTML 4.0 допускает явное указание автором языка в самом документе:

<HTML LANG=“en” >

Подобная информация может пригодиться:

поисковым машинам; синтезаторам речи;

агентам пользователей (клиентским программам) при выборе вариантов глифов для типографской печати высокого качества;

агенту пользователя при выборе набора кавычек;

агенту пользователя при настройке переноса, лигатур и интервалов;

программам проверки грамматики и орфографии.

22

Этапы большого пути

Все коды языков, которые должны использоваться в документах на языке HTML, определены и описаны в стандарте RFC1766 (ftp://ftp.nsc.ru/pub/rfc/

rfc1766.txt).

Реализовывать рассмотренную возможность следует крайне осторожно, по скольку могут возникнуть проблемы, из за которых текст на странице станет не читаемым.

Свойство Refresh

Свойством Refresh (Период обновления) определяется время задержки, после которой браузер автоматически обновляет документ. Метатэг часто использует ся для автоматической загрузки другого документа (или, как говорят, переадре сации, перенаправления). Формат метатэга таков:

<META HTTP-EQUIV=“Refresh” CONTENT=“3, URL=http://www.name.ru/ page.html”>

CONTENT – число, указывающее время задержки в секундах; далее следует адрес, который нужно загрузить по прошествии этого времени. Подобный способ широко используется для создания кратковременных заставок. Но, поскольку некоторые браузеры его не поддерживают, в заставке, чтобы она не «зависала», необходимо пре дусмотреть возможность перехода на следующую страницу. Кроме того, применение данного способа затрудняет возврат на предыдущие страницы стандартными сред ствами. При переадресации (то есть при значении 0) пользователь не может вернуть ся на предыдущую страницу с помощью кнопки Назад (Back), так как его в ту же секунду пересылают на страницу, с которой он пытается уйти. Как известно, изменение адреса сайта влечет за собой потерю его посетителей. Поэтому обычно по старому адресу размещают информацию, которая поможет найти сайт. Но можно сделать и так, чтобы в дополнение к этому браузер сам перешел на использование нового адреса – благодаря метатэгу со свойством Refresh.

Свойство Window target

Свойство Window target (Окно текущей страницы) служит для определения окна текущей страницы. Его можно использовать, чтобы исключить появление новых окон во время применения фреймовых структур. Вид метатэга может быть, например, таким:

<META HTTP-EQUIV=“Window-target” CONTENT=“_top”>

Свойство Content Script Type

Поскольку в документах HTML не предполагается использовать определенный язык сценариев, авторы должны указывать его непосредственно в каждом фраг менте кода. Это можно сделать с помощью объявления скрипта по умолчанию для всего документа или с помощью локального объявления.

Метаданные

23

Чтобы объявить скрипт по умолчанию, в текст HTML документа необходимо включить следующий метатэг:

<META HTTP-EQUIV=“Content-Script-Type” CONTENT=“type”>

Здесь “type” – тип содержимого, указывающий язык скрипта. Примеры значений – “text/tcl”, “text/javascript”, “text/vbscript”.

Свойство Content Style Type

Чтобы установить для документа язык таблицы стилей по умолчанию, надо ис пользовать следующую строку:

<META HTTP-EQUIV=“Content-Style-Type” CONTENT=“text/css”>

Документы, в которых применен тэг STYLE, но не определен язык таблиц сти лей по умолчанию, являются некорректными.

Метатэги для поисковых машин

Метатэги, которые помогают поисковым машинам индексировать сайт, делают документы для них более доступными. Представители большинства поисковых систем уже сошлись во мнении, что применение метатэгов способствует повышению релевантности отклика при об работке запросов. Но есть и прямо противоположная точка зрения, которой при держиваются, например, эксперты российской поисковой машины Rambler. Если ваша компания широко известна и связана с производством уникальной продукции или оказанием услуг повышенного спроса, то проблем с локализаци ей ваших узлов в Internet у пользователя, скорее всего, не возникнет. Другое дело, если вы пытаетесь предоставить клиентам или читателям сервис или материал, не отличающийся оригинальностью, например, связанный с разра боткой Web страниц. В этом случае даже в первую сотню ссылок из списка от клика в глобальной поисковой системе попасть не просто. Способов повышения доступности узла из поисковых машин – и оправданных, и сомнительных с точки зрения этики – немало. Важно помнить о том, что универсальных рецептов пока не существует: слишком многое зависит от специфики работы отдельного поис кового сервиса. Проблема заключается еще и в том, что фактически существует два подхода к решению рассматриваемого вопроса. Один предлагается в реко мендациях по созданию документов экспертами самой поисковой системы, дру гой используется разработчиками, чтобы достичь высокого рейтинга. По видимому, самый полезный совет заключается в следующем: анализируй те HTML код тех документов, которые добились в интересующей вас сфере дея тельности и поисковой системе наивысших рейтинговых результатов. Это отно сится и к метатэгам, и к остальному содержимому страниц. Естественно, такой анализ требует специальных навыков и отличается трудоемкостью, что может послужить веским доводом для обращения к профессионалу. Оптимальный результат обеспечила бы компания посредник, имеющая прямой контакт с разработчиками поисковых систем. Если нечто подобное и существует,

24

Этапы большого пути

информация об этом по понятным причинам вряд ли когда либо будет предана огласке. Есть, однако, косвенные, хотя и медленно действующие приемы, кото рые позволяют провести анализ работы поисковых систем и доступны каждому:

речь идет о тестировании. Известны примеры создания целых тестовых Web уз лов, единственная задача которых – определить, насколько чувствительна работа алгоритма отдельной поисковой машины к тому, как размещена информация на Web страницах. Широкое распространение в Internet получила и разработка так называемых страниц мостиков, которые оптимально нацелены на конкретную поисковую систему. Добраться с них до основной страницы узла адресатам ин формации позволяют гиперссылки. В целом ситуация, когда материалы сайта в первую очередь ориентированы на поискового робота, а не на конечного пользователя, не может не вызывать опасе ний. Так, например, одно время AltaVista особенно высоко оценивала содержи мое заголовка страницы, помещаемое в контейнер TITLE. В результате список отклика этого индекса возглавили сотни документов, имеющих вместо связного заголовка набор ключевых слов и фраз. Именно этот набор становился по умол чанию именем закладки на документ при работе с большинством браузеров. Как оказалось, даже такая «прецизионная» настройка на систему не дает дол говременных гарантий: после того как AltaVista изменила характер ранжирова ния документов, рейтинг многих фаворитов катастрофически снизился.

Ключевые слова и описания

Чтобы получить высокий рейтинг в поисковых системах, требуется выбрать для передачи им основные ключевые слова и фразы сайта. В общей сложности их должно быть не меньше десяти (желательно – несколько десятков), и они долж ны соответствовать содержанию сайта. Кроме того, требуется составить краткое описание сайта – абзац длиной не более 1 000 знаков (для некоторых поисковых машин – не более 700). Ваш сайт для поисковых систем – один из многих, поэтому текст описания, который обычно появляется на страницах с результатами поиска, должен быть интересным, привлекающим внимание, чтобы у читателя возникло сразу жела ние посетить сайт. Ключевые слова в нем необходимо использовать как можно чаще – от этого зависит высота рейтинга. Вообще, к подбору ключевых слов следует подойти очень серьезно. Правиль ный их выбор позволяет сильно повысить позицию сайта при запросах. Какие же слова следует выбирать? Разумеется, те, которые наиболее точно отражают специфику именно вашего проекта. При этом следует избегать случай ных и общих фраз. Представьте себя на месте человека, который пытается найти ваш сайт. С каких слов вы начнете поиск? Что наберете в поле запроса поисковой системы? Каждый вариант следует проверить в какой либо поисковой системе (луч ше – в нескольких). Оцените, насколько список найденных сайтов связан с тема тикой вашего. Если такая связь не вызывает сомнений, то выбранные вами слова подходят на роль ключевых; в противном случае стоит поискать другие. Для на

Метаданные

25

глядности не мешает посмотреть, какие ключевые слова используются на первых страницах результата поиска. Многие индексирующие машины проводят поиск элементов тэга META, в ко торых задан разделенный запятыми список ключевых слов и фраз или дается краткое описание. Поисковые машины могут представлять их как итог поиска или использовать для улучшения его результатов. Формат указанных метатэгов иллюстрируют следующие примеры:

<META NAME=“keywords” CONTENT=“îòïóñê, Ãðåöèÿ, ñîëíöå”> <META NAME=“description” CONTENT=“Èäèëëè÷åñêèé îòïóñê â Åâðîïå”>

В поле CONTENT не должно быть знаков конца строки, кавычек и других спе циальных символов; регистр символов значения не имеет. Не рекомендуется повторять несколько раз одни и те же ключевые слова, так как это может быть воспринято как спам, в результате чего страница может быть удалена из индекса поисковой машины. Обычно спамом называют несанкциони рованную рассылку электронной почты. К ней зачастую прибегают недобросове стные рекламодатели, распространители вирусов и т. д. Однако здесь и далее по тексту под спамом будет подразумеваться намеренное злоупотребление ключе выми словами в заголовках, комментариях и тексте самого документа. Не стоит использовать одинаковые списки ключевых слов для разных стра ниц сайта. Конечно, так проще, но содержимое документов различное, да и поиск ведется по разному. Если вам хочется автоматизировать эту работу (действи тельно, довольно трудоемкую, ведь общий объем ключевых слов одного докумен та может достигать 50% от его объема), напишите программу, которая выбирала бы текст из определенных блоков документа, например, из контейнеров, заклю ченных в тэгах H, I и B. Задача не кажется сложной, да и можно найти подобную программу в архивах программного обеспечения в Internet. Если строка в поле CONTENT получается слишком длинной, не возбраняется разбить ее на несколько конструкций этого вида. Указание ключевых слов – это основной способ использования тэга META. Информация о документе, составленном с использованием различных языков, может быть представлена в нескольких таких тэгах. Тогда поисковые машины могут фильтровать атрибут LANG и отображать результаты поиска с применени ем выбранного пользователем языка – например, так:

<— Äëÿ ãîâîðÿùèõ íà àíãëèéñêîì â àìåðèêàíñêîé âåðñèè—> <META NAME=“keywords” LANG=“en-us” CONTENT=“vacation, Greece, sunshine”> <— Äëÿ ãîâîðÿùèõ íà áðèòàíñêîì àíãëèéñêîì —>

<META NAME=“keywords” LANG=“en” CONTENT=“holiday, Greece, sunshine”> <— äëÿ ðóññêîÿçû÷íûõ ïîëüçîâàòåëåé —> <META NAME=“keywords” LANG=“ru” CONTENT=“îòïóñê, Ãðåöèÿ, ñîëíöå”>

Эффективность обращения к поисковым машинам можно повысить также за счет использования тэга LINK для создания ссылок на разноязычные переводы страницы, на версии документа для другого носителя (например, PDF) и, если

26

Этапы большого пути

документ является частью набора, ссылок на соответствующую начальную точку для просмотра набора. Метатэг NAME=“keywords” позволяет автору документа самостоятельно со здать адекватный содержанию набор ключевых слов и фраз. Допустимая для вос приятия роботом длина перечня варьируется от 874 до 1 000 символов. При от сутствии указанного метатэга робот формирует набор автоматически на основе своего алгоритма. Если индексируется все содержимое документа, то он будет участвовать в отклике и по тем терминам, которые входят в текст страницы, но отсутствуют в метатэге. Автоматический индекс при создании поискового образа документа может комбинировать содержимое метатэгов и текста, должным обра зом взвешивая термины из разных полей Web страницы. При этом далеко не все системы, которые поддерживают метатэги, отдают явное предпочтение входя щим в них терминам. Отметим также, что метатэг ключевых слов стоит размещать в одну строку, поскольку некоторые роботы не умеют переходить к новой строке. Ключевые слова лучше не повторять более двух раз, иначе поисковая система может расценить это как спам. Нежелательно, например, задавать последователь ности вида «free, free, free, free, free, free», но вполне допустимы такие, как «free, free web, free stuff, internet for free». Большего успеха можно добиться, если использовать не ключевые слова, а ключевые фразы. Если вы подберете их удачно, то, возможно, при запросе ваша ссылка окажется одной из первых. Есть еще один, не вполне серьезный прием, основанный на известной ошибке. Многие забывают переключать языковую рас кладку клавиатуры, и тогда, допустим, вместо запроса «free» возникает запрос:

«акуу», то есть английское слово, введенное буквами кириллицы, расположен ными на соответствующих клавишах. Как ни странно, результат бывает положи тельным: поисковая система выдает ссылку на ваш сайт! Для хорошего индексирования документа поисковыми системами рекоменду ется в первом абзаце текста на каждой странице использовать как можно больше отобранных для нее ключевых слов. Как известно, основную смысловую нагрузку несут в языке имена существи тельные. Поэтому именно они составляют большую часть ключевых поисковых слов. Значительно реже используются прилагательные, совсем редко – глаголы, наречия, предлоги, союзы. Имена прилагательные просто незаменимы, если требу ется индексировать «голландский сыр» с «баварским пивом» в «ночном клубе». Очень эффективно использование редких слов. К таковым можно отнести спе циальные термины, названия местностей, организаций, имена людей и т. п. Приме нение подобной лексики позволяет максимально конкретизировать тематику. Существует целый ряд слов, которые поисковая система будет игнорировать при запросе; их поиск невозможен. Это так называемые стоп слова, например: на, что, это, для и др. Они настолько часто встречаются в текстах, что искать по ним что либо крайне затруднительно. Интересно, что в списки стоп слов для некото рых поисковых машин уже входят такие, как Internet, компьютер, Сеть. Они ста ли настолько распространенными, что утратили свое значение (с точки зрения

Метаданные

27

поиска, конечно). Очевидно, что использовать стоп слова в качестве ключевых нет смысла. Метатэг NAME=“description” позволяет включить в поле CONTENT крат кое описание документа. В зависимости от робота воспринимаемая длина текста составляет от 150 до 250 символов. После индексирования поисковой машиной описание должно появиться рядом со ссылкой на документ при попадании его

в список отклика. Если ресурс ориентирован не только на русскоязычную публику, целесооб разно сделать отдельные описания на разных языках. Следует создавать лако ничные и привлекающие внимание тексты; суть должна быть ясна с первого взгляда, поскольку на страницах с результатами поиска в поисковой системе ин формацию о каждом найденном сайте приводят в одном небольшом абзаце. При составлении описания не нужно указывать в нем название сайта – оно

и так будет проиндексировано. С точки зрения индексирования сайта не имеют

смысла общие фразы типа: «Здесь есть все», «Вам будет интересно», «Заходи, не пожалеешь!» и т. п. Обратите внимание посетителя именно общее содержание, а он сам разберется, нужна ли ему ваша страница или нет. Стоит ли заманивать читателей, если они сразу же покинут сайт, убедившись, что он не соответствует

описанию? Если в документе нет описания, то в качестве такового поисковые машины приводят несколько начальных строк документа. Поэтому случается, что если

в самом начале документа есть фрагмент, написанный на языке JavaScript, то вмес то нормального описания выдается «абракадабра» в виде фрагмента скрипта. Словом, необходимо, чтобы описание имело вид аннотации, состоящей из не скольких ясных предложений, и тогда пользователь поисковой машины сможет легко понять смысл документа. При подборе ключевых слов для метатэга документа необходимо учитывать различные нюансы. Многие алгоритмы придают больший вес тому термину или фразе, которые расположены ближе к началу перечня. Число повторений ключе вых слов не должно превышать определенного количества (как правило, двух трех), во избежание применения санкций против спама: иначе страница не будет проиндексирована и включена в базу данных поисковой системы. Неплохую по мощь могут оказать системы, которые отслеживают запросы, поступающие от пользователей на поисковые машины. Важно найти не просто адекватные содер жанию ключевые слова и фразы, а именно те, которые часто применяются пользователями на практике. Итак, поисковые роботы берут ключевые слова и описание сайта непос редственно из кода страницы и содержимого метатэгов NAME=“keywords”

и NAME=“description”. Однако не все системы придерживаются такой мето

дики. Многие проверяют соответствие ключевых слов основному тексту страни цы, а полнотекстовые поисковые машины анализируют все ее содержимое, хотя ключевые слова в ней при поиске являются приоритетными. Для более широкого охвата потенциальной аудитории ключевые слова и опи сание сайта, которые вы стремитесь вставить в большинство документов, реко

28

Этапы большого пути

мендуется корректировать в соответствии со смыслом конкретной страницы. Это повысит вероятность попадания на ваш сайт. Общее же его описание пригодится для страниц с «нейтральным» содержанием. Большинство поисковых машин придает большое значение титулу страницы и метатэгам с ее описанием и ключевыми словами. Однако стоит подумать не только о поисковых системах, но и о тех, кто увидит эти ссылки, – ведь в конеч ном итоге ссылки будут выведены на экран, а решать, переходить по ним или нет, будет пользователь. Допустим, вы сделали запрос program. Появились результаты, в числе кото рых, например, такие:

Free program, program, free, program free, free program

Free program, program, free, program free, free program, free program, program, free, program free, free program, free program, program, free, program free, free program, free program, program, free, program free, free program

Воспользоваться такими ссылками уже не тянет – возникает предубеждение к сайту и его хитрому создателю. Современные поисковые роботы определяют спам и не индексируют страницу, но машина – это всего лишь машина. Можно просто вписывать в титул метатэги, ключевые выражения, результат будет тот же: бессмысленные ссылки! Пожалуй, не зря считается, что оформле ние страниц для поисковых систем – это наука и искусство. Ваша задача – не только правильно подобрать ключевые фразы и слова, но и составить из них ло гичные предложения для титула и описания, которые и выводятся в результатах поиска. При этом еще надо уложиться в отведенное количество символов. Подбор ключевых выражений начинает походить на некое таинство, особенно это касается иностранных поисковых систем: некоторые расхожие слова уже «проданы», и вы, как ни бейтесь, на первое место по ним не попадете. Появилась даже платная услуга по подбору ключевых слов и оформлению до кументов под них, осуществляемая профессионалами. Если вы полагаете, что вам это не нужно, – готовьтесь постоянно следить за своим рейтингом в поисковых машинах и определять положение ваших ссылок по заданным ключевым словам, ведь поисковики действительно могут обеспечить вам существенный приток по сетителей.

Язык документа

В глобальном контексте Internet важно знать, на каком языке создается страница. Определите язык документа, как описано выше, в разделе «Свойство Content language».

Языковые варианты документа

Если вы подготовили переводы документа на другие языки, используйте тэг LINK для ссылки на эти тексты. Такой подход повысит эффективность поиско вых машин и позволит им предлагать результаты поиска на языке, предпочитае

Метаданные

29

мом пользователем, независимо от построения запроса. Например, следующие ссылки предлагают поисковой машине французскую и немецкую версии:

<LINK rel=“alternate” type=“text/html” href=“mydoc-fr.html” hreflang=“fr” lang=“fr” title=“La vie souterraine” > <LINK rel=“alternate” type=“text/html” href=“mydoc-de.html” hreflang=“de” lang=“de” title=“Das Leben im Untergrund” >

Указанным тэгом определяется связь. Хотя он может быть представлен неогра ниченное число раз, его присутствие допускается только в разделе HEAD докумен та. Несмотря на то, что тэг LINK не имеет содержимого, он является носителем ин формации об отношениях, которая может представляться агентами пользователей (браузерами) различными способами, например, в виде панели с выпадающим списком ссылок. Таким же способом с помощью тэга LINK задаются ссылки на версии доку мента для другого носителя (например, PDF) и, если документ является частью набора, ссылки на соответствующую начальную точку для просмотра набора.

Начало набора

Наборы документов, или представлений систем обработки текстов, часто перево дятся в наборы документов HTML. Для поисковых машин полезно указать ссыл ку на начало набора в дополнение к тому, что страница попала в результаты поис ка. Вы можете помочь поисковым системам, применив тэг LINK, имеющий атрибуты REL=“begin” и TITLE=, как показано в следующем примере:

<LINK REL=“begin” TYPE=“text/html”

HREF=“page1.html”

TITLE=“Îáùàÿ òåîðèÿ îòíîñèòåëüíîñòè” >

Инструкции для роботов – файл robots.txt

Алгоритмы работы многих поисковых машин предусматривают возможности ог раничения действий роботов. Это достигается с помощью файла robots.txt и тэга META в документах HTML. Файл robots.txt объясняет роботу поисковой машины, что надо индексировать, а что не стоит. Зачем, например, индексировать служебные файлы, скажем, ста тистические отчеты? Файл содержит набор команд, которые позволяют закрыть от индексирова ния отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т. п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного сер

30

Этапы большого пути

вера. Некоторые – так, например, действовал робот поисковой системы Lycos, – вообще не проводят индексирования, если указанный файл отсутствует. Итак, если вы поддерживаете работу сервера с доменным именем www.mysite.ru, то содержимое файла robots.txt должно быть доступно по адресу: http:// www.mysite.ru/robots.txt, то есть данный файл следует загрузить в корневой ката лог вашего сайта. Когда робот просматривает Web сайт, сначала он проверяет наличие документа http://www.mysite.ru/robots.txt. Если таковой обнаружен, ана лизируется его содержимое и выясняется, позволено ли загрузить документ. Вы можете настроить файл robots.txt для конкретных роботов и запретить доступ к определенным каталогам или файлам. На одном сайте может быть только один файл robots.txt. Не следует помещать файлы с данным именем в каталоги, поскольку робот их не найдет. Обратите вни мание, что при адресации в Internet учитывается регистр, поэтому название robots.txt должно быть задано в нижнем регистре. Файл robots.txt – это обычный текстовый документ, содержащий одну или несколько записей, разделенных пустыми строками, как показано в следующем примере:

# robots.txt for http://www.mysite.ru

User-agent: * Disallow: /cgi-bin/maillist/ Disallow: /tmp/ Disallow: /product1.html

User-agent: aport User-agent: scooter Disallow:

Вот пример файла robots.txt, полностью запрещающего доступ к сайту всем роботам:

User-agent: *

# Ïðèìåíÿåòñÿ êî âñåì ðîáîòàì.

Disallow: /

# Çàïðåòèòü èíäåêñàöèþ âñåõ ñòðàíèö.

Каждая запись должна начинаться с указания переменной User-agent от дельной строкой. Таких строк может быть и несколько. Значением переменной User-agent задается оригинальное имя программы робота соответствующей поисковой системы, для которой предназначена информация. Согласно спецификации на файл robots.txt, текст в нем чувствителен к регис тру, так что следует записать именно User-agent, а не User-Agent. Трудно сказать, вызывает ли неверное написание проблемы у роботов поисковых систем, но для надежности лучше соблюсти требования спецификации. Имя робота может быть похоже на название соответствующей поисковой систе мы, а может и сильно отличаться от него. Далеко не всегда оно соответствует наз ванию механизма поиска. Поэтому нельзя просто написать AltaVista в User- agent и ожидать, что AltaVista исключит указанные вами страницы. Имя робота указывается без учета регистра и не включает информацию о версии. Можно пе

Метаданные

31

речислить несколько имен через пробел. Символ * является маской и означает:

«для всех роботов». В этом случае запись описывает режим доступа по умолча

нию для любого робота, неупомянутого явно в других записях. В файле robots.txt не может быть нескольких таких записей.

В табл. 1 приведены имена роботов некоторых поисковых систем.

Таблица 1. Имена роботов поисковых систем

Поисковая система или сервис проверки ссылок

Имя робота

AltaVista (http://www.altavista.com/) AOL (http://search.aol.com/) EuroSeek (http://www.euroseek.com/) Excite (http://www.excite.com/) EZResult (http://www.ezresult.com/) Fast (http://www.fastsearch.com/) Google (http://www.google.com/) Hotbot (http://www.hotbot.com/) Infoseek (http://www.infoseek.com/) – GO.com (http://go.com/)

iWon (http://www.iwon.com/) LookSmart (http://www.looksmart.com/) Lycos (http://www.lycos.com/) MSN (http://www.msn.com/) Netscape Search (http://search.netscape.com/) Northern Light (http://www.northernlight.com/) Teoma (http://www.directhit.com/) W3C Link Checker (http://validator.w3.org/checklink/) WebCrawler (http://www.webcrawler.com/) Yahoo! (http://www.yahoo.com/) Rambler (http://www.rambler.ru/) Апорт (http://www.aport.ru/) Яndex (http://www.yandex.ru/)

Scooter Slurp Arachnoidea ArchitextSpider Mozilla Fast Googlebot Slurp Infoseek Sidewinder; Ultraseek Slurp Slurp Lycos Slurp Googlebot Gulliver Grabber W3C checklink ArchitextSpider Googlebot StackRambler Aport Yandex

Начиная со следующей строки после указания переменной User-agent, оп

ределяются собственно правила поведения робота в виде задания значений пере менным Allow (Разрешить) и Disallow (Запретить).

В поле Allow задается перечень разрешенных для посещения роботами поис

ковых машин каталогов и файлов, а в поле Disallow – перечень закрываемых каталогов и файлов. Это может быть полный или частичный путь. Любой URL адрес, начинающийся с этого значения, нельзя будет загрузить. Например, за пись Disallow: /help запрещает доступ к /help.html и /help/index.html, в то время как запись Disallow: /help/ запретит доступ к /help/index.html, но разрешит доступ к /help.html. Если файл находится в корневом каталоге, обязательно включите перед его именем символ «слеш» – косую черту вправо. Пустое значение параметра Disallow означает, что все URL сайта могут быть проиндексированы. Частая ошибка при написании robots.txt состоит в том, автор

32

Этапы большого пути

ставит *, чтобы указать, что хочет исключить все файлы в каталоге. Однако пра вильным будет не включать никаких звездочек в поле Disallow.

В файле robots.txt должно быть, по крайней мере, одно поле Disallow. Сим

вол # предваряет комментарии, необрабатываемые роботами.

В примере, рассмотренном выше, первая запись запрещает индексирова

ние двух каталогов и файла product1.html. Роботу Scooter поисковой системы AltaVista и роботу Aport поисковой системы Апорт для доступа открываются все каталоги (поле Disallow пусто). При необходимости закрыть все катало ги следовало бы написать: Disallow: /. Пустая строка между записями не обходима. Очень важно не допускать ошибок в файле robots.txt. В противном случае конструкции могут не работать, а вы даже не будете знать об этом. Возможно, некоторые поисковые системы без затруднений разрешат проблемы, возникаю щие из за различий в синтаксисе, однако абсолютной гарантии нет. Поэтому, если вы обнаружите ошибку в синтаксисе, исправьте ее и повторно зарегистри руйте ресурс в поисковых системах. Роботы поисковых машин снова проиндек сируют ваш сайт и выполнят все указания, имеющиеся в файле robots.txt. Обратите внимание, что недопустимы строки вида:

Disallow: /tmp/*

или

Disallow: *.gif

Подробное описание стандарта исключений и синтаксиса команд файла robots.txt вместе с другой полезной информацией о роботах (на английском язы ке) можно найти по адресу http://www.robotstxt.org/wc/robots.html.

Тэг META для роботов

Файл robots.txt поддерживается практически всеми роботами, однако корневой каталог сервера может быть недоступен вам. В этом случае для аналогичных це лей, но лишь в пределах одного документа можно использовать специальные ме татэги. Они не только решают проблему запрета, но и предоставляют позитивные возможности для управления индексированием. Это более гибкое средство уп равления индексацией, чем robots.txt. В частности, в тэге можно дать роботу по исковой машины предписание не уходить по ссылкам на чужие серверы, напри мер, в документах со списками ссылок:

<META NAME=“robots” CONTENT=“index, follow” >

Из данного примера видно, что все управление в метатэге сводится к указа нию двух переменных, а именно NAME и CONTENT. Для переменной CONTENT в контексте NAME=“robots” допустимо использовать следующие значения (они могут быть записаны как строчными, так и прописными буквами):

index – разрешено индексировать документ;

follow – разрешено следовать по ссылкам;

all – эквивалентно употреблению index и follow одновременно (запи сывается через запятую), то есть разрешено индексировать данную страни

Проверка ссылок

33

цу и все ссылки, исходящие из нее. Когда обнаружено слово all, все дру гие слова, если они указаны, игнорируются; noindex – не индексировать сам документ, но следовать по его ссылкам;

nofollow – индексировать, но не идти по ссылкам;

none – эквивалентно одновременному употреблению noindex и nofollow через запятую, то есть всем роботам предложено игнорировать данную страницу при индексации.

Если указанный метатэг пропущен или не задано значение переменной CONTENT, то по умолчанию поисковый робот действует, как при значении CONTENT=“index,follow” (или CONTENT=“all”, что равноценно). Если в переменной CONTENT содержатся противоположные по смыслу ключе

вые слова (например, follow и nofollow), то робот поступает по своему усмот рению; в данном случае выбрано follow).

В приведенном выше примере свойство NAME=“robots” дает роботам пред

писание индексировать и саму страницу (CONTENT=“index”), и документы, ссылки на которые она содержит (CONTENT=“follow”). Вместо двух этих зна чений, приведенных через запятую, можно было бы написать одно – CONTENT=“all” – с тем же результатом. Указанный метатэг позволяет авторам HTML документов сообщать роботам

о том, может ли документ быть проиндексирован или его следует использовать, чтобы получить дополнительные ссылки. Для этого не требуется вмешательства администратора сервера.

В следующем примере роботу не предписано ни индексировать сайт, ни ана

лизировать ссылки:

<META NAME=“robots” content=“noindex, nofollow” >

Другие метатэги

Другие метатэги также могут использоваться роботами при сканировании. На пример, тэг с параметром NAME=“author” позволяет ввести имя автора доку мента и учитывается некоторыми поисковыми системами, что иногда может су щественно помочь при поиске. Похожий метатэг с параметром NAME=“generator” часто автоматически проставляется различными HTML редакторами и содержит информацию о про грамме, в которой был сделан документ. Некоторые авторы в его описании дуб лируют информацию метатэга “author”. Метатэг с параметром NAME=“copyright” служит для указания принад лежности авторских прав. Справедливости ради следует отметить, что поисковые системы все же редко используют указанные метатэги в своей работе.

Проверка ссылок

До начала рекламной кампании стоит убедиться в том, что в текстах страниц, размещенных на сайте, нет технических ошибок. К таковым относятся непра

34

Этапы большого пути

вильно расставленные ссылки, отсутствие каких либо файлов и собственно по грешности в HTML коде, а также грамматические и орфографические ошибки в текстах документов. Напомним, кстати, что сайтом называют набор докумен тов, которые в установленном порядке размещены на определенной машине и до ступ к которым через сеть обеспечивается HTTP сервером. Реакция пользователя на ошибки такого рода может иметь самые печальные последствия для автора. Замечая их, посетитель испытывает досаду, раздраже ние и быстро уходит с сайта. Уговорить «обиженных» вернуться будет крайне трудно. Формальную проверку сайта можно провести как сетевыми средствами, так и при помощи различных программ. Кроме того, необходимо обратить особое вни мание на смысловые элементы, играющие немаловажную роль при «раскрутке» Web ресурса:

заголовки; использование фреймов; метатэги; навигацию по Internet страничкам.

использование фреймов; метатэги; навигацию по Internet страничкам.
использование фреймов; метатэги; навигацию по Internet страничкам.
использование фреймов; метатэги; навигацию по Internet страничкам.

качестве дополнительной проверки понадобится исследование времени заг

В

рузки ваших страниц. Кроме того, очень важно иметь доступ к файлам посеще ний, что позволит вести постоянный анализ жизнедеятельности сайта в самых разнообразных аспектах.

В каком то смысле созданный вами гипертекст похож одновременно и на кни

гу, которую вы должны откорректировать, и на программу, которую необходимо отладить. По крайней мере, следует дать прочитать его кому нибудь из той груп пы людей, для которой он написан, и проанализировать замечания. Но одного этого недостаточно, требуется протестировать документ. Просмотрите его в не

скольких различных обозревателях (браузерах), чтобы убедиться, что его вид не зависит от средства вывода. Проверка занимает время. Сколько времени отводить на тест? Все зависит от того, какое качество документа вас устраивает. Есть сведения, что в Internet около 5% имеющихся ссылок недоступны. Необ ходимо предотвратить подобные проблемы.

Проверка ошибок кода в HTML документах

Если вы используете программное обеспечение для редактирования гипертекста, ваши файлы будут соответствовать действующему стандарту HTML. Многие разработчики редактируют HTML файлы как обычные текстовые и должны са мостоятельно контролировать соответствие написанного правилам HTML. Если вы поступаете именно так, будет уместно проверять файлы при помощи про грамм и сетевых ресурсов, специально предназначенных для этого.

Проверка ошибок кода в HTML документах

35

Проверка HTML кода гарантирует, что все посетители, каким бы браузером они ни пользовались, увидят ваши страницы именно такими, какими видите их вы. Ошибки, определяемые программами или сетевыми сервисами проверки пра вильности HTML кода, обычно относятся к двум категориям: неправильное при менение тэгов и использование нестандартных расширений. HTML стандарты задают некий минимальный уровень требований, соблюдение которых дает сход ные результаты при обработке тэгов языка HTML различными программами просмотра HTML документов. На практике требования браузеров несколько от личаются от этого уровня в ту или иную сторону, однако в любом случае испра вить ошибки первого рода легко, и это не займет много времени. Со вторыми дело обстоит не так просто. На вашей странице могут оказаться тэги, поддерживаемые только одним из браузеров и неработающие в других. Стоит взвесить, что дает их применение – оправдает ли оно потерю посетителей, исполь зующих несовместимые программы просмотра. При профессиональном проекти ровании сайта обычно отслеживают, какими браузерами пользуются посетители, чтобы придти к разумному компромиссу при выборе тех или иных решений. Если у 98% ваших посетителей браузеры могут обрабатывать тэг, который действитель но позволяет сделать страницу более красивой и удобной, – можно его сохранить. Проверку синтаксиса HTML документов невозможно выполнить с помощью обычных браузеров, так как они предназначены только для просмотра HTML страниц. Если в документе имеются синтаксические ошибки, браузер пытается, игнорируя их, каким либо образом показать страницу на экране. Однако решает ся такая задача каждый раз по новому – в зависимости от типа браузера и даже от его версии. Если ошибок на странице слишком много, она может быть не отобра жена в окне браузера или отображена лишь частично. Программные и сетевые средства проверки HTML документов позволяют предупредить такое поведение браузеров, выявляя допущенные при разработке страниц ошибки. Отметим, что сделать это довольно просто. Выявив ошибки до размещения HTML документов в Internet, вы заметите, что страницы будут загружаться быстрее, а проблем ста нет значительно меньше.

Задание типа документа

В соответствии со стандартом каждый HTML документ предполагает наличие объявления типа документа. В семействе языков разметки HTML является всего лишь одним из многих, хотя и самым популярным. Он имеет уже многолетнюю историю и был за это время нормирован различными версиями. Заданием типа документа указывается используемый язык разметки и его версия. Программы, читающие эти указания (например, обозреватели Internet и программы проверки синтаксиса HTML кода), придерживаются таких указаний. В частности, декла рация типа документа дает возможность программам проверки определить, ка кую версию HTML следует использовать для контроля. Каждое указание типа документа связано с так называемыми определениями типа документа (DTD, Document type declaration). И для HTML существуют та

36

Этапы большого пути

кие DTD. В них оговорено, какие элементы (тэги) может содержать документ типа HTML, какие элементы могут располагаться внутри других элементов, ка кие атрибуты принадлежат тому или иному элементу, является ли задание того или иного атрибута обязательным и т. д. Рекомендуется начинать любой HTML документ со строки, содержащей оп ределение типа документа – тэг DOCTYPE. Для этого обычно используются ни жеперечисленные конструкции.

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01//EN”

“http://www.w3.org/TR/html4/strict.dtd”>

Такое объявление служит указанием, что используется тип документа HTML 4.01 Strict (Строгий). Строгое следование стандартам повышает ранг документа

в рейтингах поисковых машин. Если стандарт полностью соблюден – пользуй

тесь этим определением. Задавайте тип документа первой строкой HTML файла перед открывающим тэгом <HTML>. Обратите внимание, что за угловой скобкой следует восклица тельный знак. Запись DOCTYPE HTML PUBLIC означает, что вы ссылаетесь на всем доступный HTML DTD. Заключенные в кавычки данные расшифровыва ются следующим образом:

W3C – издатель DTD: в данном случае, W3 консорциум;

DTD HTML 4.01 – указание типа: в файле применен документ типа HTML

в версии 4.01 и варианте Strict (по умолчанию); EN – сокращение, указывающее на язык (в данном случае – английский) написания элементов (тэгов) и их атрибутов, но не содержания файла. Применяйте всегда EN, так как имена элементов и атрибутов HTML осно ваны на английском языке.

Последним параметром в объявлении является адрес в Internet DTD файла, ко торый дает возможность программам загрузить его и прочитать определенные в нем правила. Заметим, что, в отличие от программ проверки синтаксиса, большинство браузеров при представлении HTML документов этого не делают. Такой подход ос нован на желании разработчиков Internet обозревателей отображать даже те страни цы, которые написаны с большими отклонениями от правил правописания HTML.

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”

“http://www.w3.org/TR/html4/loose.dtd”>

Используется тип документа HTML 4.01 Transitional (Переходный). Имеется

в виду HTML «переходного периода», то есть разрешается применять устарев шие элементы из HTML 3.2.

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Frameset//EN”

“http://www.w3.org/TR/html4/frameset.dtd”>

Тип документа HTML 4.01 Frameset – это HTML 4.01 Transitional с добавле нием фреймовых элементов.

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 3.2 Final//EN”>

Шрифтовое оформление

37

Эта форма задания типа документа применима, если вы хотите сослаться на версию HTML 3.2.

<!DOCTYPE html PUBLIC “-//IETF//DTD HTML 2.0//EN”>

То же – на версию HTML 2.0.

Шрифтовое оформление

Всего лишь десять лет назад в дизайне ощущалась острая нехватка компьютер ных шрифтов (как по количеству, так и по качеству). Однако в настоящее время эта ситуация резко изменилась – появилась масса разнообразнейшего шрифто вого материала любых стилей. Internet технологии накладывают специфические ограничения на использование шрифтов в оформлении web документов. B част ности, межплатформенный характер Сети не позволяет однозначно определять шрифт для вывода текста документа на экран монитора клиента. Применение тэга <FONT FACE=> не является панацеей от этой проблемы. На клиентской машине, возможно, не окажется нужного шрифта, а замена его другим, выбран ным системой по умолчанию, может привести к появлению нечитаемого доку мента. Поэтому считается правилом хорошего тона не употреблять указанный тэг при проектировании HTML документов. Это заставляет изыскивать другие пути для оформления текста страниц.

B частности, выделение необходимых его частей цветом, применением строч

ных символов, их курсивного и полужирного начертания, а также манипуляции с кеглем шрифта, выводимого на экран. Немаловажным для удобства восприя тия информации оказывается цветовое соотношение текста и фона. Если пред полагается передача клиенту достаточно большого объема информации, то

с точки зрения удобства для чтения желательно, чтобы текст был выполнен

темным цветом на светлом фоне и был достаточно контрастным. Применение ярких подложек под текст (задний фон) является сильным выразительным средством, но, необходимо помнить, что читать текст по яркому, а тем более неоднородному, фону трудно, а иногда просто невозможно, так как символы те ряются в пестроте подложки. Конкретный шрифт, который будет применен для отображения текста, позво ляет задавать также каскадные таблицы стилей (CSS). Но и в этом случае шриф ты берутся из набора, установленного на компьютере пользователя. Поэтому сле дует учитывать ряд ограничений. Первое, и основное, заключается в том, чтобы использовать только стандартные шрифты, поставляемые с операционной систе мой MS Windows и гарантированно находящиеся на машине клиента. А этих шрифтов всего три: Arial, Times New Roman и Courier. Второе – корректное описание шрифта в таблице стилей и перечисление так же и других заменяющих шрифтов. В конце списка должно быть обязательное указание общего семейства шрифта (с засечками – без засечек, моноширинный – пропорциональный и т. д.). При помощи такого описания мы увеличиваем по

38

Этапы большого пути

тенциальную аудиторию нашего сайта. Пример корректного описания шрифтов в таблице стилей приведен ниже:

<style

type=“text/css” >

<!—

.serif { font-family : “Times New Roman” , “Geneva” , “serif” ;

}

.sanserif { font-family : “Arial” , “Helvetica” , “sans-serif” ; } .mono { font-family : “Courier” , “monospace” ; } —> </style>

Почему нежелательно использовать другие шрифты? В этом случае недоста ющий шрифт будет подменен ближайшим подходящим по умолчанию. Для уменьшения вероятности такой замены и используется в CSS список заменяю щих шрифтов. Но еще хуже, если нужный шрифт будет установлен на компьюте ре, но окажется нерусифицированной версией. Тогда текст будет отображен не кими спецсимволами – всевозможными знаками с умляутами, апострофами, тильдами и т. п. Одним из показателей удобочитаемости является ширина строки документа. С появлением мониторов, поддерживающих большое разрешение экрана, стало возможным уместить в одной строке до нескольких сотен символов, однако едва ли следует увеличивать это число более 50–70, так как при большем количестве скорость чтения замедляется, а утомляемость значительно возрастает. В современном «информационном обществе» очень важна способность шрифта привлекать или останавливать внимание. Поэтому из вышесказанного следует вывод – со шрифтами следует работать осторожно, дабы не потерять сво их посетителей.

Время загрузки страниц

Медленная загрузка страниц сайта зачастую раздражает пользователей и, как следствие, снижает посещаемость сервера. Не желая убивать время, многие пред почитают искать информацию в других источниках. Поэтому крайне важно не жалеть материальных затрат на быстрый сервер и специалиста, который проана лизирует архитектуру сайта и исходные коды страниц, поможет максимально уменьшить время их загрузки. Посетителям нет дела до причины медленной работы сайта. Все, что они отме чают, – это плохая работа сервера. Изначально основной причиной медленной загрузки страниц было чрезмерное увлечение графикой. Многие сайты перегружены ею, тогда как те же самые эффек ты можно было бы получить при помощи DHTML или даже простого HTML. С увеличением количества разнообразных программных приложений, осно ванных на современных Internet технологиях, и развитием электронной коммер ции возникла необходимость настраивать каждую страницу узла на запрос от

Проверка правописания

39

дельного пользователя. Таким образом, длительная загрузка может объясняться не только пропускной способностью канала, но и внутренней архитектурой сай та. Иногда конструкция страницы предусматривает обращения к базе данных, находящейся на удаленном сервере, что опять же увеличивает время загрузки. Исследованию времени, в течение которого происходит загрузка страниц сай та, стоит уделить особое внимание при разработке.

Использование фреймов

В современных браузерах навигация по сайтам с фреймами осуществляется без особых затруднений. Однако некоторые поисковые системы не индексируют фреймы, поэтому при их использовании на запускающей странице обязательно нужно поместить фрагмент кода:

<NOFRAMES> </NOFRAMES>

Текст между указанными тэгами и будет использован поисковыми роботами для создания индексов. Кроме того, это дань уважения тем, кто пользуется брау зерами, неработающими с фреймами, или отключает такую возможность, если позволяет программа обозреватель. Не пренебрегайте частью вашей аудитории.

Проверка правописания

Пользователи не любят опечаток и грамматических ошибок и из за них могут от казаться от посещения вашего сайта. Если вас плохо владеете орфографией и пунктуацией, попросите кого нибудь сведущего проверить правописание текста, либо воспользуйтесь специальными сервисами в Internet. Как именно – будет показано далее.

Ошибки правописания – какая от них польза

Не все люди, пользующиеся поисковыми системами, хорошо учились в школе. Составляя запросы, они допускают грамматические ошибки. Некоторые из оши бок носят хронический характер. Создается впечатление, будто большинство твердо уверено, что «агенство» (результат поиска в Яndex: слов – 2 732 174, стра ниц – 1 515 338, сайтов – не менее 4 126, запросов за месяц – 98 355), «пожайлу ста» (соответственно, 1 034 863, 211 855, 1 384, 270), «можите» (260 518, 211 660, 1 670, 482), «интеренет» (175 538, 132 533, 1 697, 3 166) и «координальное» (39 321, 33 341, 1 958, 47) – это правильно и так и надо. Кое какие опечатки легко спрогнозировать, глядя на клавиатуру компьютера. Если в списки ключевых слов добавить слова с ошибками, можно иногда из влечь из этого пользу: получить не только дополнительный трафик, но и, что бо лее важно, целевых посетителей, которые легко выйдут на искомый сайт. Причем все останутся довольны: пользователь найдет то, что искал, а вы получите, воз можно, покупателя своих товаров или услуг.

40

Этапы большого пути

Навигация по сайту

В настоящее время люди уделяют Internet адресам меньше внимания, нежели несколько лет назад. Большинство сайтов сейчас имеют хорошую навигацион ную поддержку, и пользователи полагаются при определении тематики сайта именно на нее, а не на адрес. Тем не менее, все каталоги и названия страниц долж ны быть связаны с тематикой и понятно названы, чтобы пользователь мог рас сматривать сам адрес как дополнительную помощь в навигации. Подавляющее большинство пользователей не прокручивают навигационный блок, а выбирают несколько из видимых на первом экране опций. На всех сайтах чаще всего используются те элементы навигации, которые расположены на пер вой странице. Особенно это заметно, если первые несколько ссылок навигацион ного блока описывают главную тематику сайта – пользователь, как правило, стремится найти нужную информацию, а не изучать оставшиеся ссылки, поэтому на остальные элементы навигации может даже не обратить внимания. А вот малопонятная навигация по сайту представляет серьезную проблему, хотя встречается не так уж часто. Люди уже привыкли к определенным канонам в дизайне и навигации: логотип – он же ссылка на начальную страницу – слева вверху; ясное указание на то, к какой части сайта относится данная страница, на личие ссылки на главную страницу этого раздела и т. д. Если такие базовые эле менты навигации отсутствуют, пользователь может попросту «заблудиться». Нестандартные цвета ссылок могут затруднить навигацию, поскольку пользо ватели полагаются на них, чтобы понять, какие страницы сайта они уже посети ли. Когда же стандартные цвета игнорируются, пользователь начинает автомати чески щелкать мышью подряд по всем подчеркнутым словам в тексте, которые далеко не всегда являются ссылками, и, конечно же, в итоге раздражается.

Появление новых окон

Если при щелчке по ссылке открывается новое окно браузера, а такое решение никоим образом не оправдано логикой перемещений по сайту, то это может сби вать с толку пользователей. Большая часть из них обычно максимизирует окно браузера, так что они иногда могут просто не заметить, что открылось еще одно окно. Кроме того, как правило, пользователь исследует сайт, нажимая на кнопку Back (Назад). В новом окне его может смутить дезактированный Back, и он про сто закроет окно вместо того, чтобы разбираться, почему ему не дают вернуться на предыдущую страницу обычным способом.

Нестандартное использование элементов управления

Постоянство – основа удобства сайта. Когда элементы интерфейса ведут себя однозначно, посетителю не приходится гадать, что произойдет, если он нажмет

Навигация по сайту

41

вот на эту кнопку или ссылку. У него есть убежденность, что этот конкретный элемент ведет себя именно так, как известно из предыдущего опыта. Чем полнее оправдываются ожидания пользователя, тем лучше. Он будет чувствовать себя уверенней, и ваш сайт понравится ему еще больше. С другой стороны, необычно работающая система внушает пользователю страх и неуверенность. Постоянство действий – еще одна причина, по которой не стоит открывать новые окна в брау зере. Стандартное следствие нажатия на гиперссылку – появление новой страни цы в том же окне браузера. Любой другой результат не оправдывает ожиданий пользователя, а значит, заставляет его усомниться в своей способности работать в Internet. Часто закон постоянства нарушают при использовании графических эле ментов управления, например, кнопок селекторов и флажков. Так, по правилам действия селекторов нужно выбрать одну из нескольких предложенных опций, однако никаких операций не производится, пока пользователь не нажмет кноп ку ОК, подтверждая выбор. Но нередко встречаются сайты, на которых это ба зовое правило нарушено – действие происходит сразу после выбора опции. При всей своей кажущейся незначительности именно такие нарушения правил работы элементов пользовательского интерфейса затрудняют путешествия по сайту.

Сведения об авторах

Из результатов первых исследований WWW десятилетней давности следовало, что пользователю интересно, кто стоит за информацией, представленной в Сети. Так, например, фотографии и биографии авторов сайта могут существенно под нять рейтинг ресурса и сделать Internet менее безличной и непонятной средой, увеличить доверие к информации. Показывая пользователю конкретную лич ность и ее мнение, вы окажетесь в более выигрышном положении, чем те, кто предпочитает давать анонимные сведения. Тем не менее, многие разработчики не используют в информационных ресур сах ни авторских колонок, ни даже развернутых подписей. А те, кто использует подписи, нередко забывают ставить в них ссылки на биографию и другие работы автора. Также плохо, когда вместо ссылок на работы и биографию имя автора стано вится ссылкой на его, автора, электронную почту (mailto: autor@server.com). Во первых, читателю свойственно, скорее, желание узнать об авторе больше, нежели напрямую с ним контактировать. Конечно, дать электронный адрес ав тора очень важно, но лучше делать это в конце биографии или списка работ, но никак не в начале, при первом знакомстве. Во вторых, это опять нарушает при нятые в Internet стандарты: когда вы щелкаете по имени ссылке, вы ожидаете увидеть страницу с информацией об авторе. Вместо этого вам предлагается тут же написать ему письмо. Такие ссылки существенно уменьшают удобство ре сурса, так как делают Internet менее предсказуемым.

42

Этапы большого пути

Отсутствие архивов

Старая информация – не значит плохая. Читателям она может оказаться необхо димой. Даже если новая информация оказывается гораздо полезней, у старой тоже найдется свой потребитель. Кто то подсчитал, что поддержка архивных данных на сервере увеличивает расходы приблизительно на 10%, в то время как полезность и посещаемость ресурса возрастают при этом на все 50%. Архивы также помогают избежать появления на сервере ошибки 404 (о ней да лее), дают преимущество при создании ссылок на ваш ресурс на других серверах.

Улучшение посещаемости сайта за счет обработки ошибок

Существуют очень простые, но почему то не всегда используемые методы увели чения числа посетителей сайта за счет тех, кто стремится попасть к вам по уста ревшей ссылке. Ясно, что любой сайт подвергается постоянной доработке и пере работке. Вы изменяете дизайн, содержание, добавляете новые страницы, иногда удаляете или переименовываете старые. Последние две операции крайне нежела тельны, но, бывает, и без них не обойтись. Скорее всего, посетители сайта не застрянут на такой «исчезнувшей» страни це, так как большинство знает, что нужно просто «отсечь» конец адреса – и попа дешь на главную страницу сервера. Правда, этот способ не всегда известен нео пытным пользователям и раздражает опытных. Как правило, при обращении к документу, не существующему на сайте, сервер формирует сообщение об ошибке. Интересно, что в этой ситуации очень легко привести посетителя на любую из ваших страниц, обычно – на главную или стра ницу поиска по сайту. Вот как это делается:

1. Создайте новую чистую страницу, соответствующую дизайну вашего сай та. Сохраните ее в корневом каталоге сайта под именем 404.html.

2. Между тэгами <HEAD> и </HEAD> включите следующую строку:

<META NAME=“robots” CONTENT=“noindex,nofollow” >

Так выглядит, как вам известно, указание роботам поисковых машин не индексировать страницу в своих базах данных. Следовательно, метатэги KEYWORDS и DESCRIPTION здесь не нужны.

3. Теперь добавьте на страницу содержание, например, такое:

Äîêóìåíò íå îáíàðóæåí. We recently redesigned our website, replacing many of our pages, updating information and making it more convenient for you to find what you are looking for. It seems that the page you are looking for is one that has been replaced. Please visit our new Home Page, or use the links on this page to find your way around our new website. We apologize for any inconvenience this may have caused you.

Перевод на другие языки

43

(Сайт был изменен, некоторые страницы перемещены, информация обнов лена, с тем, чтобы Вам было удобнее осуществлять поиск. Видимо, страни ца, которую вы ищете, теперь находится в другом месте. Пожалуйста, зайдите на обновленную домашнюю страничку или восполь зуйтесь ссылками на этой странице для навигации по сайту. Извините за временные неудобства.) И не забудьте дать ссылку на нужную страницу (главную или страницу поиска).

4. Закончив работу с файлом 404.html, создайте обычный текстовый документ и назовите его .htaccess.txt (с точкой в начале). Впишите в него строку:

ErrorDocument 404 /404.html

5. Скопируйте оба файла в коревой каталог вашего сайта в Internet.

В зависимости от конфигурации сервера файл .htaccess.txt может не иметь расширения (.htaccess). Кроме того, он может уже существовать на сайте. В пос леднем случае просто добавьте указанную выше строку в конец файла. Теперь спокойно обновляйте дизайн вашего сайта, и можете быть уверены, что посетителей вы не потеряете. Теперь при любом обращении к несуществую щей странице посетитель получит вежливое извинение и доступ к сайту через ссылку, а не досадное извещение: 404 – Page not found (Ошибка 404 – Документ не найден). Более того, вам становится доступно то, что раньше безвозвратно терялось – статистика посещений через страницу 404.html. Ее содержание, конечно, может быть любым, сделайте хоть копию главной страницы. Важно, что вы пригласили на свой сайт людей, которые не нашли желаемое, и привлекли посетителей, кото рые бы к вам заведомо не попали.

Перевод на другие языки

Увеличение количества посетителей – одна из приоритетных задач любого Web сайта. Расширить аудиторию за счет иностранных клиентов позволяет перевод Web страниц на другой язык. Для некоторых сайтов, которые ориентированы на многоязычных пользователей, перевод текстов на иностранные языки становит ся насущной необходимостью. Однако поддержание таких страниц сопряжено со значительными затратами на оплату услуг переводчиков и редакторов. Наиболь шую трудность в этом случае представляет обновление регулярно меняющейся информации – новостей, пресс релизов, описаний и т. д. Решить указанную проблему отчасти позволяет использование онлайнового машинного перевода. Компания ПРОМТ (http://www.promt.ru/), ведущий раз работчик технологий машинного перевода и лингвистического программного обеспечения, предлагает подобный сервис. С его помощью любой владелец Web сайта может обеспечить онлайновый перевод своих страниц с русского языка на английский, немецкий, французский и испанский. Установив специальную фор му для выбора языка перевода, один из вариантов которой показан на рис. 1.1, владелец Web ресурса дает возможность своим посетителям открыть любую

44

Этапы большого пути

4 4 Этапы большого пути Рис. 1.1. Одна из форм для выбора языка

Рис. 1.1. Одна из форм для выбора языка перевода

страницу сайта на том языке, который они предпоч тут. Сервис бесплатный; он реализован на основе сер вера онлайнового перевода компании ПРОМТ (http://www.translate.ru/). Чтобы воспользоваться данной услугой, необходимо зайти на страницу http:// www.translate.ru/webmaster.asp, получить HTML код и установить его на страни цы своего сайта.

Анонсирование в поисковых системах

По содержанию Internet представляет собой кладезь информации, а по способу ее организации – огромную свалку. Но, к счастью, положение не столь безнадеж но – найти необходимую информацию помогают каталоги и поисковые машины. Работа поисковых систем, к которым часто и при этом ошибочно относят и ка талоги, полностью автоматизирована и ведется по следующей схеме: сканирование ресурсов с помощью программы робота, формирование индексной базы данных и, наконец, обслуживание запросов по ключевым словам. Как бы ни были популярны каталоги, должно быть понятно, что реальную доступность информации в Internet во всем ее объеме могут обеспечить только автоматические индексы. Каким же поисковым машинам отдают предпочтение пользователи? По различным электронным опросам на тему «Какими поисковыми система ми Вы пользуетесь?» в России распределение результатов примерно таково:

Яndex – 47%;

Rambler – 21%;

Апорт – 10%;

Google – 6%;

Altavista – 5%;

Mail.Ru – 4%;

Yahoo! – 4%.

Каким же образом пользуются поисковыми машинами для популяризации сай та? До сорока процентов посетителей переходят к нужным ресурсам по ссылкам из поисковых систем. Поэтому правильное индексирование в них сайта, то есть соот ветствие его содержания запросу, должно быть предметом особой заботы. Как происходит индексирование? Либо робот поисковой машины добирается до вашего сайта по ссылкам, либо вы сами отмечаете его на странице регистрации, которая существует в любой поисковой системе. В первом случае процесс индекси рования может затянуться, во втором вам потребуется затратить свое время. Для правильной индексации сайта требуется учесть следующее:

страницы сайта должны быть текстовыми. Текст на графических изобра жениях поисковые машины не распознают. Правда, текст в атрибуте ALT тэга IMG обычно индексируется;

Анонсирование в поисковых системах

45

в каждом документе сайта обязательно должны присутствовать вразумитель

ный заголовок (тэг TITLE