PROMOSITE / Текст доклада конференции "Стратегия продвижения сайта в поисковых системах" / 14 ноября 2002 / Евгений Трофименко / доклады

Введение

Основная идея доклада следующая: поисковая машина и ее пользователь - две разные личности, которые имеют разные мнения о вашем сайте, и вам хочется создать наилучшее мнение о сайте у обоих этих личностей одновременно. Форма будет следующей: постановка задачи и обоснованы возможные ее решения.

Подходы к работе с сайтом можно разделить на 3 части, касающиеся-

Сейчас и в дальнейшем будем рассматривать каждое действие и каждую проблему с точек зрения поисковика и посетителя, и пытаться найти решение, наилучшим образом удовлетворяющее обе "стороны".

Безопасное использование технологий

Сначала стоит сделать краткий обзор технологий, ответив на вопросы "как случайно не нарушить какую-нибудь заповедь поисковых систем?". Поисковики либо вообще не практикуют отпущения грехов, либо практикуют, но делают это очень медленно. Основное правило, которое стоит использовать - "Нельзя обманывать своего посетителя, даже случайно" (если вы, конечно, хотите работать честно и ждете безоблачного будущего). Итак:

Javascript, VBscript

Поисковики могут отлавливать распространенные скриптовые конструкции, перенаправляющие пользователя на другую страницу без его желания с малым временем задержки. Такие страницы могут автоматически попасть в разряд "подозрительных" и вызвать приход модератора. Если Вам необходимо сделать безопасный редирект, следует разместить на целевой странице тот же текст, что был на странице с редиректом, или хотя бы текст по той же теме. От машины использование таких скриптовых конструкций можно скрыть, а от модератора - вряд ли.

Текст внутри тега <script></script> не будет проиндексирован. Это, кстати, дает возможность скрыть часть текста или ссылки, ведущие на другие страницы, если вы не хотите, чтобы они были найдены.

Фреймы

Фреймы - это головная боль пользователей поисковых систем. Если ваш посетитель попал на страницу, на которой отсутствует навигация, очень вероятно, что он и не будет искать эту навигацию, переходя на главную страницу (кстати, "отсечение" части URL умеют делать немногие). Поэтому надо, во-первых, на каждой странице использовать скрипты, которые в этом случае прогружают всю фреймовую структуру сайта, а во вторых, открывать в одном из фреймов ту страницу, на которую посетитель пришел первоначально, иначе это может быть воспринято как спам. Также как спам может быть воспринято излишнее увлечение текстами в теге <noframes></noframes> (тексты и ссылки оттуда индексируются).

Вторая отрицательная черта фреймов - они увеличивают число уровней иерархии сайта, и, соответственно, время переиндексации этого сайта. Есть и положительная черта - например, можно сократить объем текстов каждой страницы и избавиться от ненужных ссылок за счет удаления навигационного блока.

Flash

Основная проблема сайтов, основанных на технологии Flash - в том, что Flash практически никакие поисковики не индексируют (Яндекс только собирается этим заняться). Для того, чтобы все-таки получить свою долю посетителей с поисковиков, можно предложить несколько методов-

Перенаправление (redirect) на сервере и на клиенте

Все, что говорилось про обман посетителя с помощью скриптов на стороне клиента, верно и в случае редиректа средствами html, только обнаружить его применение гораздо легче. Соответственно

В использование html-редиректа с нулевым временем задержки

со временем будет проиндексирована новая страница, а старая удалена из индекса.

Однако, поскольку редиректы часто используются спаммерами поисковых систем, ваш сайт рискует быть забаненным даже при большом времени задержки при редиректе. Оптимальный выход - не использовать редиректы. Часты случаи, когда необходимо изменить например, расширение всех файлов на сайте. Таких случаев желательно избегать - это можно сделать при разработке сайта, либо не указывая расширения вообще (настроив сервер соответственно), либо генерировать страницы динамически, используя путь в качестве параметров скрипта.

Управление индексированием, версии сайта для поисковиков: robots.txt

Управление пауками различных поисковых систем полезно при создании различных версий сайта, ориентированных на конкретный поисковик и при скрытии различных разделов, содержащих личную информацию или интерфейс управления. Файл robots.txt является стандартом по соглашению, и должен соблюдаться всеми автоматическими системами. Он состоит из набора директив вида-

Директивы запрещают всем или отдельным поисковикам индексирование различных файлов и директорий. Файл robots.txt должен находиться в корневой директории домена.

Републикация, дубли и зеркала

Поисковики ориентированы на выдачу по возможности уникальной информации по запросу пользователя, из-за этого возникает много проблем с дублированием информации. Поисковым машинам невыгодно, во-первых, хранить дублированные документы в базе и во-вторых, засорять выдачу почти одинаковыми документами. Поэтому как поисковики, так и пользователи обычно с неприязнью относятся к "дублям" и "зеркалам".

Зеркалом считается абсолютно идентичный сайт на другом хосте. Зеркала могут возникать в силу разных причин: переезд сайта, парковка нескольких доменных имен на одно и то же содержимое, разнесение кодировок по субдоменам. Для того, чтобы из нескольких зеркал индексировалось основное, лучше всего запретить индексацию всех остальных с помощью robots.txt. Если же физически они соответствуют одному содержимому и есть возможность динамически генерировать robots.txt, можно использовать robots.txt следующего вида-

Если не управлять корректным индексированием зеркал, поисковик самостоятельно выберет понравившееся ему зеркало, и оно может быть не тем, которое вам больше нравится. В основном, основным зеркалом станет домен 2 уровня (в сравнении с доменом 3-го уровня) и тот домен, на который стоят ссылки с его зеркала. Поэтому на нем не стоит ставить список ссылок "наши зеркала".

При переезде сайта накопленную цитируемость можно сохранить только в системе Яндекс. Поэтому имеет смысл поддерживать и старую версию сайта, если вы ориентированы на иностранные поисковики. Если со всех страниц сайта стоит серверный редирект на новые страницы - новый домен будет считаться основным, а старый со временем будет удален.

Если при очередной переиндексации найдены отличия в содержимом различных зеркал, эти зеркала "расклеиваются", т.е. считаются разными сайтами с различным подсчетом цитируемости и т.д. Поэтому при "расклейке" суммарная посещаемость зеркал может уменьшиться.

Методики определения дубликатов документов разрабатываются и тестируются, поэтому можно дать лишь общие советы-

Геометрия сайта и ее оптимизация

Ссылочная структура сайта

Что мы будем понимать под оптимизацией структуры сайта? Нам нужно, во-первых, чтобы робот вообще мог ходить по ссылкам; во-вторых, чтобы он мог быстро пройти по ссылкам и проиндексировать сайт полностью, и, в-третьих, не забыть при этом о распределении цитируемости по страницам сайта.

Страницы, как известно, бывают динамическими и статическими - третьего вида нет. При этом неважно, как реально формируется страница, важен внешний вид URL - динамической будем считать страницу, в URL которой есть знак "?".

Поисковые системы в общем-то, по-разному относятся к динамически созданным страницам. Яндекс и Апорт, например, индексируют динамику и учитывают ссылки с динамических страниц, Google индексирует первый уровень динамики по ссылкам со статических страниц, но не учитывает новые ссылки, найденные на динамических страницах, Рамблер не индексировал определенные виды динамических страниц, но с этой осени уже начал индексировать, поэтому эта проблема не так актуальна, как раньше.

Методы, применяемые для того, чтобы внешний вид URL страницы имел "статический вид", т.е., не содержал знака "?", основаны на перенаправлении HTTP-запроса серверному скрипту, анализирующему структуру URL, в которой спрятаны динамически изменяемые параметры (обычно в имени директории). Конкретных реализаций много, в основном используется модуль Apache mod_rewrite или использование своего скрипта в качестве страницы с "ошибкой 404".

Оптимизация ссылочной структуры сайта может рассматриваться с двух точек зрения. Первая - это оптимизация с точки зрения легкости полной индексации сайта поисковыми системами. Для этого нужно уменьшить число уровней иерархии, т.е., количество ссылок, которое должен пройти робот поисковика для того, чтобы добраться до самой глубокой страницы сайта. Если же иерархия включает в себя больше 3-4 уровней, имеет смысл вынести абсолютно все внутренние ссылки на отдельную страницу, т.е., сделать "карту сайта". На карту сайта должна быть прямая ссылка с главной страницы; можно также регистрировать в поисковике именно карту сайта.

Что дает такая структура? Возможность быстрее донести изменения в текстах страниц до поисковой системы, а значит, определенное преимущество для "тонкой подгонки" содержимого страниц под конкретные поисковые запросы и, соответственно, под интересы будущего посетителя.

Для посетителя, пришедшего со страницы поисковой системы, уменьшение числа уровней иерархии тоже удобно: меньше кликов - легче просматривать сайт. Таким образом, и поисковику, и посетителю "неглубокие" сайты нравятся.

Вторая причина работать со ссылочной структурой сайта - учет поисковиками цитируемости страницы при определении ее места в выдаче. Цитируемость страницы - мера ее авторитетности; цитируемость определяется совокупностью всех страниц, ссылающихся на данную. В том числе и страницами своего сайта. Уже при планировании структуры сайта следует выделить несколько страниц, которые будут посвящены высококонкурентным темам, и ставить ссылки на эти страницы возможно чаще.

Использование внутренних ссылок с ключевыми словами

При ранжировании сайтов по запросу пользователя поисковые системы учитывают не только наличие ссылок на эту страницу с других страниц, но и тексты ссылок. Поэтому желательно при верстке html-текстов ссылаться на различные страницы своего сайта с использованием характерных ключевых слов и словосочетаний, варьируя текст ссылки. Это поможет отдельным страницам сайта "вылезать" наверх по большому числу различных целевых запросов.

Входные страницы (дорвеи, doorways)

Однако, для того, чтобы сделать страницу видимой по конкурентному запросу, одних ссылок недостаточно. Надо также увеличить релевантность текста страницы этому запросу.

Фактически, можно выделить несколько возможных стратегий раскрутки, исходя из различной спрашиваемости слов и словосочетаний.

Ориентируемся при поисковой раскрутке на:	Плюсы и минусы подхода	Ключевой фактор успеха
Очень популярные однословные запросы 100-1000 П/СД	Плюсы - не надо много думать, большая спрашиваемость Минусы - высокая конкуренция, разбросанность аудитории	Наличие большого количества ссылок на сайт с ключевым словом в тексте ссылки. Релевантность запросу - обязательное условие
Ограниченный набор ключевых не слишком конкурентных словосочетаний DOORWAY (ВХОДНАЯ СТРАНИЦА) 1-10 П/СД	Плюсы - конкуренция мала, приличная суммарная спрашиваемость, четкий таргетинг. Минусы - надо тщательно выбирать словосочетания, делать релевантные страницы (дорвеи)	Релевантность страницы одному словосочетанию- наличие ключевых слов в заголовках (title, h1-3) и других элементах страницы, 3-10% в текстах. Правильный порядок ключевых слов.
Большое число редких словосочетаний (=>3 слов) 0.05-0.1 П/СД	Плюсы - конкуренции нет, четкий таргетинг. Минусы - для достижения хорошей посещаемости потребуется очень большое количество страниц и, соответственно, работы	Наличие словосочетания в тексте страницы, этого достаточно. Метод - наращивание контента сайта. Можно использовать много словосочетаний на одной странице.
* П/СД - примерное число посетителей, приходящих на страницу в день с поисковиков, оценочно

Точных границ между категориями в реальности не существует, есть и конкурентные двусловные запросы, и неконкурентные однословные. В данном случае обратим внимание на первый и второй пункты. В этих двух случаях (а они охватывают практически всю поисковую раскрутку) для того, чтобы страница занимала приличные места в выдаче по запросу, релевантность текста страницы запросу должна быть высокой. Эту страницу мы и будем называть дорвеем, т.е. входной страницей.

Заранее проанализировать конкуренцию по целевым запросам необходимо для выбора стратегии поисковой раскрутки, и, соответственно, геометрии сайта. Мы можем рассмотреть 2 основных случая -

Дорвеи по неконкурентным запросам

Важно количество дорвеев, а их качество некритично. Поскольку цитируемость повышать не нужно, ссылки на дорвеи ведут с карты сайта. Дорвеев много, они малопосещаемы и отправляют посетителя за информацией на главную страницу.

Дорвеи по конкурентным запросам

В данном случае важна цитируемость и качество каждого дорвея, которые по совместительству являются и страницами разделов. Ссылки на них ведут с главной страницы сайта, возможно, понадобятся внешние ссылки.

Место в выдаче по конкурентному запросу будет определяться как релевантностью содержимого страницы запросу, так и ссылочными критериями - цитируемостью и текстами ссылок. Поэтому если сайт ориентирован на большое количество тем, набор требуемых ключевых слов может быть очень большим. В этом случае имеет смысл разнести его содержимое по разным субдоменам, каждый из которых соответствует некой тематике с ограниченным набором ключевых слов (70-80 символов). В этом случае легче раскручивать каждый из субдоменов по отдельности, чем головную страницу по всем ключевым словам сразу.

Точно так же страницы каждого раздела можно оптимизировать по узкому набору ключевых слов. С точки зрения поисковой системы релевантность (уместность) страницы по отношению к запросу из одного или более слов определяется

Итак, мы создали дорвей под некий поисковый запрос. Но пока еще "неочеловеченный" - мы ведь сделали его для поисковой системы, забыв о посетителе. А посетитель, зайдя на такую страницу, в большинстве случаев ужаснется и с нее уйдет, увидев мешанину огромных заголовков, текстов и ключевых слов. Что делать?

Работы с релевантностью и одновременно внешним видом страниц сайта

Страница, хорошая с точки зрения релевантности запросу, может быть и наверняка будет очень плохой с точки зрения как дизайна, так и смысла текстов. Повторение словосочетаний, обилие крупных заголовков может показаться пользователю бессмысленной мешаниной. Однако, если мы что-либо понимаем в теме своего сайта, нам придется написать тексты, хорошие как с точки зрения релевантности, так и с точки зрения смысла. Таким образом, мы стараемся удовлетворить и поисковик, и пользователя. Для коррекции внешнего вида такой страницы можно использовать

Использование таблиц стилей (text/css)

Поисковики не индексируют и не интерпретируют тексты таблиц стилей, как включенных в код страницы, так и находящиеся в отдельных файлах. В основном, повышенную важность для поисковиков теги заголовков и теги выделения имеют из-за своей повышенной видимости на экране, - предполагается, что создатель страницы выделяет так ключевые темы и понятия. Однако, таблицы стилей позволяют менять размеры шрифтов заголовков так, чтобы не загромождать пространство на экране и вообще не обращать на себя внимание; теги выделения могут вообще ничего не выделять:

Таким образом мы можем сделать хороший дизайн для хорошего дорвея. Пожалуй, написание ценного и релевантного текста и работа с таблицами стилей - единственный относительно честный метод создания входных страниц.

Спаммерские приемы

Спаммер выбирает тексты по тематике (в основном с чужих сайтов), разбавляет ссылками, создается дизайн, основной частью которого являются ссылки на разделы сайта. Возможно присутствие единственной ссылки "сайт переехал, жми сюда".

Плюс: Работает за счет большого объема страницы и большого количества редких словосочетаний. Если других спаммерских приемов не используется, в бан сайт не попадет. Минус: Пользователем распознается без труда.

На дорвейную страницу, которая имеет непривлекательный вид и отсутствие смысла в текстах, устанавливают javascript-код или flash-объект, который сразу перенаправляет посетителя на головную страницу сайта или тематический раздел. При этом есть возможность скрыть внедренные объекты во внешних файлах и не попасть в "подозрительные сайты". Все спаммерские приемы обычно приводят к бану сайта после жалобы конкурентов и посещения сайта модератором. Как вариант используют перенаправление с помощью мета-тега refresh с задержкой в несколько секунд.

Плюс: не надо много думать. Минус: попадание в бан; пользователь не любит редиректов.

Обычно используется, если страница - дорвей имеет нормальный дизайн и предназначена для посещения обычными людьми, но создатель хочет "немного увеличить релевантность". Первый метод - написание текстов цветом фона или близким к нему (может быть автоматически отловлен поисковым роботом). Второй - помещение спаммерских текстов в невидимый слой, который индексируется поисковиками.

Плюс: не надо много думать. Минус: попадание в бан; некоторые пользователи могут увидеть спаммерский текст.

Термин происходит от англ. to cloak (скрывать, маскировать). При создании страницы определяется, от кого пришел запрос - от пользователя или поисковика, и им выдаются разные по дизайну и содержанию страницы. Этот метод запрещен всеми поисковиками, хотя может применяться и в мирных целях - например, для определения установок языка пользователя. Определение агента можно проводить разными методами, используя:

При этом и поисковик полагает, что по данному адресу находится одна страница, а пользователь получает другую.

Плюс: стороннему наблюдателю иногда сложно обнаружить применение метода. Минус: попадание в бан; необходимо постоянное обновление баз IP-адресов поисковиков.

Техника и тактика работы с поисковиком и посетителем