promo   site     
продвижение сайтов в поисковых системах
трафик, позиции, прозрачность

Евгений Трофименко
order2@promosite.ru
Москва (495) 669-32-81
заказать продвижение сайта

Используемый SEO-инструментарий свои (и не только) сервисы, базы и разработки, используемые при продвижении сайтов

Часть этих данных доступна в виде платных и бесплатных сервисов, часть предназначена только для внутреннего использования. Инструментарий делится на несколько категорий:

  1. Приватные (личные) сервисы для ежедневной работы [НЕТ в общем доступе]
    1. Базы статистики поисковых запросов Яндекса
    2. SEO-CRM для ежедневного контроля позиций
    3. Софт для работы с низкочастотными запросами
    4. Софт для составления анкор-листа с учетом переформулировок, весов и частот
    5. Софт для контроля "качества" ссылок и их чистки
    6. Данные по качеству ссылочных доноров (белый список по большой базе)
    7. Аффилированные сайты - актуальный сервис
    8. Большая база региональной привязки ссылочных доноров
    9. Информация по работе асессоров (и др.)
    10. Счетчик поискового и внутреннего трафика
  2. Недокументированные возможности Яндекса, архив информации
    1. Переформулировки поисковых запросов
    2. Данные по "весам" (контрастности) слов
    3. Аффилированные сайты - архив информации
    4. Малая база региональной привязки ссылочных доноров
  3. Данные и возможности, оформленные в виде общедоступных сервисов
    1. Информация о деталях изменений (апдейтов) Яндекса
    2. Данные по скорости Яндексации сайтов-доноров
    3. Подозрительные запросы в прямом эфире Яндекса
    4. Генераторы текстов ссылок
    5. Составление семантического ядра для любого текста
    6. Разные технические сервисы
    7. Белые списки в бирже Mainlink
    8. База whois домена RU с возможностями поиска

1 Приватные (личные) сервисы для ежедневной работы [НЕТ в общем доступе]

Основная часть этих данных недоступна ни в паблик, ни иначе. Некоторые сервисы (Megaindex), базы (Пастухов, li.ru) и программы (Key Collector) продаются или раздаются их владельцами.

1.1 Базы статистики поисковых запросов Яндекса [PRIVATE]

Статистика поисковых запросов очень важна для формирования списка продвигаемых запросов и поиске низкочастотных запросов. В работе используются базы запросов:

Своя база (60М поисковых запросов Яндекса, собранных с прямого эфира) - плюс в большом количестве редких запросов и, в отличие от данных wordstat.yandex.ru, здесь собраны данные о точном количестве поисковых запрсов, а не суммарном.
База Пастухова (170М запросов Yandex, Google, Mail.ru) - плюс в наличии многих ПС и наличии адалт-тематики.
Архив открытой статистики счетчика li.ru (9М запросов) - плюс в наличии свежих данных.

Все перечисленные базы есть в исходниках, это позволяет работать с ними программными средствами на сервере. На основе выборок из этих баз тестируется сервис подбора семантического ядра по 11М и 20М поисковых запросов.
Кроме перечисленного: для пробивки уточнненных актуальных частот используется Key Collector, для просмотра истории запросов и находимости сайта - Megaindex.

1.2 SEO-CRM для ежедневного контроля позиций [PRIVATE]

Для ежедневной работы, первичного снятия и постоянного контроля позиций, расчетов отработки и генерации отчетов используется SEO-CRM собственной разработки.

Кроме снятия позиций для продвижения по словам, она умеет создавать предложения потенциальным клиентам (проводить расчет с выбором запросов и скидок), искать конкурентов по этим запросам и оценивать их затраты, генерировать готовые договора. Из этой же CRM идет экспорт актуальных данных в портфолио сайтов по раскрутке.

1.3 Софт для работы с низкочастотными запросами [PRIVATE]

Низкочастотные запросы - основа трафикового продвижения, хотя и не все реальные поисковые запросы есть в собранных базах, при работе с большими массами запросов незаменим специальный софт.

Сервис для фильтрации и работы с НЧ-запросами поддерживает морфологию русского языка, позволяет выбирать запросы, содержащие слова и наборы слов, эффективно чистить списки ключевых фраз от мусора. На сейчас рекорд - поддержка 60 тысяч запросов разной частотности в одном проекте.

Сервис позволяет заводить много адресов страниц и массово генерировать ссылки для размещения в биржах.

1.4 Софт для составления анкор-листа с учетом переформулировок, весов и частот [PRIVATE]

Не секрет, что не нужно все ссылки делать точным вхождением одного запроса, как не нужно и каждую ссылку делать уникальной.

Сервис выбора анкор-листа - почти полный автомат, оптимизирующий распределение анкоров по частотности, автоматически учитывающий переформулировки, контрастность слов, соответствие анкора группам запросов, приоритетность запросов.

Результат - оптимизированный список html-кодов ссылок.

1.5 Софт для контроля "качества" ссылок и их чистки [PRIVATE]

Не все установленные ссылки работают, и не любая ссылка помогает продвижению. Распространено мнение, что ссылка в любом случае "не повредит" - сработает либо в плюс, либо в ноль. Однако, по моим наблюдениям, большое количество "плохих" ссылок может работать в минус - ухудшать траст сайта и вместе с ним позиции по всем запросам (особенно по низкочастотным). По наблюдениям, доля ссылок, которые лучше снять, колеблется около 50%, и после снятия позиции по всем запросам улучшаются. Эксперимент на searchengines.

Сервис контроля "качества" ссылок - внутренний инструмент для чистки ссылок, используется в дополнение к "белым спискам" ссылочных доноров. Частично белые списки используются в бирже Mainlink.

В настоящее время чистка ссылок на заказ не производится, использование ограничено.

1.6 Данные по качеству ссылочных доноров (белый список по большой базе) [PRIVATE]

Среди факторов, которые влияют на качество ссылок, есть постраничные и посайтовые. Поэтому на некоторых сайтах-площадках вероятность купить хорошую ссылку выше (очевидно, из-за "хороших" сайтовых факторов).

На основе данных по 2.3 миллиона установленных ссылок в Mainlink создан большой "белый список" ссылочных доноров. Частично эти данные используются в бирже Mainlink. Все эти данные регулярно обновляются.

1.7 Аффилированные сайты - актуальный сервис [PRIVATE]

Аффилированные сайты - это сайты, которые Яндекс по разным причинам считает принадлежащими одной компании. В результате по одному запросу в выдаче может находиться только один аффилиат из группы (самый релевантный запросу). Остальные (менее релевантные) вычищаются из выдачи. Из группы аффилированных сайтов по разным запросам будет находиться то один, то другой, но не оба вместе.

В дополнение к большой архивной базе аффилиатов по 2М популярных хостов (20% хостов Яндекса) от осени 2010 используется приватный актуальный сервис поиска аффилиатов. Большая масса кандидатов в аффилированные сайты собирается с использованием результатов поисковой выдачи и данных по домену RU, и производится поиск аффилированных сайтов одним из рабочих на данный момент методов.

1.8 Большая база региональной привязки ссылочных доноров [PRIVATE]

В числе факторов ранжирования алгоритма Яндекса (Матрикснет) используются данные как о географическом положении посетителя, так и о географической привязке сайта. Существуют открытые методы, которые позволяют перебором возможных регионов определить геопривязку сайта, но это долго и дорого.

Данные о геопривязке были в виде тегов <geo> и <geoa> с идентификатором региона у каждого результата в выдаче Яндекс.XML. В прошлом данные о географической привязке сайтов "выкладывались" в Яндекс.XML два раза - один раз в общедоступный XML летом 2009 (по этим данным собрана открытая малая геобаза) и осенью 2010 в тестовый XML (по этим данным собрана большая закрытая геобаза по 2М популярных сайтов и доноров).

Данные о геопривязке используются как дополнительные при закупке ссылок.

1.9 Информация по работе асессоров (и др.) [PRIVATE]

В качестве исходных данных обучающие алгоритмы Яндекса используют человеческие оценки соответствий "запрос пользователя - документ в ответ". Человек, который оценивает - это и есть асессор. Общее число используемых оценок измеряется миллионами, по каждому выбранному запросу оценивается около 30 разных результатов.

Полученная информация о работе асессоров позволяет понять, какие сайты являются качественными по мнению асессоров и какими критериями оценивают сайты и запросы. Большая часть данных посвящена пограничным случаям.

Этот пункт - уже не секрет, а про "и др." здесь писать не следует.

1.10 Счетчик поискового и внутреннего трафика [PRIVATE]

Для расчетов по трафику используется собственный C#-счетчик, данные из которого экспортируются в прямой эфир переходов по поисковым запросам. Данные этого счетчика корректируются с использованием открытых систем статистики при расчетах за трафик.

Дополнительно эти данные используются для контроля позиций по длинным низкочастотным запросам (для верификации трафика и подтверждения того, что по данному запросу действительно виден клиентский сайт).

2 Недокументированные возможности Яндекса, архив информации

Основная масса этих данных взята за два приема - летом 2009 в Яндекс.XML были открыты данные по аффилиатам и географии, а осенью 2010 в тестовом Яндекс.XML были открыты данные об аффилиатах, географии и численных значениях релевантности. Чуть подробнее об открытии этих данных описано здесь, здесь и здесь.

В первый раз, в 2009, я получил информацию обо всех на тот момент сайтах-донорах из SAPЕ, а во второй - по донорам SAPE, по 20К+ самых популярных коммерческих запросов из пузомерки SEORATE и 20К+ просто популярных частотных запросов по своим базам. Итого, информация получена по примерно 2М популярных доменов по 42К самым популярным запросам.

2.1 Переформулировки поисковых запросов

Переформулировки поисковых запросов - это механизм Яндекса для расширения введенного пользователем запроса. Даже в 2004, когда был замечен показ переколдовки запросов некоторые запросы расширялись доавлением дополнительных слов. Как правило, добавленные в запрос слова подсвечиваются в выдаче. Оставалась возможность выяснять дополнительные расширяющие слова запроса, исключая расширяемое слово. Также можно было подбором находить расстояния в контекстных ограничениях. Однако, перебирать все запросы - долго и дорого.

Летом 2010 мной была найдена ошибка в Яндекс.ХМЛ - при задании определенного вида запроса Яндекс выдавал в качестве переформулированного запроса переформулированный запрос с контекстными ограничениями (оформлено в докладе Переформулировки поисковых запросов в Яндексе).

После подготовки и индексации нужного экспериментального массива удалось скачать массив переформулировок 1.3М наиболее популярных поисковых запросов - со всеми доп. словами, весами, расстояниями. Эта база позволяет автоматически расширять запросы - для правильной оптимизации сайта и для правильной закупки ссылок с использованием доп. слов.

База переформулировок запросов Яндекса (осень 2010) доступна бесплатно "на посмотреть" с поиском по одному запросу.

2.2 Данные по "весам" (контрастности) слов

Контрастность слова - классически используемая мера для определения важности, заметности слова среди прочих. Например, какое слово важнее - "лоренциан" или "сайт"? Первое слово более редко в использовании, поэтому при определении релевантности страницы имеет больший вес. Также контрастность слов учитывается при расчете ссылочной релевантности.

При получении информации о переформулировках сведения о контрастности слов также были получены - и охватывали практически все русские слова. Дополнительная информация есть в докладах 2010 г.. Общий массив информации позволил найти связь этого веса с открытой на данный момент информацией о популярности слов.

База весов (контрастности) слов на осень 2010 доступна бесплатно "на посмотреть" с поиском по одному слову.

2.3 Аффилированные сайты - архив информации

Аффилированные сайты - это сайты, которые Яндекс по разным причинам считает принадлежащими одной компании. В результате по одному запросу в выдаче может находиться только один аффилиат из группы (самый релевантный запросу). Остальные (менее релевантные) вычищаются из выдачи. Причем из группы аффилированных сайтов по разным запросам будет находиться то один, то другой, но не оба вместе.

Группы аффилированных сайтов определялись по одинаковому занчению тега <clon>, который содержал идентификатор группы аффилиатов. Исторически первыми аффилиатами были интернет-магазины m3x, byttehnika и др.

База аффилиатов Яндекса (осень 2010) по 2М хостов в открытом виде. Каждый аффилиат имеет идентификатор группы, все сайты этой группы вычищаются их выдачи. Для внутренних целей используется актуальный сервис поиска аффилиатов. Снятие аффилиат - фильтра возможно, хотя и долго.

Цена ошибки довольно высока - если начать продвигать аффилированные сайты, то только один из этих сайтов будет в выдаче - это прямые потери. Критериев для аффилирования довольно много - начиная с адреса компании и регистрационных данных домена.

2.4 Малая база региональной привязки ссылочных доноров

В числе факторов ранжирования алгоритма Яндекса (Матрикснет) используются данные как о географическом положении посетителя, так и о географической привязке сайта. Сущаствуют открытые методы, которые позволяют перебором возможных регионов определить геопривязку сайта, но это долго и дорого.

Данные о геопривязке были в виде тегов <geo> и <geoa> с идентификатором региона у каждого результата в выдаче Яндекс.XML. В прошлом данные о географической привязке сайтов "выкладывались" в Яндекс.XML два раза - один раз в общедоступный XML летом 2009 (по этим данным собрана открытая малая база географической привязки) и летом 2010 в тестовый XML (по этим данным собрана большая закрытая геобаза по 2М сайтов и доноров (20% хостов Яндекса - не выложена, используется лично).

Малая база географической привязки открыта, собрана в 2009 по 300К+ доступных на тот момент ссылочным донорам.

3 Данные и возможности, оформленные в виде общедоступных сервисов

Многие возможности были выложены в виде бесплатных общедоступных сервисов, да так бесплатными и остались. Здесь, в отличие от п.2, приведены сервисы по обновляемым данным, а не архивные.

3.1 Информация о деталях изменений (апдейтов) Яндекса

Апдейт Яндекса - обновление поисковой базы и выкладывание новых документов в поисковый обратный индекс. После такого выкладывания новые документы начинают находиться по текстам и по операторам даты. Кроме этого, могут пересчитываться различные параметры (поведенческие факторы, вИЦ, географическая привязка сайтов и др.), а может переобучаться формула ранжирования.

"Правильные апдейты Яндекса" - основной сервис с 2008 года, 3000+ ежедневных пользователей и 10К+ зарегистрированных. Анализирует апдейты выдачи и их типы (текстовый, ссылочный, пересчет коэффициентов формулы ранжирования) и апдейты тИЦ. Есть виджет на главную страницу Яндекса (2000+ пользователей) и кнопка в Яндекс.Бар (740+ пользователей).

Как правило, при апдейте сначала обновляется сохраненная копия у многих документов. Минут через 15-30 выкладываются проиндексированные документы в обратный индекс (текстовый апдейт). Часа через два выкладывается обновленный файл ссылок и документы находятся по свежим ссылкам (ссылочный апдейт).

От 5 до 9 утра происходит скачивание реальной выдачи в процессе мониторинга изменений - ежедневно снимает выдачу по 8К+ запросам и позволяет посмотреть изменения по разным типам поисковых запросов.

Данные мониторнига обновляются в 930 и показывают изменения выдачи без выкладывания текстового индекса. При этом можно посмотреть степень изменения выдачи по различным типам запросов и различным их модификациям.

Что это дает полезного? Даты текстового индекса и ссылочного индекса показывают, когда следует ожидать изменений от проставленных ссылок и исправленных текстов. Данные мониторинга можно использовать для первичного анализа изменений - ведь изменение выдачи может быть разным для разного рода запросов (длинных и коротких, конкурентных и не очень, операторов) и их модификаций. Одновременно с изменениями выдачи по группам запросов показываются средневзвешенные параметры по выдаче.

Это профессиональные инструменты, не совсем для клиентов. Анонс: скоро будет выложен анализатор апдейтов кликовых поведенческих факторов и измерялка откатов выдачи.

3.2 Данные по скорости Яндексации сайтов-доноров

Для любого сайта можно посчитать взвешенную скорость индексации - средневзвешенное число дней, за которое сайт переиндексируется полностью. Эти данные можно использовать для выбора наиболее быстроиндексируемых доноров (пример использования в докладе Увеличение эффективности поискового продвижения: продавцы ссылок против Яндекса).

3.3 Подозрительные запросы в прямом эфире Яндекса

Как находить новые, неизвестные операторы и анализировать использование старых? Для этой цели служит анализатор подозрительных запросов из прямого эфира. В прямом эфире запросов к Яндексу иногда отключаются фильтры (на термины, порнографию, т.д. и на фильтруемые операторы) и можно видеть внутренние операторы Яндекса. Например, так можно (было) найти операторы поиска по html-элементам страниц.

3.4 Генераторы текстов ссылок

Самый популярный сервис этого сайта:
Генератор уникальных ключевых фраз для текстов ссылок.

Различные аналогичные сервисы на promotools.ru - три вида генераторов текстов ссылок - простым перемешиванием, языком операторов (для малых и и больших текстов), и генерация осмысленных фраз.

3.5 Составление семантического ядра для любого текста

По базам поисковых запросов сделан и тестируется автоматический подбор списка запросов с частотностями для любой html-страницы.

Текст разбивается на предложения, ищутся близко стоящие слова, и по комбинациям этих слов - каким поисковым запроcам они соответствуют. В результате получается список запросов с частотностями.

3.6 Разные технические сервисы

Среди сервисов этого сайта:
Защита форм от роботов, проверка на человека (PHP+GD) - аналог captcha.ru
Создание карты сайта и проверка битых ссылок - скрипт на perl.

Многие текстовые вещи можно сделать Excel-ем, но не всегда удобно его использовать.

Среди сервисов promotools.ru:
Подсчет уникальных доменов и урлов и встречаемости
Разбиение списка на кусочки
Пересечение текстов c морфологией и подсчетом числа слов
Кодировщик длинных текстов в (из) Punycode (для IDN доменов, например)
Случайное перемешивание списка
Хеширование (MD5, SHA1, CRC32)
HTTP-заголовки: простой вариант и полный вариант (изменение всех заголовков запроса)
Просмотр тИЦ списка доменов
Пересечение списков

3.7 Белые списки в бирже Mainlink

Сотрудничество со ссылочной биржей Mainlink (данные по 2.3 миллиона установленных ссылок) позволило создать большие "белые списки" ссылочных доноров. Частично белые списки на основе этих данных (5000 хороших доноров) внедрены в биржу Mainlink в виде списков закупки. Все эти данные регулярно обновляются.

3.8 База whois домена RU с возможностями поиска

С 2006 года на основе данных R01 по домену RU собирается и актуализируется полная информация по связям доменных имен через регистрационные данные (фио, почтовые адреса, телефоны, IP и др.). Раньше сервис располагался на www.nomina.ru, сейчас переехал на www.skvotte.ru. Сервис хранит активные и освобожденные домены, позволяет искать домены с одинаковыми регистрационными данными - например, для актуального поиска кандидатов в аффилиаты.


Доступ к CRM с примерами позиций:
rabsila.ru: пароль demo
cbrf.magazinfo.ru: пароль demo

отправить заявку - вопрос?

Контакты
order2@promosite.ru
(495) 669-32-81, Москва

Продвижение сайтов / сравнить:
-по трафику / посещаемость
-по позициям / первая страница
Доступ к CRM с примерами позиций:
rabsila.ru: пароль demo
cbrf.magazinfo.ru: пароль demo
SEO-инструментарий и ноу-хау
Rambler's Top100
продвижение сайтов в поисковых системах
трафик, позиции, прозрачность
 promo   site     

Услуги SEO с 1 мая 2002 года
Евгений Трофименко
order2@promosite.ru
Москва (495) 669-32-81