PROMOSITE / Использование особенностей языка запросов поиска Яндекса для исследований / 11-12 ноября 2008 / Евгений Трофименко / доклады

Введение

Яндекс – пока что наиболее популярный поисковик в рунете – более других открыт к исследованиям его алгоритмов. Эксперименты в SEO важно не только провести, но и правильно интерпретировать, а в реальности в формирование поисковых результатов вмешивается слишком много факторов. В данной работе рассмотрены особенности работы поиска по текстам ссылок, возможности для изучения трактовки Яндексом многозначных запросов и их расширения, а также элементы учета текстовой релевантности – основываясь только на результатах выдачи, без создания экспериментальных страниц.

Особенности поиска по ссылкам

Как известно, поиск производится по текстам ссылок и текстам страниц.

Если в содержимом документа содержится достаточное количество слов запроса, документ отображается как найденный по текстам, с включением фрагментов документа в сниппет – описание результата выдачи.

Если же документ не содержит слов необходимых запроса, или считается не проиндексированным (временно отсутствующим на сервере, выдающем ошибку, выпавшим из базы Яндекса, запрещенным в файле robots.txt, новым для робота Яндекса), но слова запроса содержатся в тексте ссылок на этот документ – он может находиться с надписью «найден по ссылке» (т.н. НПС) (кроме случая, когда сайт находится в Яндекс-каталоге и НПС-слова есть в описании сайта – сниппет базируется на описании сайта из ЯК)

Некоторые операторы поиска Яндекса по-разному применяются к текстам ссылок и текстам страниц.

Оператор «-» (минус) – поиск НПС-результатов

Для целей исследования часто возникает необходимость найти НПС-результаты с нужными словами в ссылках, например, для изучения особенностей ранжирования по редким и частотным словам. Как бы то ни было, а найти в собственных базах такое не всегда возможно.

Оператор «-» (минус) является недокументированным [1]. Документированный оператор исключения «~~» (двойная тильда) работает в пределах документа, а «минус» всегда можно было использовать для исключения слов в пределах контекстных ограничений. Сейчас в описании языка есть оператор «~» (одинарная тильда) – он заявлен как оператор исключения в пределах предложения, и, похоже, не работает.

Так или иначе, а оператор «-» (минус) работает только в применении к контенту документа, т.е., к проиндексированным текстам. К текстам ссылок он не применяется.

Поэтому можно задать запрос вида слово –слово и найти все результаты, которые найдены по ссылкам или по текстам, содержащим слово, и все найденные по текстам результаты будут убраны из выдачи – тогда останутся только НПС результаты по слову (исключение – сайты из Яндекс-каталога, но и их можно убрать добавлением
–cat=9000000).

Таким образом довольно просто можно отыскивать НПС-результаты с интересующими нас словами в тексте ссылок.

Запрос	Число найденных страниц
сайт -сайт	780 тыс.
порно -порно	29 тыс.
интернет -интернет	470 тыс.
продвижение -продвижение	12 тыс.
реферат -реферат	76 тыс.
москва -москва -московский -cat=9000000	230 тыс
секс –секс	51 тыс.
ашманов -ашманов	137 страниц
трофименко -трофименко	114 страниц

Операторы «~» и «~~» (тильда) – исключаем НПС

При использовании операторов исключения «~» и «~~», напротив, можно избавиться от присутствия НПС-результатов в выдаче. Даже если мы пытаемся исключить из документа заведомо отсутствующую в нем абракадабру, найденные по ссылке результаты исчезают из выдачи. Например:

Сайт /(1 1) производителя /(1 1) Canon /(1 1) Inc – на 1 месте www.canon.ru НПС, всего 19 результатов.

Сайт /(1 1) производителя /(1 1) Canon /(1 1) Inc ~~jcaenhcqawv – найдено 18 страниц, НПС результат пропадает.

По-видимому, это происходит из-за того, что алгоритм поиска (и выдачи НПС) по тексту ссылок принципиально не принимает во внимание контент страницы. Т.е., алгоритм, выдавая НПС, как бы не знает ничего о содержимом документа, хотя документ практически всегда проиндексирован и Яндекс знает, что исключенной абракадабры там нет. Но в реальности он делает вид, что не знает этого, и при исключении абракадабры убирает НПС-результаты «на всякий случай». Это относится именно к тому случаю, когда в тексте документа нет фразы запроса.

С помощью этого способа можно оценивать долю НПС-результатов в выдаче. Например:

Запрос	Найдено страниц по точному запросу	Найдено страниц по запросу с добавлением ~~sfjhdssnv	Доля НПС-страниц в выдаче по исходному запросу
авто	280 млн	279 млн	~0.35%
авто москва	124 млн	118 млн	~4.8%
купить авто москва	67 млн	58 млн	~13.4%
купить подержанное авто москва	4 млн	3 млн	~25%

Общая тенденция – для длинных поисковых запросов доля НПС-результатов в выдаче выше. Это нормальная ситуация, и ее можно использовать для оценки степени коммерциализированности низкочастотных запросов. Т.к. при оптимизации на страницах появляются целевые слова и фразы – они уже не будут находиться как НПС. Логично считать, что с НПС-результатами не работали оптимизаторы, следовательно, и конкуренция по этим запросам должна быть ниже.

Для детальных исследований более точные данные (количество найденных сайтов и страниц) можно получить с использованием Яндекс.XML.

Особенности расширения пользовательских запросов

Летом 2008 года Яндекс сообщил [4] об изменениях в алгоритме переформулировки запросов, которые предполагают сильные изменения, включающие добавление новых слов в запрос:

Одну и ту же поисковую потребность пользователь может быть выразить разными запросами. Например, запрос «гамбургские гостиницы» кажется эквивалентным по смыслу запросу «гостиницы Гамбурга».
***
Теперь поиск Яндекса (версия «Магадан») еще учитывает следующие отношения:
а) некоторые типы переходов из одной части речи в другую («гамбург» -> «гамбургский»);
б) транслитерация («mazda» -> «мазда»);
в) аббревиатуры (МГУ -> Московский государственный университет).

Как именно происходит эта переколдовка запроса? По смыслу, некоторые слова могут быть заменены (в случае замены транслитерации или аббревиатуры), в некоторых случаях запрос может быть расширен с переходом между частями речи (недвижимость в Москве -> московская недвижимость).

Поскольку эти изменения затрагивают большую часть коммерческих запросов, важно знать точно, как это происходит. Например, может оказаться, что дополненный/измененный запрос – менее конкурентный и легкий для продвижения.

Для того, чтобы исследовать особенности переформулировок, используем операторы исключения. Например, из результатов поиска по запросу мазда исключаем все результаты, содержащие слово мазда. Получаем все результаты с переформулировкой – новыми словами и частями речи. Последовательно исключая различные переформулировки, можно найти их все.

Исключение оператором «~~» уже не работает

Еще в сентябре 2008 особенность оператора исключения состояла в том, что исключалась форма слова во всевозможных падежах и числах, но без переформулировок. В результате, задавая запрос мазда ~~мазда можно было получить результаты, содержащиеmazda – переформулировку.

Аналогично, запрос недвижимость в москве расширялся с использованием слов московкая, московскии [sic!], московск вместо москвы. Не все из этих слов подсвечивались в выдаче, что говорит об использовании разных алгоритмов в основном поиске и в подсветчике выдачи. Аудипереводилось какaudi, audis, аудь. Все это приводится по памяти.

Однако на момент написания этого доклада оператор «~~» уже исключает все формы слова, включая переформулировки. В результате выдача по мазда ~~мазда пустая.

Исключение оператором «-» работает, но неудобно

Оператор «минус» исправно исключает выбранную форму слова, оставляя переформулировки (мазда –мазда показывает результаты c mazda). Однако, неудобство состоит в том, что он не работает по текстам ссылок, и очень часто вместо тех текстовых результатов выдачи, которые содержат интересующие нас новые переформулировки, мы получаем выдачу, состоящую их НПС-результатов (видимо, достаточно релевантных).

Исключение точной формы (!) оператором «~~» неудобно, но можно

Выход – использование оператора «!» (восклицательный знак) для обозначения точной формы слова, которая исключается оператором «~~». В этом случае мы вынуждены записывать полный список всех возможных форм слова для исключения.

Например, мазда ~~!(мазда|мазду|мазде|мазд) дает искомые результаты с mazda. Кстати, операторы исключения не применяются к поиску по URL, поэтому в любом случае выдача может содержать результаты с переформулировкой в URL найденной страницы.

Однако иногда этот оператор не позволяет посмотреть все дополнительные слова в расширениях запроса (исключает доп. слова), лучше для страховки проверять его оператором «минус».

Переформулировки запросов

Из особенностей переформулирования запросов можно отметить, что при исследовании транслитерации - в основном находятся односторонне переформулировки: русскоязычным «мазда, ауди» соответствуют англоязычные варианты, но обратные переформулировки таким способом не находятся.

Исходный запрос	Новые слова в запросе
ауди	audi, audy
mazda	mazdae
ноутбуки в СПБ	Петербург
недвижимость москвы	Московская
квартиры в москве	Московская, москві
МГУ	Московский, mgu, МГОУ, mgou
гамбургский счет	Гамбург

Однако обратные переформулировки есть – по запросам mazda, audi в выдаче подсвечиваются русскоязычные слова мазда, ауди. Вероятно, это связано с выбором главного слова из набора «синонимов» и с особенностями работы операторов исключения, которые постоянно меняются.

В любом случае, самым надежным методом для исследования переформулировок было бы создание специальных страниц, содержащих в том числе и разные части речи, с изучением подсветки разных терминов при поиске интересующих запросов в пределах сайта.

Особенности переформулировки запросов («колдунщика»)

Колдунщик – механизм переформулировки запросов, известный с 2004 года и описанный авторами алгоритма [3]. Перед исполнением запрос пользователя изменялся специальным образом, индивидуальным для каждого запроса. Если исключить редкие случаи, когда в запрос добавляются «новые» слова или усиливается влияние отдельных слов, то работу колдунщика можно было свести к расстановке между словами «расстояний» - операторов контекстных ограничений и отмене влияния стоп-слов.

Расстояния между словами в [3] важны для выбора последовательностей слов (пассажей), которые находятся в документе не слишком далеко друг от друга и будут учтены в дальнейшем. При этом «не слишком далеко» для каждой пары слов в запросе было индивидуальным – расстояния изменялись от «в пределах документа» до «строго по порядку».

Дальнейшая оценка релевантности документа запросу производилась с учетом выбранных пассажей и «весов» слов.

Стандартные переколдовки запросов

Почти все используемые в колдунщике операторы были описаны в [1,2] и представляли собой обычные операторы ограничения расстояния между словами.

Хотя эти расстояния теоретически могли быть любыми, реально использовался набор из «стандартных» 7 расстояний. Примерная относительная «популярность» этих операторов приведена ниже – по массиву запросов клиентских сайтов Корпорации РБС [6]

Оператор	Относительная частотность	Смысл оператора: поиск в пределах
&	100%	в пределах одного предложения
&/(-2 4)	9%	в пределах -2 +4 соседних слов
&/(-1 3)	10%	в пределах -1 +3 соседних слов
&/(1 1)	2%	строго по порядку
&/(0 0)	0.035%	усиление влияния одного слова
&&/(-7 7)	15%	в пределах 7 предложений
&&/(-3 3)	15%	в пределах 3 предложений
&&	7%	в пределах документа

В середине октября 2007 года Яндекс отменил показ переколдовки в ссылке на сохраненную копию в результатах поиска [7], однако она все еще работала, и отработка операторов отключена не была. Реальные расстояния между словами можно было подобрать – используя 7 «любимых» Яндексом вариантов с помощью перебора можно было найти тот вариант, для которого выдача по «заколдованному вручную» запросу совпадала с выдачей Яндекса.

Новые аспекты переколдовки

Весной 2008 в релизе «Магадан» разработчики сообщили [5], что:

Мы смягчили фильтрацию отбора документов для ранжирования, что привело к улучшению ранжирования по запросам, для которых релевантные документы содержат слова запроса далеко друг от друга
***
Наиболее заметных улучшений мы смогли достичь в обработке многословных запросов.

И действительно, отработка запросов с подставленными «любимыми» операторами перестала давать совпадения с реальной выдачей. Реальная отработка запросов Яндексом изменилась.

Возьмем запрос (+скачать +реферат) и исключим оператором «~~» из результатов поиска все страницы, где два слова запроса находятся на некотором расстоянии друг к другу (от одного слова до всего документа):

запрос	чистим в пределах	найдено страниц	доля, %
(+скачать +реферат)	-	16065797	100.0
(+скачать +реферат) ~~(+скачать /(-1 1) +реферат)	1 слова	12004783	74.7
(+скачать +реферат) ~~(+скачать /(-2 2) +реферат)	2 слов	10743380	66.9
(+скачать +реферат) ~~(+скачать /(-3 3) +реферат)	3 слов	10588526	65.9
(+скачать +реферат) ~~(+скачать /(-10 10) +реферат)	10 слов	10077579	62.7
(+скачать +реферат) ~~(+скачать /(-20 20) +реферат)	20 слов	9951594	61.9
(+скачать +реферат) ~~(+скачать & +реферат)	одного предложения	9920305	61.7
(+скачать +реферат) ~~(+скачать &&/(-1 1) +реферат)	соседних предложений	8108090	50.5
(+скачать +реферат) ~~(+скачать &&/(-2 2) +реферат)	2 предложений	6032021	37.5
(+скачать +реферат) ~~(+скачать &&/(-3 3) +реферат)	3 предложений	5401261	33.6
(+скачать +реферат) ~~(+скачать &&/(-5 5) +реферат)	5 предложений	4273921	26.6
(+скачать +реферат) ~~(+скачать &&/(-10 10) +реферат)	10 предложений	3089645	19.2
(+скачать +реферат) ~~(+скачать &&/(-20 20) +реферат)	20 предложений	2326525	14.5
(+скачать +реферат) ~~(+скачать &&/(-30 30) +реферат)	30 предложений	1754794	10.9
(+скачать +реферат) ~~(+скачать &&/(-100 100) +реферат)	100 предложений	635005	4.0
(+скачать +реферат) ~~(+скачать &&/(-1000 1000) +реферат)	1000 предложений	9515	0.1
(+скачать +реферат) ~~(+скачать &&/(-10000 10000) +реферат)	10000 предложений	210	0.0
(+скачать +реферат) ~~(+скачать && +реферат)	документа	0	0.0

Мы видим, что при увеличении расстояния между словами, которые мы вычищаем из выдачи, число найденных страниц уменьшается постепенно от 16 миллионов до нуля. Это означает, что запросу +скачать +реферат соответствуют документы с очень большим расстоянием между словами в том числе, и именно эти документы остаются в выдаче после исключения «близких» пар слов. Если бы запрос скрытно от внешнего мира «переколдовывался» стандартным образом, то установленные контекстные ограничения ограничивали бы расстояние «сверху», и не позволяли бы находиться парам, в которых слова находятся далеко друг от друга.

В этом случае в какой-то момент при увеличении расстояния в приведенных запросах число найденных документов должно было в какой-то момент резко обнулиться. Именно это расстояние и соответствовало бы «новой переколдовке».

Однако по этому запросу находятся даже документы, в которых слова «скачать» и «реферат» находятся на очень больших расстояниях друг от друга. Больше того, если мы не будем использовать «плюсик» в исходном запросе, например:

Мы обнаружим, что по такому запросу находится 283204 документов, содержащих только одно из слов запроса.

Все это полностью согласуется с сообщением разработчиков об изменениях, позволяющих находить документы, «которые содержат слова запроса далеко друг от друга». И косвенно свидетельствует о том, что переколдовка с расстановкой операторов между словами уже не используется. Вместо этого актуален алгоритм, в котором слова ищутся в пределах всего документа, но в зависимости от расстояния между словами – вносят разный вклад в конечную общую релевантность.

Заключение

Углубление знаний о наиболее популярном поисковике рунета (в данный момент - Яндексе :)) невозможно без постановки экспериментов – это ясно даже и ежу. В отличие от других поисковиков, Яндекс позволяет проводить исследования и без создания специальных экспериментальных страниц. Надеюсь, что приведенные примеры были полезны – как для отбора объектов эксперимента (НПС-результатов), дали возможность более детального исследования переформулировок отдельных клиентских запросов и уровня конкуренции по ним, позволили отказаться от более неактуальных представлений об алгоритме Яндекса.

Использование особенностей языка запросов поиска Яндекса для исследований