|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Постановка экспериментов над поисковыми системамиЕвгений Трофименко Доклад на конференции
ВведениеЭксперименты над поисковыми системами в части исследования влияния ссылочных и текстовых параметров релевантности – важная составляющая жизни оптимизатора и напрямую влияет на доходы его клиентов. Эксперименты со ссылками проводить сложнее, а с тестами – проще, и именно знание особенностей расчета текстовой релевантности особенно полезно при сборе трафика по низкочастотным запросам. Низкочастотный целевой трафик составляет основу многих интернет-бизнесов, как оказывается, очень большую его часть. По результатам исследований лог-файлов Яндекса [1], всего лишь 2.74% запросов в Яндекс являются «продвинутыми» (используют скобки, кавычки), и 0.88% являются булевыми (используют логические операторы), а основная масса запросов – фразы с средним числом термов 2.92-2.68. Относительно большое число длинных запросов означает важность работы с низкочастотными запросами при продвижении в поисковых системах. Средняя длина запроса в 2.5 – 3 слова предполагает, что оптимизация текстов и кодов сайтов вовсе не собирается «умирать», поскольку по «длинным» запросам рационально продвигаться страничными факторами, а ссылочные задействовать в особых случаях. Выработка идеологии постановки экспериментовВероятно, многие пробовали проводить эксперименты по выяснению различных параметров, влияющих на ранжирование сайтов в поисковых системах. Хотя само проведение экспериментов – увлекательное и развивающее занятие, от них все-таки нужен результат. Чтобы такие эксперименты были удачными, желательно (как в науке) ставить эксперименты так, чтобы можно было сказать: «отрицательный результата – тоже результат». Это возможно тогда, когда в эксперименте изменяется, например, один фактор, а все остальные факторы, могущие влиять на ранжирование – остаются постоянными. Только сохранить их постоянными не всегда возможно… При постановке эксперимента нам всегда стоит предполагать, какого рода данные мы получим или можем получить в результате. Предполагая, что нам удалось выделить влияние одного из экспериментальных параметров на релевантность, мы можем получить такие типы зависимостей, которые могут комбинироваться друг с другом в разных диапазонах изменения «параметра»:
Факторы, мешающие постановке экспериментов или искажающие результатыМожно привести некоторые особенности работы поисковых систем, которые затрудняют постановку экспериментов над ними и интерпретацию результатов.
Взаимное влияние факторовВзаимным влиянием различных факторов будем называть способ участия этих факторов в воображаемой «формуле расчета релевантности». Например, один из самых обсуждавшихся вопросов такого плана – «складывается» ли текстовая релевантность со ссылочной или «перемножается»? Подобные вопросы становятся принципиальными при оптимизации и продвижении, при поиске «узких мест». Если факторы «суммируются» - их можно «оптимизировать» независимо друг от друга, или временно отставить один из них на будущее. Если же они «перемножаются», неоптимальность по одному из них сведет на нет результат всей работы. Можно предложить к рассмотрению несколько схем взаимного влияния факторов: 1.Лимит. F=max(a,b)
2.Суммирование.F=a+b
3.Произведение.F=a*b
Соответственно, при проведении экспериментов с одновременным изменением нескольких факторов нам придется принять некие гипотезы относительно их взаимного влияния. Кроме того, поисковые системы учитывают массу ссылок и оперируют сайтами, а не просто страницами. Поэтому стоит принять определенные гипотезы относительно взаимного влияния:
Но и при рассмотрении «ссылочной» и «текстовой» релевантностей отдельно нам стоит учесть возможное взаимное влияние отдельных факторов, из которых складывается каждая из них. Факторы релевантности страницПеречислим некоторые наиболее очевидные страничные факторы, которые могут участвовать в расчете релевантности страниц сайта запросу.
С одной стороны, по каждому фактору отдельно можно провести хорошее исследование, зафиксировав остальные факторы. С другой стороны, если бы мы захотели проверить, есть ли взаимное влияние этих факторов, и мы взяли бы 10 вариантов каждого фактора – мы получили бы 10^9 страниц, которые было бы сложно приндексировать, почти невозможно выкачать выдачу по ним, и, кроме всего прочего, такое количество страниц обязательно обратит на себя внимание модераторов поисковых систем. А поскольку нам пришлось бы использовать сгенерированные тексты – эксперимент попал бы в бан. Для проверки взаимного влияния хорошим выходом была бы попарная проверка по избранным парам факторов. Факторы ссылочного ранжированияЕсли не вдаваться в расчеты весов ссылок (цитируемости) – эта тема находится за рамками доклада – предположим, что мы стараемся получать ссылки с хороших сайтов в меру сил. Факторы, которые могут участвовать в расчете ссылочного ранжирования, разделим на качественные и количественные:
С одной стороны, в случае ссылок у нас получается гораздо больше вариантов учета ссылок при ранжировании. С другой стороны, каждая ссылка – это отдельный объект и маловероятно, что может существовать взаимное влияние ссылок, отличное от суммирования их эффектов. Отдельные простые экспериментыНекоторые эксперименты могут быть проведены и без специально созданного сайта – с помощью анализа выдачи поисковых систем. «Колдунщик» ЯндексаКолдунщик служит для переформулирования поискового запроса пользователя. Первые сообщения о нем появились в мае 2001 года (http://www.netoscope.ru/news/2001/05/24/2385.html), около года назад [6] люди заметили, что перефразированный запрос передается «подсветчику слов» Яндекса. Поскольку в переформулированном запросе использовались параметры мягкости, как в [4], возникла мысль, что запрос в подсветке и является тем запросом, который отрабатывается вместо введенного пользователем. Кроме того, если ввести в поиск «переколдованный» запрос, он в неизменном виде переходил в «подсветчик». Для того, чтобы посмотреть «переколдованный» запрос, надо найти в адресе ссылки «Найденные слова» параметрreqtext=, который содержит запрос с расстояниями и параметрами мягкости, а также парамерами, напоминающая «веса слов» в базе (величина, тем большая, чем реже в базе встречается это слово). Вот несколько примеров его работы:
Алгоритм работы колдунщика может меняться – например, «реклама в интернете» раньше переколдовывалась как(реклама::1676 &/(-1 +3) в::0 &/(-1 +3) интернете::1313)//6. Работает колдунщик по-разному в зависмости от порядка слов в запросе, падежей и др. «Клей» Рамблера:[8] пробелы и знаки препинания в запросе к Рамблеру в зависимости от контекста заменяются на различные «кусочки клея» - операторы поиска в заданных пределах, обладающие заданными свойствами «растягиваемости» и «сжимаемости». Т.е., работает алгоритм, похожий на «колдунщика», но результаты его работы не показываются. Разделители слов и использование подсветкиПоскольку каждый запрос обслуживается «колдунщиком», важно знать, как определяется граница предложения, т.к. если в переколдованном запросе есть операторы поиска внутри одного предложения, а целевые слова находятся в разных предложениях, фраза не не будет учтена. Поскольку «подсветка» подсвечивает только слова, вошедшие в пассажи, можно выяснить, какие именно слова учитываются и какие разделители слов считаются концом предложения. Эксперимент: находим одну из проиндексированных страниц своего сайта по целевому запросу, который переколдовывается с ограничением на одно предложение. Меняем текст страницы, вставляя разные разделители и смотрим через подсветку – если слова не выделяются, значит, разделитель является маркером конца предложения. Результат: Разделителями предложений являются: теги <td>, <div>, <h3>, <br> всегда, и при условии, что второе слово после разделителя идет в верхнем регистре – точка, многоточие, восклицательный и вопросительный знаки, и двоеточие. В случае, когда после разделителя слово идет в нижнем регистре – слова считаются как в одно мпредложении. [10] Используя «подсветчик», можно также определять, какие слова из запроса ( «пассажи») были отобраны и учтены Яндексом при ранжировании данной конкретной страницы. Длина индексации в тайтле (Яндекс)В [5] показано, как Яндекс индексирует первые 24 слова в заголовке. По запросу в поле <title> с расстоянием в 23 слова: $title(работа &/+23 работа) находятся документы, в title которых есть слова «работа» на расстоянии и больше 24 слов друг от друга, однако по запросам с расстоянием больше 23 слов они не находятся: $title(работа &/+24 работа). Конечно, это могло быть связано и с ограничениями на «поиск с расстояниями», однако по фразам из «далекой части» title эти страницы тоже не находятся. Правда, есть опровергающий пример (с индексацией 65 слов в тайтле), но он всего один и на других страницах не воспроизводится. Страница находится по запросу $title(агентство &/+62 работа) и отличается отсутствием знаков препинания в title. Поскольку в данном случае используется оператор с расстоянием в словах внутри предложения, надо отделять ограничение на индексацию title и ограничение на длину предложения. Простые тегиКакое выделение слова более важно для поисковика, какое менее? Иногда подобные эксперименты необязательно и проводить – достаточно обратить внимание на выдачу. Например, движок конференции White Tiger Board (WTB) помещает полный текст поста в тег <textarea> на странице ответа на пост– и такие страницы неизменно всплывали в Яндексе выше обычной страницы с текстом поста. Оптимально проводить эксперимент с одинаковым текстом (или хотя бы одинаковым распределением частей речи по тексту), одинаковым числом стоп-слов, одинаковой близостью ключевого слова к началу. И, это важно: текстом достаточной длины – если он будет коротким, результаты могут оказаться «случайными» (в Рамблере, например)… Пример эксперимента: [8], 4 страницы, уникальное слово в тегах <strong>, <b>, <em>, <i>, тексты на страницах разные, размер текста– 1 средний (?) абзац. В выдаче страницы выстроились в приведенном порядке. Простые ссылки (2005, ноябрь)Эксперимент: Ссылка с сайта 1 (PR=4, тИЦ=250) с текстом уникальной абракадабры (буквы A-Z и цифры) установлена на главную страницу другого сайта 2 (на котором нет этого слова). Поиск проводился по тексту абракадабры. На странице ссылающегося сайта 310 слов, ссылка в низу страницы. Google: 1й – «302 редирект» с одного из каталогов на ссылающийся сайт, 2й – ссылающийся сайт, 3-7 – украденная скриптами главная страница ссылающегося сайта, 8й – сайт, на который ссылаются Rambler: 1й – страница ссылающегося сайта, сайта 2 нет. Yandex: 1й –сайт 2 (на который ссылаются) с описанием словами «текст ссылок: », 2й – ссылающийся сайт. Простые частоты в Яндексе (2003)Эксперимент: использовано 100 документов, сгенерированных из исходного связного текста из 2400 слов, отдельные слова заменялись на ключевое слово так, что частота слова менялась от 0 до 10% с шагом 0.1%. Маска замены наследовалась – следующий документ создавался из предыдущего. Стоп-слова никак не контролировались. Близость к началу документа не контролировалась. HTML-разметки не было. Выдача Яндекса взята из поиска страниц внутри сайта (фрихостинг, домен 3 уровня) по запросу из одного слова. Здесь видно, что в диапазоне 4-7.5% мы имеем случайное распределение позиций по частотам, затем идет группа документов с частотой от 4% до 1%, затем – от 7.5 до 10%, самыми нерелевантными оказались документы с частотой ключевого слова от 1% и ниже. Вывод: использовать частоты в диапазоне 4-7.5% Простые частоты в Рамблере (ноябрь 2005)Эксперимент: Экспериментальный сайт представляет собой новостной сайт из ~36 – 38 тыс. страниц с осмысленными текстами, содержащий разные виды «обвязки» текста новости (3 варианта: фиксированный текст до новости, после носовти, промежуточный), разные алгоритмы формирования title (4 варианта), разные алгоритмы формирования H1 (3 варианта), итого 48 вариантов, по ~700 страниц в каждой группе. В «обвязочном» тексте (длиной 20 символов) использовано одно несуществующее слово. Данные получены скачиванием выдачи Рамблера по этому слову по страницам внутри домена. В текстах новостей слово не встречается. Выбрано 2 группы страниц – с текстом обвязки до и после текста новости. Частота слова – 1/N, на диаграмме изображена позиция в выдаче и число слов на странице N. Новостей короче 10 слов не было. Число слов в title и h1 не контролировалось. Ситуация характерна для всех пар групп. В случае, когда ключевое слово находится после основного текста, упорядочение по убыванию «частоты» начинает работать только если общее число слов в новости – больше 100, если число слов меньше 100 – распределение «случайное». В случае, когда ключевое слово находится до основного текста, распределение «случайное» во всей области. Число слов в документе в Рамблере (ноябрь 2005)Экспериментальный массив– тот же, выбрана выдача по нескольким группам страниц. Все страницы содержат хотя бы одно слово «компьютер» (в разных падежах и числах) в тексте страницы и не содержат его в title и h1. Не контролировалось количество слов в title и h1. Рассчитана частота слова в тексте:
Во многих «случайных» распределениях можно найти порядок. Ограничение эксперимента: приближение к реальностиПредположим, вы провели эксперимент по выяснению оптимального числа и частоты ключевого слова в title страницы. И в результате эксперимента выяснилось, что два употребления ключевого слова – лучше, чем одно. А три – лучше, чем два. А четыре, пять употреблений ключевого слова – еще лучше! Но самое лучшее – шесть (а большее число в эксперимент не входило). Но в любом случае встают практические вопросы – как применять результаты эксперимента? Будете ли вы по результатам эксперимента создавать заголовки из 6 ключевых слов подряд? Вряд ли – бан еще никто не отменял, да и выглядеть в выдаче такой заголовок будет плохо, а значит, сайт будет недополучать посетителей. Будете ли вы ставить 10 тегов <h1> с ключевым словом на страницу, если эксперимент покажет, что это улучшит позиции сайта? Будете ли вы избавляться от существительных и дополнительно накачивать текст прилагательными и глаголами в описании товара в каталоге товаров? Установив заведомо применимые для себя границы, провести нужный эксперимент гораздо проще. Например, выяснить частные вопросы – где лучше употреблять ключевое слово – в конце тайтла, в начале или в середине и сколько раз – один или два? А в заголовке h1? Сколько слов выдавать в «кратких описаниях» товаров на странице каталога, чтобы поддерживать частоту ключевых слов в заданных пределах? Все эти вопросы станут решаемыми при принятии разумных ограничений. Ссылки
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
-по трафику / посещаемость -по позициям / первая страница Доступ к CRM с примерами позиций: rabsila.ru: пароль demo cbrf.magazinfo.ru: пароль demo SEO-инструментарий и ноу-хау |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|