Все приведенные ниже рекомендации верны
по состоянию на 08.04.08 года. Aport
может изменить настоящие рекомендации без предварительного
уведомления.
Общие принципы
Задача ранжирования результатов поиска является определяющей с точки
зрения качества работы поисковой системы. Разработка хорошей функции
ранжирования весьма непростая задача, в частности, из-за большой
неоднородности ранжируемых документов и из-за попыток сознательного
искажения результатов поиска с помощью поискового спама. Мощным
средством повышения качества ранжирования является учет
гипертекстовой структуры Интернета: ссылочное ранжирование и индекс
цитируемости позволяют (хотя и не всегда) отличить качественный
контент от сходного по содержанию “мусора”, а также (что особенно
важно для владельцев сайтов) оригинальные материалы от их копий.
Однако и здесь приходится иметь дело с теми же проблемами:
неоднородностью ссылочной структуры и ее сознательным искажением
спамерами.
Ещё одним важным средством повышения релевантности является
использование информации из каталога Апорта, которая обладает
высокой степенью достоверности, так как составлена или проверена
профессионально подготовленными редакторами.
Принципиальным моментом в ранжировании результатов поиска в Апорте
является стремление к учёту максимального количества критериев
ранжирования в их взаимосвязи. В частности, заметное преимущество
получают документы, имеющие высокий вес сразу по нескольким
независимым критериям (например, по частотности слов запроса в
тексте и ссылочному ранжированию).
Ранжирование производится исключительно автоматическими методами, мы
не осуществляем специальной корректировки результатов поиска для
каких-либо запросов или сайтов.
Критерии ранжирования
Апорт применяет следующие критерии при ранжировании документов:
-
частота и взаимное расположение слов
запроса в тексте документа;
-
размер документа;
-
присутствие и взаимное расположение слов
запроса в выделенном (размером шрифта или html-тегами <b>, <strong>,
<h1>...<h6>) тексте;
-
присутствие и расположение слов запроса в
заголовке документа;
-
присутствие и расположение слов запроса в
мета-тегах "keywords" и "description";
-
присутствие и расположение слов запроса в
ссылках на ранжируемый документ и авторитетность этих ссылок;
-
присутствие и взаимное расположение слов
запроса в названии и описании сайта в каталоге Апорта (учитывается при
вычислении веса главной страницы сайта);
-
взвешенный индекс цитирования документа;
-
количество страниц сайта, имеющих высокую
релевантность запросу.
Результирующий вес документа
рассчитывается по специальному алгоритму, различным образом учитывающему
сочетания разных критериев.
Частотные характеристики
Учитывается как абсолютная, так и относительная частота слова в
тексте документа.
И для той и для другой величины существуют пороговые значения, после
достижения которых дальнейшее увеличение частоты не влияет на вес
документа. Для небольших документов, размер которых (в словах)
меньше заданной константы, относительная частота рассчитывается не
от их фактического размера, а от этой константы.
В заголовке, мета-тегах, а также в названии и описании сайта из
каталога частота слов не учитывается.
Ссылочное ранжирование
Алгоритмы ссылочного ранжирования в Апорте учитывают не более одной
ссылки с каждого домена второго уровня для отдельного запроса (то
есть, для разных запросов могут учитываться разные ссылки).
Вес каждой ссылки зависит (помимо ее текста) от взвешенного индекса
цитирования ссылающейся страницы.
Взвешенный индекс цитирования
Алгоритм вычисления взвешенного индекса цитируемости является
модификацией классического алгоритма PageRank. В качестве одной из
наиболее существенных особенностей следует отметить, что учитывается
не более одной ссылки на документ с каждого домена второго уровня.
Индексом цитирования сайта считается взвешенный индекс цитирования
страницы, самый высокий среди всех страниц сайта (в большинстве
случаев это бывает взвешенный индекс цитирования главной страницы
сайта).
Мета-теги "keywords" и description"
Ключевые слова (meta keywords) учитываются Апортом даже в случае их
отсутствия в тексте документа. Индексируется не более 16 ключевых
слов для каждого документа. Мета-тег description также учитывается
при ранжировании, однако, в большинстве случаев, имеет очень
небольшой вес.
Вопросы
по индексации
Я добавил свой сайт через форму добавления сайтов, прошло уже
много дней, а его все еще нет в результатах поиска?
Для проверки индексации сайта поисковой системой используйте запрос
url=имя_сайта. Если результата по запросу не получено, то сайта
действительно нет в поисковой базе. Содержание базы является
прерогативой поисковой системы и каких-либо гарантий по индексации
новых и сохранению в индексе уже проиндексированных документов Апорт
не дает.
Причины, по которым Вы не видите добавленный сайт в результатах
поиска:
-
Добавленный сайт был признан спамом или
дорвеем. Дорвей - переадресация на сайт вне
текущего домена. Поисковый спам - некорректные по
версии Апорта методы "раскрутки" сайта с целью завышения позиции
документов в результатах поиска. Исключение из индекса возможно, как
автоматическими методами, так и с помощью ручного модерирования. Никаких
уведомлений владельцу сайта при этом не делается. Единственным способом
выяснения этого вопроса является обращение в службу поддержки;
-
Сайт имеет низкий ИЦ и документы с него
пока еще не были скачаны роботом Апорта для последующей индексации в
базе. Робот Апорта имеет определенные квоты по объемам информации,
которые могут быть скачаны и для того чтобы данные с сайта попали в эту
квоту необходимо чтобы сайт имел более высокий приоритет, чем остальные
сайты из пула. С течением времени приоритет сайта постепенно вырастет и
он, возможно, попадет в квоту на скачивание;
-
При обращении к сайту робот Апорта не смог
получить никаких данных из-за каких-либо сетевых проблем. Например, если
сайт размещен на бесплатном хостинге, то вполне возможно, что робот
обращался к сайту в тот момент, когда хостинг был либо недоступен, либо
перезагружен запросами. В случае, если время загрузки корневой страницы
в моменты обращения превышает значение в несколько секунд, то сайт будет
считается недоступным и Вам следует ждать пока до него дойдет очередь в
следующий раз. Для платного хостинга такая ситуация является более
редкой, но всё же иногда тоже случается.
Почему мой сайт с большим контентом так
плохо индексируется?
Возможные причины:
-
"Плохие" (с точки зрения робота Апорта)
дизайн страниц и структура сайта.
Робот Апорта не может эмулировать поведение браузера и распознавать
ссылки и другие данные сформированные с помощью java-scripts, flash
и тд. "Плохая" структура сайта - большая глубина вложенности
документов, использование нестандартных расширений для html
документов, дублирование информации внутри сайта - является
недостатком и ведет тому, что сайт будет индексировать не корректно;
-
Низкий ИЦ сайта.
Правила индексации и поиска одинаковы для всех сайтов: если какой-то
сайт занимает более высокую позицию, значит у него лучше дизайн и
выше ИЦ.
Источник:
www.aport.ru |