Апорт: поисковая система- устаревшая информация
Для любого пользователя поисковая система состоит из двух компонентов: поисковой странички и странички с результатами поиска. Последнее важнее, поскольку именно страничка с результатами демонстрирует состоятельность системы.
Итак, рассмотрим в качестве примера образец результатов поиска Апорта.
увеличить
Краткие комментарии:
- Закладки, с помощью которых можно переключаться между различными видами поиска;
- Ссылка на результаты поиска по новостным ресурсам для заданного запроса (в скобках указано число найденных новостей);
- Ссылка на новость наиболее релевантную заданному запросу;
- Число результатов поиска по запросу;
- Название и ссылка на найденный сайт;
- Описание сайта, составленное редактором (импортируется из Апорт-каталога);
- Название и адрес наиболее соответствующего (самого релевантного) запросу документа на сайте;
- Цитаты из полного текста документа с выделением слов запроса;
- Ссылка на сохраненный текст документа (полезно, если сам сайт не доступен через Интернет);
- Адрес найденного сайта;
- Рубрики из каталога на тему запроса;
- Ссылка на результаты поиска по данному сайту (все найденные страницы);
- Страна или регион России, к которому принадлежит найденный сайт. При клике по ссылке будет произведен поиск по запросу с ограничением области поиска сайтами из этого региона;
- Ссылка на рубрику Апорт-каталога, к которой относится найденный сайта (если сайт опубликован в каталоге);
- Страна или регион России, к которому относится ваш IP-адрес. При клике по ссылке будет произведен поиск по запросу с ограничением области поиска сайтами из этого региона;
- Рекламные ссылки, соответствующие запросу (контекстная реклама).
Первое, что мы видим - кроме числа найденных документов, Апорт выдает число найденных сайтов. Это не просто формальная процедура, дальше вся выдача разбита именно на сайты, а не на документы. Это вовсе не означает, что вы не можете теперь искать отдельные документы - результаты поиска устроены так, чтобы совместить общую информацию и детальные данные.
1. САЙТЫ
Многие поисковые системы сегодня, так или иначе, оперируют понятием сайта, но подразумевают под этим просто адрес сервера типа www.server.com. В этом случае адрес сайта определяется из адреса страницы простым отрезанием хвоста: из http://www.server.com/users/~vasya получается сайт www.server.com. Для больших серверов, где размещены сайты множества фирм или людей, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения того, какая группа страниц является логическим целым (сайтом), Апорт использует информацию из базы данных своего каталога, информация о сайтах в котором вводится человеком, а потому гораздо точнее, чем то, что дает любой автоматический алгоритм (специальные алгоритмы тоже используются, но только, если сайт не зарегистрирован в каталоге).
2. ДОКУМЕНТЫ
Апорт дает весьма информативное представление найденных при поиске страниц. В блоке каждого сайта Апорт приводит информацию об одной из наиболее релевантных найденных на сайте страниц (7): адрес, заголовок, дата и цитата из документа (8). Важно, что цитаты выбираются из полного текста документа и содержат слова запроса.
Также имеется ссылка на реконструкцию полного текста документа (9). Она нужна, если документ недоступен на самом сайте (упал сервер, документ уже удалили и т.п.)
Если нужно получить информацию о всех остальных страницах, которые Апорт нашел на сайте, то можно воспользоваться ссылкой (12), которая замыкает блок результатов. По этой ссылке выдается дополнительное окно, в котором отображаются результаты поиска только по данному сайту. Они состоят из блоков данных по отдельным страницам.
3. СОРТИРОВКА
Общие принципы
Задача ранжирования результатов поиска является определяющей с точки зрения качества работы поисковой системы. Разработка хорошей функции ранжирования весьма непростая задача, в частности, из-за большой неоднородности ранжируемых документов и из-за попыток сознательного искажения результатов поиска с помощью поискового спама. Мощным средством повышения качества ранжирования является учет гипертекстовой структуры Интернета: ссылочное ранжирование и индекс цитируемости позволяют (хотя и не всегда) отличить качественный контент от сходного по содержанию “мусора”, а также (что особенно важно для владельцев сайтов) оригинальные материалы от их копий. Однако и здесь приходится иметь дело с теми же проблемами: неоднородностью ссылочной структуры и ее сознательным искажением спамерами.
Ещё одним важным средством повышения релевантности является использование информации из каталога Апорта, которая обладает высокой степенью достоверности, так как составлена или проверена профессионально подготовленными редакторами.
Принципиальным моментом в ранжировании результатов поиска в Апорте является стремление к учёту максимального количества критериев ранжирования в их взаимосвязи. В частности, заметное преимущество получают документы, имеющие высокий вес сразу по нескольким независимым критериям (например, по частотности слов запроса в тексте и ссылочному ранжированию).
Ранжирование производится исключительно автоматическими методами, мы не осуществляем специальной корректировки результатов поиска для каких-либо запросов или сайтов.
Критерии ранжирования
Апорт применяет следующие критерии при ранжировании документов:
- частота и взаимное расположение слов запроса в тексте документа;
- размер документа;
- присутствие и взаимное расположение слов запроса в выделенном (размером шрифта или html-тегами <b>, <strong>, <h1>...<h6>) тексте;
- присутствие и расположение слов запроса в заголовке документа;
- присутствие и расположение слов запроса в мета-тегах "keywords" и "description";
- присутствие и расположение слов запроса в ссылках на ранжируемый документ и авторитетность этих ссылок;
- присутствие и взаимное расположение слов запроса в названии и описании сайта в каталоге Апорта (учитывается при вычислении веса главной страницы сайта);
- взвешенный индекс цитирования документа;
- количество страниц сайта, имеющих высокую релевантность запросу.
Результирующий вес документа рассчитывается по специальному алгоритму, различным образом учитывающему сочетания разных критериев.
Ключевые слова (meta keywords) учитываются Апортом даже в случае их отсутствия в тексте документа. Индексируется не более 16 ключевых слов для каждого документа. Мета-тег description также учитывается при ранжировании, однако, в большинстве случаев, имеет очень небольшой вес.
|