Методика использования поисковых систем.

Как вы, наверное, уже знаете, общая методика пользования поисковых систем достаточна проста: зашел на сайт поисковой системы, ввел искомое слово (фразу), нажал на «Еnter» (или кнопку «Найти») - получи результат - список ссылок на интернет-страницы, содержащих указанное вами слово или фразу.
Сложность заключается в деталях, которые на самом деле и являются важными: как избежать «кучи мусора» в результатах поиска; как сделать так, чтобы поисковая система нашла именно нужное вам упоминание искомого слова (фразы), а не все упоминания подряд по всем сайтам Интернета; почему в списке найденных ресурсов самые нужные и интересные сайты находятся далеко не на первом месте. А также почему поисковая система вообще ничего полезного не нашла, хотя вы точно знаете, что данная информация в Интернете есть, и еще несколько десятков «почему?» и «как?». Ответы на данные вопросы мы и постарамся дать далее в этой главе.
Какие поисковые системы самые лучшие?
Необходимо иметь в виду, что все эти поисковые системы имеют свои индивидуальные особенности.
Для начала могут отличаться их «зоны покрытия» — интернет-пространства, которые проиндексированы поисковыми системами, то есть, изучены ими, и именно на которых и производится поиск.
Поисковые системы обычно состоят из трех компонент:
программы-робота (паука), который перемещается по сети и собирает информацию о ее ресурсах;
базы данных, в которой содержатся сведения о ресурсах сети, собранные поисковым роботом;
поискового механизма, служащего для взаимодействия пользователя с базой данных.
Поисковые роботы-пауки во время своих блужданий по сети извлекают и индексируют (оценивают) различные виды информации. Причем различные программы-роботы имеют свои поисковые особенности и приоритеты. Одни из них индексируют каждое слово в документе, другие — только наиболее часто встречающиеся слова. В общем случае индексирование документа производится по многим параметрам: по количеству слов в документе, по размеру документа, по его названию, заголовкам, ссылкам и т. д.
Обычно поисковые роботы работают «по наводке», то есть создатель web- страницы пишет запрос в поисковую систему с просьбой проиндексировать его документ. На указанный им URL-адрес посылается поисковый робот и делает свое дело.
Но поисковые роботы-пауки могут и самостоятельно перемещу переходя по ссылкам в посещаемых документах.
Собранную информацию роботы помещают в базу данных, с которой и взаимодействует пользователь, осуществляя поиск. У каждой поисковой системы вырабатывается своя база данных, при этом большинство информации в ней может быть такой же, как и у других поисковых систем, но имеются и существенные различия.
Немаловажным также является то, по какому признаку поисковая система сортирует найденные результаты (одни web-страницы помещая в начале списка, а другие в конце - об этом более подробно сказано в следующем пункте).
Для наибольшей эффективности поиска рекомендуется использовать несколько поисковых систем, то есть сначала попробовать поискать одной поисковой системой, а потом - другой (другими).
по какому критерию поисковые системы упорядочивают найденные интернет-страницы? почему некоторые из них идут в начале списка результатов, а другие - в конце?
Когда пользователь заходит на страницу поисковой системы, он заполняет поисковую форму, вводя ключевые слова для поиска. Например, если требуется найти документы, посвященные бильярдным клубам в Санкт- Петербурге, то вводятся слова: «бильярд» «Санкт-Петербург». В соответствии с поступившим запросом поисковая система отображает список документов.
Ресурсов, содержащих введенные слова, может быть очень много. Но в одном из них бильярду может быть посвящен один абзац, а в другом — целый сайт. Поэтому в круг задач поисковой системы входит выявление документов, в наибольшей степени соответствующих поисковому запросу, или, говоря по научному, документов, наиболее релевантных поисковому запросу.
В связи с этим список найденных документов выводится по степени их релевантности. Первым в списке отображается документ, который, по мнению поисковой системы, наиболее соответствует запросу пользователя.
Различные поисковые системы используют разные алгоритмы определения релевантности документа, однако основные из них следующие:
определение количества искомых слов в тексте документа;
HTML-элементы, в содержимом которых эти слова встречаются (текст, заголовок и т. п.);
удельный вес искомых слов в общем количестве слов в документе;
учет индекса цитируемости — количество документов, ссылающихся на данный документ;
алгоритм определения релевантности с учетом времени нахождения документа в базе данных поисковой системы.