Поиск на сайте
МК
1. Введение ©
2004 Лаборатория ВТ и ТСО Экономический факультет |
1. Введение WWW - это динамическая система: одни документы появляются, другие по прихоти авторов исчезают бесследно. Сколько всего страниц в World Wide Web - не знает никто; известно только, что их больше миллиарда. Хотя в Сети отсутствует единый каталог ресурсов, но его функции частично выполняют т.н. поисковые средства, или поисковые службы (search engines, search services). Каждое поисковое средство - а их известно несколько десятков - имеет свою программу-"робот", постоянно сканирующую Web-пространство и собирающую в базу данных сведения об обнаруженных документах. Алгоритмы действий роботов подобны, но не идентичны, поэтому и сформированные базы данных в той или иной степени различаются между собой как перечнем собранных адресов, так и структурой и объемом информации, характеризующей отдельный Web-документ. Обратившись к поисковому средству, пользователь на бланке формулирует задание; программа анализирует свою базу данных и сообщает результат - список Web-страниц. Список может быть очень большим, но поскольку пункты его обычно ранжированы по принципу соответствия, пользователю достаточно ознакомиться с началом полученного перечня. Обычными элементами списка являются URL, название страницы (либо сайта) и гиперсвязь к ней; дополнительно могут быть приведены и другие сведения (например, объем, дата создания, несколько строк документа, аннотация). Каждое поисковое средство использует свои правила построения поискового задания. Общей тенденцией для всех является отход от жесткой заданности булевой фразы к гибкому алгоритму free-text search. Роботы основных поисковых средств прочитывают Web-документы от начала до конца и вносят в свои базы данных все встреченные слова (конечно, за исключением stopwords). Кроме того, в отдельных полях может накапливаться и иная информация: подписи к иллюстрациям, содержимое служебной части HTML-документа и т.д. - этот перечень индивидуален для каждой поисковой службы. Многие поисковые средства предлагают пользователю тематические каталоги Web-страниц. Такие каталоги (Categories) создаются безмашинным способом, поэтому в них попадает далеко не весь материал, обнаруженный роботом. |
Несколько рекомендаций
Из всего сказанного следует несколько рекомендаций по поиску информации в Интернет:
· Выделяйте ключевые слова для поиска, наиболее точно отражающие интересующую Вас проблематику.
· Начинайте поиск с наиболее известных и мощных поисковых серверов.
· Используйте при поиске метапоисковые системы, обеспечивающие поиск сразу по нескольким поисковым серверам, увеличивая охват Интернет-ресурсов. Пример такой системы Metacrawler, размещенный по адресу (http://www.metacrawler.com). Такие системы подходят для несложных запросов, однако их применение зачастую бывает эффективным.
· Для детального поиска используйте специализированные тематические или региональные поисковые серверы, если они Вам известны.
· Внимательно прочтите инструкцию (help, FAQ) по выбранной поисковой системе.
· Начинайте поиск с простых запросов в режимах простого поиска. По мере получения результатов расширяйте или уточняйте запросы с помощью дополнительных возможностей - используя логические и контекстные операторы, поиск по полям и т. п., переходя в режим расширенного поиска.
· В случае наличия средств ранжирования выдачи по степени релевантности обязательно используйте их. Это позволит Вам достаточно быстро оценить результаты поиска в случаях, когда общие объемы выдачи могут превышать все разумные рамки.