Поисковые средства

Головна

Пошукові системи

Методичні посібники

Каталог авторів

Зовнішні бібліотечні ресурси

Дисципліни

Періодичні видання

 

 

Поиск на сайте МК

 

1. Введение

2.Yahoo!

3. Google

4. AlltheWeb

5. Россия

6. Украина

7. Метапоисковые службы

 

 

 

 

 

 

 

 

 

 

 

©  2004 Лаборатория ВТ и ТСО Экономический факультет

Породников Виктор Дмитриевич

1. Введение

WWW - это динамическая система: одни документы появляются, другие по прихоти авторов исчезают бесследно. Сколько всего страниц в World Wide Web - не знает никто; известно только, что их больше миллиарда. Хотя в Сети отсутствует единый каталог ресурсов, но его функции частично выполняют т.н. поисковые средства, или поисковые службы (search engines, search services). Каждое поисковое средство - а их известно несколько десятков - имеет свою программу-"робот", постоянно сканирующую Web-пространство и собирающую в базу данных сведения об обнаруженных документах. Алгоритмы действий роботов подобны, но не идентичны, поэтому и сформированные базы данных в той или иной степени различаются между собой как перечнем собранных адресов, так и структурой и объемом информации, характеризующей отдельный Web-документ.

Обратившись к поисковому средству, пользователь на бланке формулирует задание; программа анализирует свою базу данных и сообщает результат - список Web-страниц. Список может быть очень большим, но поскольку пункты его обычно ранжированы по принципу соответствия, пользователю достаточно ознакомиться с началом полученного перечня. Обычными элементами списка являются URL, название страницы (либо сайта) и гиперсвязь к ней; дополнительно могут быть приведены и другие сведения (например, объем, дата создания, несколько строк документа, аннотация).

 

Каждое поисковое средство использует свои правила построения поискового задания. Общей тенденцией для всех является отход от жесткой заданности булевой фразы к гибкому алгоритму free-text search.

 

Роботы основных поисковых средств прочитывают Web-документы от начала до конца и вносят в свои базы данных все встреченные слова (конечно, за исключением stopwords). Кроме того, в отдельных полях может накапливаться и иная информация: подписи к иллюстрациям, содержимое служебной части HTML-документа и т.д. - этот перечень индивидуален для каждой поисковой службы.

 

Многие поисковые средства предлагают пользователю тематические каталоги Web-страниц. Такие каталоги (Categories) создаются безмашинным способом, поэтому в них попадает далеко не весь материал, обнаруженный роботом.

 

 

Несколько рекомендаций

 

Из всего сказанного следует несколько рекомендаций по поиску информации в Интернет:

 

·        Выделяйте ключевые слова для поиска, наиболее точно отражающие интересующую Вас проблематику.

·        Начинайте поиск с наиболее известных и мощных поисковых серверов.

·        Используйте при поиске метапоисковые системы, обеспечивающие поиск сразу по нескольким поисковым серверам, увеличивая охват Интернет-ресурсов. Пример такой системы Metacrawler, размещенный по адресу (http://www.metacrawler.com). Такие системы подходят для несложных запросов, однако их применение зачастую бывает эффективным.

·        Для детального поиска используйте специализированные тематические или региональные поисковые серверы, если они Вам известны.

·        Внимательно прочтите инструкцию (help, FAQ) по выбранной поисковой системе.

·        Начинайте поиск с простых запросов в режимах простого поиска. По мере получения результатов расширяйте или уточняйте запросы с помощью дополнительных возможностей - используя логические и контекстные операторы, поиск по полям и т. п., переходя в режим расширенного поиска.

·        В случае наличия средств ранжирования выдачи по степени релевантности обязательно используйте их. Это позволит Вам достаточно быстро оценить результаты поиска в случаях, когда общие объемы выдачи могут превышать все разумные рамки.