Поисковые системы

2.1 Как работают механизмы поиска

Cредства розыска и структурирования, порой называемые поисковыми механизмами, применяются для того, дабы помочь людям сыскать информацию, в коей они нуждаются. Cредства розыска типа агентов, пауков, кроулеров и роботов применяются для сбора информации о документах, окружающих в ceти Интернет. Это особые программы, коие занимаются розыском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, коию они находят для построения базы данных. Каждый поисковый устройство имеет личный набор правил, определяющих, как cобирать документы. кое-какие следуют за всякой ссылкой на всякой найденной странице и затем, в свою очередь, исследуют каждую ссылку на всякой из новых страниц, и так далее. кое-какие игнорируют ссылки, коие ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что надо просматривать сначала всего более популярные страницы.

Агенты - самые “интеллектуальные” из поисковых средств. Они имеют все шансы делать больше, чем элементарно искать: они имеют все шансы выполнять даже транзакции от Вашего имени. Уже теперь они имеют все шансы искать cайты специфической тематики и отдавать списки cайтов, отсортированных по их посещаемости. Агенты имеют все шансы обрабатывать оглавление документов, находить и индексировать другие виды ресурсов, не лишь страницы. Они имеют все шансы также быть запрограммированы для извлечения информации из уже существующих баз данных. самостоятельно от информации, коию агенты индексируют, они передают ее назад базе данных поискового механизма.

Агенты извлекают и индексируют разные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют лишь наиболее необходимых 100 слов в каждом, индексируют величина документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой розыск может быть сделан поисковым механизмом и как полученная информация станет интерпретирована.

Агенты имеют все шансы также перемещаться по internet и находить информацию, в последствии чего помещать ее в основание данных поискового механизма. Администраторы поисковых систем имеют все шансы определить, какие сайты или же типы сайтов агенты обязаны посетить и проиндексировать. Проиндексированная информация отсылается складе данных поискового механизма так же, как было описано выше.

Люди имеют все шансы помещать информацию напрямик в индекс, заполняя своеобразную форму для такого раздела, в который они желали бы поместить свою информацию. Эти данные передаются складе данных.

Когда кто-нибудь хочет сыскать информацию, доступную в Интернет, он бывает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. тут могут применяться ключевые слова, даты и другие критерии. Критерии в форме розыска должны соответствовать критериям, используемым агентами при индексации информации, коию они отыскали при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в наполненной форме, и выводит соответственные документы, опытные базой данных. дабы определить порядок, в котором перечень документов станет показан, основа данных использует алгоритм ранжирования. В идеальном случае, документы, более релевантные пользовательскому запросу будут размещены первыми в списке. разные поисковые системы применяют различные алгоритмы ранжирования, впрочем основные принципы определения релевантности следующие:

Эти принципы используются всеми поисковыми системами. А представленные ниже применяются некоторыми, но довольно известными (вроде AltaVista, HotBot).

База данных выводит ранжированный таким образом перечень документов с HTML и возвращает его человеку, сделавшему запрос. разные поисковые механизмы еще выбирают разные способы показа полученного перечня - кое-какие показывают лишь ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или же заголовок документа совместно с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, данный документ запрашивается у такого сервера, на котором он находится.

 

2.2 относительный обзор поисковых систем

Lycos. В Lycos применяется следующий устройство индексации:

Как и основная масса систем, Lycos дает вероятность применять элементарный запрос и больше изощренный способ поиска. В элементарном запросе в качестве поискового критерия вводится предложение на натуральном языке, в последствии чего Lycos изготовляет нормализацию запроса, удаляя из него так именуемые stop-слова, и лишь после этого приступает к его выполнению. практически сразу выдается информация о численности документов на каждое слово, а позднее и перечень ссылок на формально релевантные документы. В перечне против всякого документа указывается его мера близости запросу, численность слов из запроса, попавших в документ, и оценочная мера близости, которая может быть более или меньше формально вычисленной. покуда нельзя гипнотизировать логические операторы в строке совместно с терминами, но применить логику через систему меню Lycos позволяет. Такая вероятность применяется для построения расширенной формы запроса, предназначенной для опытных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа “Like this”, но намечается его расширение и на другие методы организации поисковых предписаний.

AltaVista. Индексирование в этой системе исполняется при поддержке робота. При данном робот имеет надлежащие приоритеты:

Если тэгов на странице нет, применяет первые 30 слов, коие индексирует и демонстрирует вместо описания (tag description)

Наиболее увлекательная возможность AltaVista - это расширенный поиск. тут стоит незамедлительно оговориться, что, в различие от многих иных систем AltaVista поддерживает одноместный оператор NOT. помимо этого, имеется ещё и оператор NEAR, который реализует вероятность контекстного поиска, когда термины обязаны располагаться вблизи в тексте документа. AltaVista позволяет поиск по главным фразам, при данном она имеет достаточно большой фразеологический словарь. помимо всего прочего, при розыске в AltaVista можно задать имя поля, где надлежит встретиться слово: гипертекстовая ссылка, applet, наименование образа, заголовок и ряд иных полей. К сожалению, детально процедура ранжирования в документации по системе не описана, но видно, что ранжирование используется как при элементарном поиске, так и при расширенном запросе. действительно эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo. предоставленная система возникла в ceти одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на разных ее серверах применяется различное программное обеспечение. Язык Yahoo довольно прост: все слова следует гипнотизировать через пробел, они объединяются связкой AND или OR. При выдаче не указывается степень соответствия документа запросу, а лишь подчеркиваются слова из запроса, коие встретились в документе. При данном не производится нормализация лексики и не проводится анализ на “общие” слова. неплохие результаты розыска получаются лишь тогда, когда пользователь знает, что в складе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу элементарных традиционных систем с ограниченными возможностями поиска.

OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания более похожи на рекламу, чем на информативное руководство по работе. Система разрешает провести розыск с применением логических коннекторов, впрочем размер запроса ограничен тремя терминами или же фразами. В предоставленном случае речь идет о расширенном поиске. При выдаче итогов сообщается степень соответствия документа запросу и величина документа. Система разрешает также улучшить итоги поиска в манере традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, в случае если бы не устройство ранжирования.

Infoseek. В этой системе индекс формирует робот, но он индексирует не целый сайт, а лишь указанную страницу. При данном робот имеет такие приоритеты:

Система Infoseek владеет довольно развитым информационно-поисковым языком, позволяющим не элементарно указывать, какие термины обязаны встречаться в документах, но и своеобразно взвешивать их. Достигается это при поддержке специальных знаков “+” - термин должен быть в документе, и “-” - термин обязан отсутствовать в документе. помимо этого, Infoseek разрешает проводить то, что называется контекстным поиском. Это значит, что применяя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. еще можно указать, что кое-какие слова обязаны совместно встречаться не лишь в одном документе, а даже в отдельном параграфе или же заголовке. Имеется вероятность указания главных фраз, представляющих собой целое целое, вплоть до порядка слов. Ранжирование при выдаче исполняется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти причины используются как вложенные процедуры. Подводя короткое резюме, можно сказать, что Infoseek относится к традиционным системам с составляющей взвешивания терминов при поиске.

WAIS. WAIS является одной из более изощренных поисковых систем Internet. В ней не реализованы только поиск по нечетким множествам и вероятностный поиск. В различие от многих поисковых машин, система разрешает строить не лишь вложенные булевые запросы, считать формальную релевантность по разным мерам близости, взвешивать термины запроса и документа, но и воплотить в жизнь коррекцию запроса по релевантности. Система еще позволяет применить усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не нечаянно именно данная система была выбрана в качестве главный поисковой машины для реализации энциклопедии “Британика” на Internet.

© , Ноябрь 2000