Индексирование документов поисковыми роботами

Наиболее эффективными и результативными средствами раскрутки веб-сайтов являются регистрация в каталогах и индексирование поисковыми системами. В статье изложены главные сведения об начальном рубеже подготовки ресурса к регистрации, а собственно о работе с метатегами.

 Поисковая система представляет собой больше сложную структуру и состоит из трех компонентов:

Следует сказать, что поисковые системы, в различие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными опциями базы данных, а по всей Сети, выводя страницы, находящиеся в их индексах (реестрах данных, где хранится информация о проиндексированных ресурсах). собственно последним и занимаются так именуемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот испытывает наличие файла robots.Txt в его корневой директории, в котором имеют все шансы быть вручную поставлены правила индексирования тех или же иных документов текущего узла. Однако, не все роботы "умеют" декламировать указанную в данном файле информацию: часть из них не поддерживает особый стандарт описания правил индексирования файлов - Standard for Robot Exclusion. К сожалению, сегодня не все веб-мастера и ведущие Интернет-проектов имеют представление об данном стандарте, к тому же не каждый системный администратор, настраивающий веб-сервер, придает использованию правил описания для поисковых роботов должное внимание.

Но предоставленная статья станет посвящена не стандарту Standard for Robot Exclusion, что требует исследования специальных параметров описания правил и работы с веб-сервером, а тому, как верно подготовить веб-документ для индексирования поисковыми роботами.

Когда пользователь вводит в строке запроса поисковой системы какое-то слово или же словосочетание, робот обращается ко всем проиндексированным страницам. численность полученных итогов может достигать десятков и даже сотен тысяч. Робот выводит итоги по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые годящиеся страницы будут помещены в начале результирующего списка, выдаваемого поисковой системой. На релевантность воздействуют факторы главных слов, речь о коих и пойдет.

 Под численностью ключевых слов (keywords) имеется ввиду их частота пребывания в документе (не путать с указанием главных слов в мета-тегах, беседа о коих пойдет едва ниже). То есть страница, на коей робот заприметит 15 раз запрошенное пользователем слово, станет более релевантна, чем та, которая содержит это слово всего 3 раза. данный фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что в случае если страница называется "Лучшие бесплатные приложения для Unix", в ее тексте навряд ли можно повстречать слова "эротика", "макияж" или же "трубопровод". но несмотря на все вышесказанное "система" или же "Unix" имеют все шансы встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или же смерти, кое-какие веб-мастера идут на неэтичный шаг: указывают в документе главные слова, безусловно не имеющие отношения к теме ресурса. Делается это как правило очень малым шрифтом, в самом низу страницы или же цветом, совпадающим с задним фоном. Реже эти способы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и также ключевое слово указывается большущее количество раз.

Под густотой (плотностью) главных слов принято воспринимать степень отношения численности ключевых слов к остальным словам в пределах документа. Поисковые роботы считают больше релевантной страницу с конкретным словосочетанием, нежели документ, в котором есть кроме этого словосочетания другие слова и фразы. Например, документ, содержащий лишь два слова "коммерческое предложение", станет идти в результирующем перечне впереди страницы, содержащей кроме сочетания слов "коммерческое предложение" ещё и другие слова.

 Такой подход имеет, как минимум, 3 больших минуса: во-первых, исходный величина HTML-файла заметно увеличивается, во-вторых, при выдаче итогов поисковики выводят данные, указанные в заголовке (TITLE), что готовит название найденных документов малопривлекательными, в-третьих, пользователю станет довольно непросто поместить страницу с таким долгим заголовком в папку Favorites/Bookmarks. помимо этого, на релевантность документов воздействует наличие выделенных фрагментов текста (теги форматирования STRONG, , EM, U, I, H1, H2 и др.) и внесение главных слов в комментарии, поле альтернативного текста ALT и мета-теги (им станет посвящена отдельная часть статьи). Комментарии обособляются символами !-- и -- и имеют все шансы включать безусловно любую информацию (она в окне браузера не отображается)

Поле альтернативного текста ALT, предназначенное для появления подсказок к графическим элементам при наведении на них курсора, также имеет большущий вес, когда речь заходит о релевантности страниц. Для уподобления приведу надлежащий пример: на странице теоретического предприятия "Фирма" размещена клавиша about.Gif размером 5 Кб со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия. 3 варианта применения поля альтернативного текста ALT:

IМG SRC=about.Gif ALT="about.Gif, 5 Кб"

IМG SRC=about.Gif ALT="Об истории"

IМG SRC=about.Gif ALT="История возникновения ООО Фирма"

Релевантность страниц сообразно порядку использования поля станет изменяться от первого варианта к последнему: документ, где кнопке присвоено поле "История возникновения ООО Фирма", станет иметь больше высокую релевантность, чем тот, чья клавиша имеет смысл тега "about.Gif, 5 Кб".

Если данный мета-тег пропущен или же не указано смысл атрибута CONTENT, то поисковый робот осознает их отсутствие как конструкцию CONTENT="INDEX, FOLLOW" (эти 2 значения - INDEX и FOLLOW подобны ALL).

Однако в процессе подготовки страниц к индексированию роботами пользователь может встретиться с цельным рядом затруднений (или важно позже, что ещё хуже):