Что должен знать о Яндексе каждый. Часть 1

Название самой известной поисковой системы по русскоязычному Интернету, т.е. Яндекса, обозначает «Языковой index», а еще имеет некоторое количество других схожих трактовок, совместный смысл коих выражается слоганом «Найдется все». Прогрессирующая соперничество среди поисковых машин заставляет больше предвзято относиться к таким обещаниям, т.к. мало сыскать все, надобно уметь сыскать самой главное. впрочем поисковая система Яндекс достаточно успешно с этим справляется, чем и оправдывает право именоваться сегодня самым посещаемым ресурсом Рунета.

Официально поисковая машина Яндекс была представлена в сентябре 1997 года и незамедлительно же начала победное восхождение на  вершины славы. временем наиболее буйного развития Яндекса был 1999 год, характеризующийся молниеносным увеличением Рунета как в объемах текстов, так и по численности пользователей практически на порядок.

В конце 2002 года Яндекс получился на самоокупаемость, т.е. завоевал превышения доходов над расходами. В этот момент больше 60% доходов Яндекс получает от контекстной рекламы и возле 20% - за переходы пользователей в электронные магазины. популярность принесла не лишь славу, но и трудности, проявившиеся в очередях на покупку рекламных мест на портале.

Сегодня Яндекс – это один из крупных портал, предоставляющий помимо поискового обслуживания и каталога большущее количество всевозможных веб-служб: новости, энциклопедии, словари, каталоги товаров, даровую почту, хостинг, платежную систему и многое другое.

Ежедневно портал посещают возле двух миллионов человек с учетом зарубежных гостей.  При данном из всех русских пользователей, заходящих в Сеть в течение дня, в среднем возле 75% посещают и интернет-сайт Яндекса.

За последние полгода Яндекс тем более усилил свои позиции, что  отразилось в увеличении посещаемости приблизительно на 60% и достижении цифры в практически 10 млн. человек в месяц (около 80% приходят из Рунета). На этот момент Яндекс вдвое популярнее Рамблера и на столько же популярнее других поисковых систем русскоязычного Интернета совместно взятых. розыск остается самой востребованной функцией портала, который обрабатывает в месяц возле 150 млн. запросов.

Яндекс владеет наиболее совершенным и актуальным индексом страниц русскоязычного Интернета. Качественный розыск обеспечивается тщательной лингвистической и технической проработкой текстов. Алгоритм нечеткого поиска, а еще качественный морфологический и синтаксический анализ дают возможность Яндексу воспринимать запросы на натуральном языке. потому начинающие пользователи, дабы не утруждать себя правилами применения служебных слов при построении поисковых запросов, имеют все шансы их формулировать, например, так: «где арендовать офис в центре Минска». Средняя протяженность запроса на Яндексе примерно  равна 2,8 слова, а в 1997 году она составляла 1,2 слова. Приведенные цифры отображают тенденцию повышения уровня владения интернет-пользователями возможностями информационного поиска.

Яндекс великолепно понимает русский язык и может образовывать и воспринимать любые словоформы. Например, в случае если введен запрос на слово «думать», то машина выдает итоги поиска еще и по словам «думал», «подумавши» и даже «разум».

Паук Яндекса индексирует все бумаги в русскоязычной части Интернета, в том числе и в странах СНГ. Наши белорусские пользователи отдают усмиряющее большинство запросов на розыск информации собственно Яндексу, оставляя вдали позади местные поисковики. Для розыска по Байнету хорошо бы установить в настройках розыска ограничение по региону (http://www.Yandex.Ru/regions.Html).

Ежедневно Яндекс постановляет во благо юзера такие же насущные проблемы, как и всякий другой общеизвестный поисковик: корректного ранжирования, обновления и синхронизации индекса, работы с разными языками и кодировками, дублирующейся информации, поддержания бодрости базы данных и т.д.

Размер индексной базы наравне с качеством поиска  является одним из главных показателей, характеризующих поисковую систему. Примером тому служит молниеносный рост известности таких машин как Google и Fast, который идет пропорционально развитию объема их индекса. Рост базы Яндекса помимо технических проблем, коие он благополучно решает благодаря кластерной структуре (т.е. размещению индекса на нескольких серверах), встречается с  необходимостью отсеивать повторяющиеся документы, происхождение коих многообразно. Один и тот же документ может быть представлен  в разных кодировках и форматах, может содержать незначительные подключения в облике даты публикации, рекламы или же ремарок другого втора. функциональному копированию  и редактированию непрерывно подвергаются новости, юридические документы, прайс-листы, статьи.

Поисковой машине не выгодно сохранять дублированные бумаги в базе, а еще засорять выдачу практически одинаковыми документами. способ Яндекса по выявлению  дубликатов непрерывно совершенствуется. Ее нужно учитывать, соблюдая такие правила. в случае если сайт имеет некоторое количество зеркал, то первым индексацию в Яндексе надлежит пройти ключевое из них, т.к. часто оставшиеся идентичные сайты игнорируются. Например, в случае если на сайте размещаются перепечатанные с иных ресурсов статьи, то, дабы избежать попадания страницы в дубликат и исключения из итогов поиска, можно разбить текст статьи на некоторое количество частей или же использовать побольше побочного текста (ремарок редактора, перекрестных ссылок на материалы сходной тематики этого же интернет-сайта и т.д.).  И наоборот, в случае если ресурс продвигается за счет публикуемых на нем статей, дабы после перепечатки на другие сайты статья не была идентифицирована Яндексом в качестве дубликата, не рекомендуется становить с этой страницы ссылки на перепечатанные варианты, а,  наоборот, со страниц-дублеров ссылаться на оригинал.

Яндекс как мощная поисковая система обходит Сеть за некоторое количество дней. Однако  по мере роста системы главная нагрузка ложится  уже не на индексирующего робота,  а на  розыск и выдачу результатов. В обозримое время планируется функциональное внедрение на Яндексе традиционных для многих систем с мировым именем технологий эшелонирования и прюнинга. сущность первой способа состоит в  разделении  индекса на две части: больше релевантную и менее релевантную. вначале поиск исполняется в первой и, в случае если результат не удовлетворяет количественно, поисковая машина обращается ко 2-й части индекса.

Технология прюнинга (от англ. pruning – отсечение, сокращение)  разрешает динамически прекращать обработку запроса при накоплении достаточного  численности релевантной информации. данная технология важно сокращает время розыска и нагрузку на поисковик, тем более, заведомо известно, что основная масса пользователей при просмотре итогов поиска чаще всего не заходят дальше третьей страницы результатов.

Главный критерий приема интернет-сайта Яндексом – это текст, написанный на русском языке. Поисковая система имеет довольно быстрый поисковый робот, который разрешает при первичной индексации странице уже через 2-4 часа возникать в итогах поиска. дальше страница ставится системой в очередь на совершенную индексацию, в последствии которой она порой может бездна из итогов поиска, в случае если будет принята за спам, или же из-за каких-либо технических проблем. потому позицию страницы надо отслеживать в течение нескольких дней, покуда Яндекс проведет совершенную индексацию. помимо того, перечень результатов, выдаваемых Яндексом, может меняться зависимости от  загруженности серверов. в последствии индексации ключевой страницы, оставшиеся обычно подключаются в индекс приблизительно через две недели.

Яндекс, обнаруживая новую или же измененную страницу, индексирует ее, разбивая документ на элементы: текст, заголовок, подписи к картинкам,  содержимое тега описания, текст ссылок и кое-какие другие. При данном учитываются позиции слов, то есть их состояние в документе или же его элементе. Сам документ Яндекс не хранит, потому и формирует очень компактный индекс. Робот регистрирует дату последнего обхода всякой страницы, дату ее изменения, присланную сервером, и дату внесения последних изменений в базу. Яндекс оптимизирует обход ceти таким образом, дабы чаще  посещать более изменяемые ресурсы. как правило переиндексация происходит раз в две-три недели. Изменения, внесенные в уже проиндексированные страницы, робот отслеживает автономно при надлежащем заходе на сайт.

У робота Яндекса личный график деятельности и поменять его, например, как в иных поисковиках, не видется возможным, т.к. Яндекс игнорирует тег .

Чтобы выяснить, проиндексировал ли Яндекс  сайт, нужно на странице www.Yandex.Ru/addurl.Html ввести в поле регистрационной формы адреc сайта и проанализировать результаты. в случае если будет выдано известие что «Ваш URL был лишь что внесен в нашу основание данных», это значит, что интернет-сайт будет проиндексирован в обозримое время. в случае если получено известие «Ваш URL уже проиндексирован. Вы можете посмотреть, какие страницы вашего интернет-сайта проиндексированы в Яndex.Ru к подлинному времени», то, нажав на ссылку «проиндексированы в Яndex.Ru», можно получить целый список документов ресурса, коие были проработаны поисковиком. в случае если регистрируемый интернет-сайт пропал из итогов поиска (чаще всего по техническим причинам самой машины), можно пользоваться описанным свыше способом, дабы убедиться, что интернет-сайт все-таки прописан в индексе. как правило при данном выдается известие о том, что «Ваш URL уже популярен роботу. этот ресурс станет проиндексирован в обозримое время».

Яндекс непрерывно совершенствует поисковый механизм. Последние перемены оказались более кардинальными и внесли новизну не лишь в метод формирования итогов выдачи, но и важно расширили возможности поиска. дабы составить о Яндексе совершенное впечатление, нужно обязательным образом разглядеть факторы, коие влияют на рассчитываемую поисковиком релевантность страниц введенному запросу.  А об данном будет рассказано в надлежащей статье.