Поисковая система Яндекс

История компании "Яндекс" восходит к 1990 году, когда в компании "Аркадия", возглавляемой Аркадием Борковским и Аркадием Воложем, начались разработки поискового программного обеспечения.

Поисковая система Яндекс - полнотекстовая, то есть в индекс попадают (и становятся доступными для поиска) те и только те слова, которые написаны на страницах сайтов.

Месячный охват аудитории Яндекса по оценкам ведущих исследователей составляет 43 - 55% регулярной аудитории Рунета и превосходит по этому показателю ближайшего конкурента "Рамблер", которому исследователи отдают 40 - 43% этого рынка.

Основные правила поисковой системы Яндекс

Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

Яндекс держит в своем индексе следующую информацию о каждом слове текста:

номер документа
номер предложения
номер слова в предложении
вес каждого слова

При поиске используется вся имеющаяся информация. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д.

Важную роль играет относительное положение слов. Так, например, если запрос из четырех слов не имеет точного ответа в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят точно в той же последовательности, что и в запросе. Это дает возможность решать типичную поисковую задачу - искать документ по "неточному цитированию".

В списке результатов поиска после адреса страницы выводится текст, который состоит из заголовка (тэг <title>), описания (тэг <meta name="Description" content="">) или начала документа (если этого тэга нет) и контекстов - фрагментов текста, содержащих слова запроса

Если слово из основного текста документа не расценено как спам и есть в "keywords" среди первых 50, то вес этого слова в запросе повышается, то есть документ получает более высокую релевантность. Если слово есть в "keywords", но отсутствует в основном (видимом пользователю) тексте документа, то по умолчанию документ по этому слову не найдется.