Представление сайтов внутри поисковых систем

Для удобства обработки данных поисковая система заносит все найденные в интернете страницы в индекс, который помогает сжать их объемы для оптимального хранения. Чтобы понимать, за счет чего возможно сокращение объема информации, необходимо знать, как документ представляется в поисковой системе.

Сначала происходит очистка страницы от различных нетекстовых элементов, таких как графика, HTML-теги и т.п. В результате остается «чистый» текст для дальнейшей обработки.

Далее все слова из текста располагаются в алфавитном порядке, а все элементы, которые словами не являются (пробелы, знаки препинания и прочее), отбрасываются. При этом поисковая машина не заносит в индекс слова в той форме, в которой они приведены в тексте. С помощью алгоритма лингвистической обработки все слова приводятся к начальным грамматическим формам или основам. Это позволяет сократить место в индексе и сделать поиск более точным. Из обработанных основ составляется подобие словаря, где указывается адрес страницы и конкретное место расположения каждой основы (номер вхождения). В поисковом индексе хранятся только номера основ, а сами основы располагаются отдельно. Если на странице находится несколько вхождений одного слова, то в индексе указывается номер этой страницы и все вхождения этого слова на ней. Получается что-то вроде обратной копии всех страниц интернета. Ее называют инверсным или инвертированным индексом.

Поисковые машины сохраняют и прямой индекс. Прямой индекс представляет собой сжатую текстовую копию всех страниц интернета. Это значительно экономит время, например, при показе цитат. Сохраненная копия сайта – это страницы в прямом индексе поисковой системы.

Процесс поиска связанной информации

Чтобы понять, что именно ищет пользователь, поисковая система проводит тщательный лингвистический анализ запроса. Сначала определяется язык, на котором был сформулирован запрос. Например, в Яндексе индикатором языка является алфавит, используемый в запросе, а также характерные особенности сочетания букв, присущие различным языковым группам.

Далее проводится работа по трактовке морфологии. Поисковая система различает не только слова из запроса во всех их морфологических формах, но и синонимы, однако при ранжировании предпочтение отдается точному вхождению.

Также поисковым системам приходится разграничивать омонимы (слова с одинаковым написанием, но разным значением). Например, одно и то же слово может быть истолковано и как глагол, и как существительное.

Определиться с наиболее вероятным списком форм помогает статистика совместной встречаемости слов и грамматических признаков. Для сбора статистики Яндекс использует национальный корпус русского языка и свои собственные корпусы, в которых собрано огромнейшее количество текстов.

Следует отметить, что все действия по лингвистическому анализу запроса поисковая система успевает осуществить за доли секунды!

Вернуться назад: Процессы поисковых систем Читать далее: Язык поисковых запросов

Представление сайтов внутри поисковых систем

Процесс поиска связанной информации

10 грехов SEO-оптимизатора

Скачать 1 главу Энциклопедии поискового продвижения Ingate. Поисковые системы

Скачать 2 главу Энциклопедии поискового продвижения Ingate. Ранжирование в деталях

Скачать 3 главу Энциклопедии поискового продвижения Ingate. Ограничения для продвижения

Скачать 4 главу Энциклопедии поискового продвижения Ingate. Этапы продвижения

Скачать 5 главу Энциклопедии поискового продвижения Ingate. Оптимизация сайта в деталях

Скачать 6 главу Энциклопедии поискового продвижения Ingate. Работа со ссылками в деталях

Скачать 7 главу Энциклопедии поискового продвижения Ingate. Повышение конверсии сайта

Скачать 8 главу Энциклопедии поискового продвижения Ingate. Инструментарий для продвижения

Сasebook. ROOKEE для бизнеса.

Анализ SEO-ошибок: как повысить эффективность сайта.

КАК ПОПАСТЬ В ТОП: практика эффективного SEO

Руководство по оценке качества поиска

ВЫШЛА НОВАЯ ВЕРСИЯ SEMBOOK

Подписка на обновления

Представление сайтов внутри поисковых систем

Процесс поиска связанной информации

10 грехов SEO-оптимизатора

Скачать 1 главу Энциклопедии поискового продвижения Ingate. Поисковые системы

Скачать 2 главу Энциклопедии поискового продвижения Ingate. Ранжирование в деталях

Скачать 3 главу Энциклопедии поискового продвижения Ingate. Ограничения для продвижения

Скачать 4 главу Энциклопедии поискового продвижения Ingate. Этапы продвижения

Скачать 5 главу Энциклопедии поискового продвижения Ingate. Оптимизация сайта в деталях

Скачать 6 главу Энциклопедии поискового продвижения Ingate. Работа со ссылками в деталях

Скачать 7 главу Энциклопедии поискового продвижения Ingate. Повышение конверсии сайта

Скачать 8 главу Энциклопедии поискового продвижения Ingate. Инструментарий для продвижения

Сasebook. ROOKEE для бизнеса.

Анализ SEO-ошибок: как повысить эффективность сайта.

КАК ПОПАСТЬ В ТОП: практика эффективного SEO

Руководство по оценке качества поиска

ВЫШЛА НОВАЯ ВЕРСИЯ SEMBOOK