Сопутствующие настройки сайта

Файл robots.txt

Файл robots.txt – это текстовый файл, который находится в корневой директории сайта и используется для того, чтобы управлять страницами, индексируемыми поисковым роботом. Robots.txt может запрещать поисковому роботу двигаться по сайту и индексировать содержимое сайта.

Работа с данным файлом требует определенных знаний, но отказываться от его использования нельзя. Роботы поисковых систем обычно следуют директивам, расположенным в robots.txt, поэтому они проверяют наличие данного файла при первом заходе на сайт и перепроверяют его от случая к случаю. Некоторые поисковые роботы могут столкнуться с трудностями при индексации сайта, если данный файл не существует, либо вместо него выдается страница Not Found («Не найдено»).

Чтобы проверить наличие файла robots.txt, наберите в браузере следующий URL (вместо site.ru – название вашего домена):

Если по этому адресу выдается какое-либо другое содержание, помимо текстового файла с директивами для поисковых роботов, это означает, что файл отсутствует на сайте и следует загрузить файл robots.txt в корневую директорию сайта, прописав для него корректное содержание.

Неграмотно составленный файл robots.txt ограничивает поисковому роботу доступ к релевантной информации и сокращает количество проиндексированного контента на сайте, что противоречит основной цели оптимизации: позволить роботу проиндексировать как можно больше полезного и качественного контента.

Самый простой способ закрыть сайт от индексации – прописать в файле robots.txt «Disallow: /». Часто данной конструкцией пользуются при редизайне или создании сайта, когда не нужно, чтобы поисковый робот проиндексировал недоделанные страницы. Но обязательно после завершения всех работ нужно снять это ограничение. Чтобы проверить свой сайт на предмет запрета индексации, необходимо зайти по адресу www.site.ru/robots.txt (вместо site.ru ваш сайт) и посмотреть содержание директивы Disallow.

Конструкцию «Disallow: /» следует заменить на «Аllow: /» или «Disallow: ».

При помощи различных конструкций можно закрывать от индексации одни разделы сайта, открывать другие и даже работать с отдельными страницами. Однако при работе с robots.txt следует быть предельно внимательным: неверно используя конструкции «Allow-Disallow», можно случайно закрыть от индексации раздел с полезной и уникальной информацией.

Рассмотрим ситуацию, при которой может возникнуть ошибка с использованием конструкции «Allow- Disallow».
На сайте есть раздел, посвященный технике. Он не полностью готов, и мы не хотим, чтобы он индексировался. Для этого мы закрываем его индексацию: «Disallow: / catalog». Но из-за этой конструкции мы закрываем от индексации отлично работающий и полный раздел про автомобили (/catalog/ auto). Правильно было бы закрыть раздел «Disallow: /catalog/ tech».

Чтобы проверить, индексируется какой-либо раздел сайта или нет, можно воспользоваться сервисами «Проверить URL» или «Проверить robots.txt». При использовании инструмента «Проверить URL» необходимо ввести адрес любой страницы из проверяемого раздела в соответствующую строку. Если раздел запрещен к индексации, то появится оповещение. При использовании инструмента «Проверить robots.txt» следует указать, с какого сайта загрузить robots.txt. Затем через ссылку «Добавить» нужно указать список URL для проверки. После нажатия на кнопку «Проверить» по каждому введенному адресу будет указан результат проверки. Рассмотрим на следующей странице пример.

Полезными для посетителя являются такие страницы, как новости, галереи, разного рода статьи. Даже если информация не уникальна, мы её не закрываем от индексации. Закрываем от индексации только пустые страницы, на которых нет контента, кроме основного дизайна сайта, дорвеи, полный дубль внутри сайта.

При составлении технического задания на доработки сайта обязательным шагом является проверка файла robots.txt. Нужно посмотреть, какие каталоги и страницы закрыты от индексации директивой Disallow. По возможности нужно зайти на эти страницы и оценить, насколько их содержание полезно для пользователя и для поисковых роботов. Если закрытые каталоги и страницы представляют ценность для пользователя и для поисковых роботов и не являются служебными каталогами и дубликатами страниц, нужно открыть их для индексации, изменив содержание директивы Disallow.

Noindex и nofollow

Запретить индексировать ту или иную страницу можно не только с помощью файла robots.txt, но и с помощью мета-тега «ROBOTS» в заголовках каждой страницы. Данному мета-тегу могут соответствовать 4 значения, которые указываются в атрибуте CONTENT:

index - индексировать,
noindex - не индексировать,
follow - следовать по ссылкам,
nofollow - не следовать по ссылкам.

Если «index» и «follow» навредить не могут (их необходимо использовать только при открытии какой-то страницы для индексации и учета ссылок), то неверно расставленные «noindex» и «nofollow» могут представлять угрозу.

Если на странице присутствует следующий код, то данная страница будет недоступна для поискового робота, и она не будет участвовать в ранжировании.

Если мы хотим, чтобы страница индексировалась, но не передавала вес ни по одной ссылке, чтобы робот не переходил по ссылкам с данной страницы, то следует использовать следующий код.

Если же требуется применить оба правила, то в атрибуте «content» через запятую указываются два параметра.

Если с файлом robots.txt все в порядке, но страница никак не хочет индексироваться, следует проверить мета-теги «robots» на ней. Это можно сделать как вручную, так и с помощью Яндекс.Вебмастер. В разделе «Исключенные страницы» будет указана категория «Документ содержит мета-тег noindex».

А что делать, если требуется запретить к индексации не всю страницу, а отдельные фрагменты кода? Например, если они содержат бесполезный или неуникальный контент? Поможет тег < noindex>< /noindex>.

Работать с ним просто – в коде сайта необходимо заключить соответствующий текст между этими тегами. Например,

Перебарщивать с данным тегом нельзя. Поисковая система будет видеть несвязный текст или его отсутствие в зависимости от закрытия, и данная страница может посчитаться спамной.

Атрибут rel ссылки со значением «nofollow» сообщает поисковой системе, что данную гиперссылку не следует учитывать при индексировании страницы. Например,

Поисковые системы не учитывают ссылки с таким атрибутом при расчёте индекса цитирования веб-ресурсов. Закрывая таким образом ссылки, мы сохраняем вес страницы на сайте, не передавая его внешним сайтам.

Настройка sitemap.xml

Sitemap.xml – это файл формата xml, содержащий ссылки на все страницы сайта, подлежащие индексации поисковыми системами. С помощью этого файла можно указать роботу-индексатору, какие страницы следует индексировать, как часто это стоит делать и какие страницы имеют наибольшее значение. Поэтому помимо адресов страниц сайта в xml карте сайта также могут содержаться относящиеся к ним данные:

Sitemap.xml особенно актуален для крупных ресурсов, содержащих большое количество страниц (например, для интернет-магазинов). Ведь поисковому роботу уже не нужно будет ходить по сайту, фиксируя адреса страниц и прочую информацию – он может обратиться к xml карте сайта и взять готовую структуру ресурса.

< lastmod> - время последнего обновления страницы,
< changefreq> - частота обновления,
< proirity> - важность данной страницы относительно других.

Чтобы указать поисковой системе на xml карту сайта, следует воспользоваться сразу двумя способами (для подстраховки):

1) Указать в Яндекс.Вебмастер адрес sitemap.xml в соответствующем разделе

2) Указать путь в файле robots.txt. По умолчанию sitemap.xml располагается в корневой директории сайта

Для генерации карты сайта sitemap.xml существуют различные веб-сервисы. Например, если ваш сайт содержит не более 500 страниц, можно воспользоваться сервисом для генерации xml карты - http://www.xml-sitemaps.com/. Для более крупных ресурсов (от 10 тысяч страниц), как правило, пишется специальный программный модуль, автоматически генерирующий карту сайта в xml формате.

Карта сайта

Помимо карты сайта sitemap.xml, которая важна для поисковых систем, следует также составлять карту сайта в виде HTML-страницы непосредственно на сайте – для посетителей и для поисковых систем.

Карта сайта – это страница, содержащая полный каталог всех разделов сайта, представленный в древовидной структуре. Она подобна оглавлению книги, посмотрев на которое каждый пользователь может быстро найти необходимую информацию, сориентироваться в структуре и разделах сайта. Желательно, чтобы карта сайта содержала все страницы ресурса. Но перегружать её излишним количеством ссылок (например, для интернет-магазинов – ссылками на каждый товар) также не стоит – все-таки пользователь должен быстро и легко в ней ориентироваться.

Поисковым системам карта сайта также помогает быстрее индексировать сайт: ведь в этом случае робот находит ссылки на все страницы сайта на одной странице! Отсутствие карты сайта может затруднить индексацию. По опыту, поисковые системы ценят сайты с навигационными картами. Они отвечают требованиям юзабилити, которые Яндекс стал учитывать в ранжировании.

Рассмотрим пример карты сайта интернет-магазина на следующей странице.

Правила создания карты сайта:

Карта сайта должна быть выполнена в дизайне сайта, чтобы не нарушать его концепцию, не дезориентировать посетителя и максимально соответствовать его ожиданиям.
Нежелательно использовать графические элементы, чтобы не сместить акцент с полезности данной страницы на ее «украшательство».
Структура карты сайта должна соответствовать иерархии сайта – посетитель, посмотрев на карту, должен без труда сориентироваться в разделах веб-ресурса, это увеличит его лояльность.
Ссылку на карту сайта размещайте на главной странице так, чтобы пользователь мог легко её найти при необходимости.

Вернуться назад: Настройка редиректов и статус-кодов Читать далее: Внутренние корректировки страниц сайта