- Главная
- Оптимизация сайта в деталях
- Дубли страниц
Дубли страниц
Многие перечисленные выше доработки направлены на то, чтобы на сайте не создавались лишние страницы, точные копии существующего контента. Опасность наличия таких страниц описана в третьей главе. Они могут повлечь за собой как некорректный выбор релевантной страницы, так и наложение санкций на сайт.
Существуют два вида дублей – полные и нечеткие.
Полные дубли – это страницы, содержание которых идентично друг другу, различны только их URL.
Нечеткие дубли – это страницы, которые содержат очень большое количество одинаковой информации, но они не полностью идентичны; их URL также различны.
Источники дублей в сети различны. В одних случаях дубли появляются из-за технических недоработок web-мастеров, в других – в результате осознанного влияния оптимизатора на ответ поисковой машины.
За технические ошибки и форматы документов отвечают непосредственно владелец и разработчик сайта. Дубли текста же могут появляться, в том числе, в результате кражи контента с сайта-первоисточника. Однако борьба оптимизаторов с «нахлебниками» не имеет отношения к технической оптимизации, поэтому далее речь пойдет о недоработках на сайте, автоматически генерирующих дублированные страницы.
Чаще всего проблема решается устранением всех дублей, адреса которых будут отдавать и посетителям, и поисковой системе 404 ошибку, при этом необходимо позаботиться об устранении еще и всех образовавшихся битых ссылок.
Большинство рекомендаций по работе с дублями можно свести к следующему:
1. Закрыть от индексации в файле robots.txt все имеющиеся на сайте дубли.
2. При формировании страниц, которые являются дублями, в их мета-теги прописывать <meta name="robots" content="noindex,nofollow"/>. Это запретит роботу индексировать данные страницы и переходить по ссылкам с этих страниц.
Внутри сайта дубли страниц могут создаваться по разным причинам. Например, дубли могут возникнуть из-за повторения контента в анонсе и на самой странице новости. Другой случай – когда «версия для печати» полностью дублирует основную страницу и т.д.
3. Использовать тег <link rel="canonical" href="адрес оригинала" /> на всех автоматически генерируемых страницах.
Однако каждый частный случай появления дублей страниц на сайте нужно рассматривать отдельно и применять те меры, которое будут приемлемы для этого конкретного сайта. Ниже приведены самые распространенные причины автоматической генерации дублей страниц на сайте и варианты их устранения.
«Листалки»
Если на сайте присутствует многостраничный каталог, то очень часто вторая, третья и другие его страницы могут содержать много повторяющейся информации. Это могут быть одинаковые мета-теги или текстовые блоки, которые отображаются на всех страницах каталога из-за особенностей CMS сайта. Получается, что на множестве страниц присутствует один и тот же текст, что особенно плохо, если этот текст оптимизирован для продвижения – он просто «растворяется» в множестве дублей.
Чтобы не допускать дублирования контента в «листалках», можно воспользоваться следующими методами:
1. Закрыть все дублирующиеся страницы через robots.txt, мета-тег “ROBOTS” или использовать тег «rel=”canonical”».
2. Сделать так, чтобы все значимые текстовые блоки отображались только на первой странице и не дублировались на остальных. Это целесообразно, если в продвижении находится только первая страница и на ней остается весь контент, релевантный запросу. Эти работы выполняют разработчики, а вы должны указать им необходимость их выполнения.
Помимо дублей контента на страницах «листалок» также очень часто встречается проблема одинаковых мета-тегов на всех страницах каталога. В этом нет большого вреда, но их уникализация может дать дополнительные бонусы при ранжировании ресурса. Наиболее удобный вариант работы с мета-тегами – создать единый шаблон title и мета-тегов в зависимости от содержания страницы.
Нередко встречается, что «листалка» содержит развернутое описание товара, и точно такой же текст фигурирует на странице с карточкой товара. За счет этого происходит дублирование контента, что может негативно сказаться на ранжировании. У поискового робота возникает диссонанс: какую страницу считать более релевантной?
Чтобы предотвратить такое дублирование, можно:
1. Закрыть страницы «листалки» в robots.txt.
2. Публиковать в «листалках» только небольшую часть из описания товара или услуги со ссылкой на полную версию описания или на карточку товара.Сортировка, фильтрация и поиск
В случае если на сайте располагаются формы сортировки, фильтрации и поиска, то, как правило, результат формируется на отдельной странице с динамическим URL. Эта страница может содержать фрагменты текстов с других страниц сайта. Если не проводить работу с множественными страницами результатов сортировки (или поиска), то они будут открыты для индексации роботами поисковых систем.
В сортировке участвует несколько категорий, фильтрация идет в разных сочетаниях, поиск двух разных слов может привести к одному результату – все это порождает очень много автоматически сгенерированных страниц. А это нарушает лицензию поисковых систем, в частности, Яндекса.
Самый простой способ бороться с такими дублями — закрывать страницы результатов от индексации в robots.txt.
Например, строчка, закрывающая результаты поиска, может принять следующий вид: Disallow: /search=*
Рекомендуется периодически анализировать URL страниц сайта, попадающих в индекс, чтобы вовремя устранять проблемы с сортировкой, фильтрацией и поиском. В качестве алгоритма анализа можем предложить следующее решение:
1. Проанализировать параметры, найденные инструментом GoogleWebmaster и указанные в разделе «Конфигурация – Параметры URL».
Как часто проверять сайт на дубли страниц?
Это зависит от объема контента, периодичности обновлений, наличия поиска. В среднем такую проверку рекомендуется устраивать раз в месяц.
2. Отобрать параметры, которые являются «незначащими», и задать в Google Webmaster команду «пропускать при индексации». Для настройки сайта под Яндекс следует указать данные параметры в robots.txt как маски для закрытия от индексации.
3. Проанализировать адреса страниц в индексе с помощью Яндекс.Вебмастер (раздел «Индексирование сайта -> Страницы в поиске»). Выявить одинаковые мета-теги (аналогичный инструмент есть и в Google Webmaster), одинаковые адреса с переставленными параметрами (например, первый «/?pr=gr&cost=big» и второй «/?cost=big&pr=gr»), количество страниц одной статьи за счет комментариев. Как только выявлены дубли, необходимо дать задание разработчику, чтобы он закрыл их от индексации.
4. Установить и устранить причину дублей, используя один из перечисленных ранее способов или их комбинацию. В идеале следует пересмотреть структуру сайта и алгоритм формирования URL.
Сортировка, фильтрация и поиск являются важными навигационными элементами сайта; без них нельзя обойтись, особенно на большом сайте, т.к. это серьезно влияет на юзабилити. Но при использовании данных элементов нужно предвидеть возможные проблемы дублирования, периодически проводить проверки и своевременно устранять выявленные недочеты.
Версия для печати
Страница «Версия для печати» имеет большое значение для удобства использования сайта, поэтому ссылки на такие страницы рекомендуется ставить на всех карточках товаров, на странице контактов и в других значимых разделах сайта. Однако страница с версией для печати отличается от основной страницы только отсутствием графической составляющей, т.е. весь контент, как правило, дублируется.
Фактически проблема нечетких дублей в данном случае решается аналогично проблеме полных дублей. Можно воспользоваться атрибутом rel=canonical, мета-тегом «robots» или прописать запрет на индексацию дубля в файле robots.txt. Однако в последнем случае ссылка с оригинала будет передавать вес на страницу печати, что приведет к потере веса продвигаемой страницей. Чтобы этого избежать, ссылку «версия для печати» на странице-оригинале необходимо дополнительно закрыть тегом nofollow. В этом случае робот не будет пытаться переходить по данной ссылке и ошибок сканирования не возникнет.
Также можно создать версию страницы для печати через технологии JavaScript и CSS. Это позволит избежать проблемы с дублями и оптимизирует взаимодействие сайта со сканирующим роботом. Однако к этой работе потребуется привлечь веб-разработчика.
CMS и неосознанные дубли
Некоторые системы управления сайта (CMS) автоматически создают несколько дублей каждой страницы. Например, в WordPress дубли возникают из-за повторения контента в анонсах и на самих страницах. Другая популярная CMS – Joomla – также создает множество дублей из-за того, что одна и та же страница может быть получена множеством различных способов.
Самая распространенная ошибка – передача лишних параметров. Этим грешат более 90% движков. Например, исходная страница site.ru/index.php?id=602, и только она должна индексироваться. Из-за идентификатора сессий и особенностей формирования динамических страниц появляются дубли: site.ru/index.php? showid=602&fs=12&345?SessionID=98765432156789.
Другой случай – наличие главной страницы по разным адресам, например, http://site.ru/ и http://site.ru/index.php.
Часть дублей обычно закрывается от индексации средствами самой CMS, но оставшуюся часть придется дополнительно закрывать методами, описанными выше: настраивать robots.txt (директива сlean-param и/или запрет индексации дублей), работать с битыми ссылками, настраивать 301 редиректы.
Бывает, что проблемы с дублями начинаются при переносе сайта с одной CMS на другую. В этом случае старые параметры накладываются на страницы нового движка, что может вызвать образование большого количества дублей. Поэтому при переносе сайта первое время необходимо контролировать техническую сторону вопроса более тщательно.
Внутренние и внешние дубли
Дубли могут быть созданы не только автоматически, но и вручную вполне осознанно. Например, на сайте есть две страницы. Первая – главная, вторая — страница «О компании», которая совпадает с главной (в свое время некогда было написать текст на эту страницу).
Подобная ситуация может встретиться и с каталогом однотипной продукции. Самый верный способ — сделать все страницы на сайте уникальными, но если это невозможно, необходимо прибегнуть к ранее перечисленным советам.
За внутренние дубли санкции на сайт не накладываются, но могут возникнуть сложности в передаче веса. Если же у сайта есть внешние дубли (кто-то украл контент и разместил его на своем домене), то возможна пессимизация сайта со стороны поисковых систем.
К сожалению, бывают случаи, когда уникальную информацию с сайта растаскивают по сети, и сайт из-за этого не может занять высокие позиции.
Яндекс очень серьезно относится к использованию на сайте неуникальных текстов (раздел «Яндекс.Помощь», подраздел «Советы вебмастеру»):
«Мы стараемся не индексировать или не ранжировать высоко: сайты, копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента…».
Один из способов запретить копировать текст с вашего сайта – заменить тег body на страницах сайта на тег body onco py=«return false». Другой способ – использовать специальный java-скрипт, который запретит использование правой кнопки мыши на web-странице, затрудняя копирование текста и изображений. Однако через исходный код страницы произвести копирование текста будет возможно, но при этом сохранятся все ссылки.
Такая позиция оправдывается главным принципом поисковых систем – информация в выдаче должна быть релевантной, актуальной и качественной. Неуникальный контент нельзя назвать качественным, для поисковых систем это ведет к увеличению индексных баз и повышенной нагрузке на поисковые сервера.
Как защитить контент
Поисковым системам сложно установить первоисточник, но соответствующие исследования ведутся. Например, Яндекс предложил веб-мастерам защитить контент с помощью сообщения о размещенном на сайте материале через сервис «Оригинальные тексты» в панели Яндекс.Вебмастер. Таким образом, при краже контента Яндекс будет знать, кто правонарушитель, и сайт не будет понижен в выдаче.
Есть еще один вариант появления дублированного контента на сайте – когда вы сами как владелец сайта позаимствовали его на других ресурсах. Такие действия уменьшают доверие поисковых систем к сайту и приводят к сложностям в продвижении. Среди сайтов, участвующих в отборе в ТОП-10, даже малейший недочет может сыграть не в пользу вашего сайта. Первая десятка должна быть разнообразной и отвечающей полностью на запрос пользователя, поэтому сайтов с двумя одинаковыми текстами в ней быть не может. Уникальность контента – это одно из главных требований, предъявляемых к сайту. Уважайте авторские права других людей!
Вернуться назад: Внутренние корректировки страниц сайтаЧитать далее: Оптимизация текста