Управление индексацией сайта

В данном документе описан наш подход к управлени индексацией страниц сайта. Этот подход, выраженный в совокупности разных настроек, являются результатом внедрения известных нам рекомендаций поисковых систем и сео-специалистов, а так же результатом практических наблюдений за индексацией запущенных сайтов. Мы продолжаем принимать и внедрять новые аругментированные рекомендации.

Для управления индексацией сайта и борьбы с дублями контента мы используем комбинацию нескольких инструментов: 

  1. Запрет индексации в файле robots.txt – используется для того чтобы снизить нагрузку на сервер, которая возникает при индексации большого количества страниц фильтрации.
  2. Запрет индексации с помощью тега robots для того, чтобы гарантировано исключить индексацию ненужных страниц и попадание их во второстепенный индекс.
  3. Указание канонических страниц (rel canonical) для того, чтобы связать одинаковые страницы в одну, для тех страниц, которые все-таки необходимо индексировать.

Далее детально опишем настройки индексации каждого типа страниц.


Страницы категорий

Страницы категорий являются основными посадочными страницами для продвижения, поэтому они всегда по-умолчанию открыты для индексации. Но для частных случаев предусмотрена возможность их закрытия для индексации. Как это реализовывается:

  • Страницы категорий не закрыты для индексации в robots.txt
  • По-умолчанию на страницах категорий отсутствует тег robots и таким образом, они открыты для индексации
  • При необходимости, можно управлять содержанием тега robots для каждой страницы категории. В свойствах страницы есть возможность включить значения nofollow и/или noindex. При включении этих значений, они так же будут проставлены для всех товаров, для которых данная категория является родительской. Но эта настройка не повлияет на дочерние категории и их товары.
  • Ссылки на эти страницы присутствуют в файле sitemap.xml (если для страницы не включена настройка "не показывать в карте сайта")


Страницы фильтров

Все страницы фильтров по-умолчанию закрыты для индексации. Так как комбинаций фильтров очень большое количество и содержание страниц выводится динамически, то даже обращения к этим страницам от нескольких поисковых систем одновременно может создать заметную нагрузку на сервер. Закрытие реализовано следующим образом:

  • В robots.txt закрыты от индексации все комбинации фильтров в которых присутвует более трех фильтров одновременно
  • На всех страницах фильтров по-умолчанию присутствует теги robots со значениями noindex, follow и canonical со ссылкой на страницу категории без фильтра


Индексируемые фильтры

Так же есть возможность открыть некоторые фильтры или их комбинации (до двух фильтров одновременно) для индексации с помощью функции "Индексируемые фильтры". При настройке индексируемых фильтров есть возможность указать категорию для которой они будут открыты (можно указать для корня каталога) и выбрать 1 или 2 свойства, фильтры по которым будут открыты для индексации. Если указано два свойства, то открыты будут страницы с фильтрами по каждому из этих свойств по отдельности и по комбинации этих двух свойств. Но фильтры по двум значениям для одного свойства всегда закрыты для индексации.

Для открытия индексации страниц устанавливаются такие настройки:

  • Они изначально не закрыты от индексации в robots.txt
  • На этих страницах присутствует тег robots со значениями index, follow и canonical со ссылкой на страницу индексируемого фильтра


Страницы сортировки, отображения

Страницы сортировки (содержат в урле filter/sort_) и разного формата отображения товаров (содержат в урле view_type=) являются однозначными дублями, поэтому они по-умолчанию закрыты для индексации всеми возможными средствами без возможности открыть их для индексации.

  • Страницы сортировки/отображения закрыты в robots.txt
  • По-умолчанию на этих страницах установлен тег <meta name="robots" content="noindex, follow"> который запрещает индексацию, но разрешает дальнейшее следование по ссылками.
  • На этих страницах установлен тег canonical который ведет на аналогичную страницу без указания сортировки или формата отображения
  • Эти страницы не входят в sitemap.xml


Страницы пагинации

Страницы пагинации содержат уникальный контент (разные товары) поэтому все должны быть проиндексированы. 

  • Страницы пагинации не закрыты для индексации в robots.txt ни с помощью тега robots.
  • Для того чтобы объеденить все страницы в одну, согласно рекомендаций Google, мы используем теги <rel="next"> и <rel="prev">
  • Для всех страниц пагинации Не используем тег canonical со ссылкой на первую страницу пагинации
  • Для всех страниц пагинации установлен тег canonical со ссылкой на собственную страницу пагинации
  • Только для страницы page=all установлен тег canonical со ссылкой на первую страницу пагинации, так как на ней отсутствуют теги <rel="next"> и <rel="prev">
  • Страницы пагинации не входят в sitemap.xml

Так же доступны две альтернативных настройки для страниц пагинации, которые противоречат требованиям google но встречаются в рекомендациях некоторых seо-компаний. Эти опции выключены по-умолчанию. Но могут быть включены в админ панели сайта. Вкладка Seo - Дополнительные настройки.

  • Установить тег canonical со ссылкой на первую страницу пагинации
  • На всех страницах пагинации кроме первой установить тег robots со значениями noindex, follow


Страницы брендов

Страницы брендов инексируются по логике аналогичной индексации страниц категорий.

  • Корневые урлы страниц брендов не закрыты в robots.txt
  • Страницы фильтров более двух уровней, сортировки и смены отображения закрыты от индексации в robots.txt
  • Страницы сортировки и смены отображения закрыты с помощью тега robots со значениями noindex, follow
  • Страницы пагинации открыты для индексации по той же логике что и страницы пагинации в категориях

Модификации товаров

  • Каждая модификация товара имеет собственный url.
  • При этом на всех этих страницах присутствует ссылка на каноническую страницу основной модификации. 
  • Страницы товаров не закрыты для индексации в robots.txt
  • Могут быть закрыты для индексации с помощью тега robots, при условии если закрыта их родительская категория.


Пресеты фильтров

Страницы с пресетами фильтров создаются специально для продвижения и поэтому они по-умолчанию открыты для индексации, без возможности закрыть их индексацию.

  • В robots.txt отсутствует запрет на индексацию пресетов-фильтров
  • На страницах пресетов отсутствует теги robots
  • На страницах пресетов установлен тег canonical, который ведет на аналогичную страницу пресета
  • Ссылки на страницы пресетов находятся в фильтрах и в файле sitemap.xml


Личный кабинет, заказ

Страницы оформления заказа и личного кабинета закрыты для индексации в robots.txt и с помощью тега robots со значениями noindex, follow.


Текстовые страницы, новостные страницы

  • Не закрыты для индексации в robots.txt
  • По-умолчанию на них не располагается тег robots
  • В свойствах каждой страницы настраивется значения тега robots, что позволяет точечно выключать страницы из индексации
  • Страницы со значением noindex не включаются в sitemap.xml


Сравнение товаров

Отображение таблицы сравнения товаров осуществляется на страницах каталога, без генерации отдельных страниц с выделенными урлами. Поэтому страницы сравнения товаров отсутствуют как таковые и не индексируются.


Языковые версии

По-умолчанию открыты для индексации все языковые версии, открытые для пользователей. При необходимости можно закрыть отдельно каждую языковую версию для индексации.

  • Языковые версии не закрыты для индексации в robots.txt
  • Ссылки на альтернативные переводы находятся в блоке head каждой страницы и в sitemap.xml

У языковых версий присутствует свойство "Закрыть для индексации". Если оно включено то вступают в силу такие настройки:

  • Для всех страниц этой языковой версии устанавливается тег robots со значениями noindex, nofollow
  • Ссылки в блоке head и в sitemap.xml не размещаются
  • В шапке ссылка на закрытую от индексации языковую версию помечается отрибутом rel=nofollow


Результаты поиска

На всех страницах с результатами поиска по-умолчанию установлен тег robots со значениями noindex, follow.