Дубли страниц - различные интернет-страницы конкретного ресурса с максимально схожим или полностью идентичным контентом. Бытует мнение, что дубликаты являются совершенно безобидными. Это относится лишь к пользователям, для которых присутствие таких страниц не играет особой роли. Но в отношении продвижения и ранжирования сайтов поисковиками они способны создать негативный эффект.
Отрицательные факторы влияния дублей:
- Индексация. Дублирующийся контент заставляет ботов поисковых систем терять драгоценный краулинговый бюджет на такие страницы. При этом действительно важная информация сайта может остаться без индексации.
- Понижение процента общей уникальности контента, размещенного на портале.
- Внешние ссылки продвигаемых интернет-страниц теряют вес. Это происходит, когда посетитель делится ссылкой на страницу-дубликат.
- Неуникальный контент. Поисковые системы могут применить санкции в отношении сайта из-за повторяющихся текстовых материалов.
- Возможность продвижения нерелевантной интернет-страницы. Поисковик способен отображать в результатах выдачи совершенно не ту страницу, которую оптимизатор пытается продвинуть.
Страничные дубли являются частичными, либо же полными. В полных дублях контент абсолютно идентичен, в частичных – контент похож. При этом более безопасными и безобидными считаются частичные дубли, ведь они не дают сайту сильно пострадать из-за своего присутствия. Хотя постепенное понижение в ранжировании все равно может происходить. Что касается полных дубликатов, то подобные страницы зачастую обнаруживаются в интернет-магазинах (карточки и описание товаров).
Почему же появляются дубли? Например, они в состоянии автоматически генерироваться движком сайта. Либо же речь может идти о корректировке структуры портала. В этом случае старые адреса не только сохраняются, но и дополнительно получают новые адреса.
Поиск страниц-дублей на сайте
Далее будут представлены самые эффективные способы поиска дублей интернет-страниц.
Сканирование ресурса благодаря специализированным приложениям
Выявлять дубликаты можно с помощью особых программ (например, Screaming Frog Seo Spider, NetPeak Spider), которые являются платными или бесплатными. Такие приложения умеют довольно быстро сканировать ресурс, чтобы найти дубли. В этих программах возможно осуществить выгрузку списка URL-адресов. Есть возможность отсортировать результаты по тегам Description и Title. Это позволяет оперативно находить повторяющийся текстовый контент.
Вебмастер Google или Yandex
Вот как происходит поиск дублей в соответствующей консоли Google:
- открываем панель инструментов;
- нажимаем на пункт "Вид в поиске";
- выбираем "Оптимизация HTML".
Теперь дубликаты можно увидеть в разделе "Повторяющиеся заголовки".
Ищем дубли страниц в Яндексе:
- находим пункт "Страницы в поиске", который располагается в сервисе Яндекс.Вебмастер;
- переходим в "Исключенные страницы";
- сейчас нам нужна "Сортировка: Дубль";
- не забываем применять действия;
- система осуществит выдачу повторяющихся страниц.
Если это необходимо, то всегда можно выгрузить готовый список для собственных нужд.
Ручной поиск
Профессиональный вебмастер способен отыскать дубли вручную. Как правило, для этих целей используется url-адрес ресурса. Он многократно вводится с помощью различных вариаций (например, добавляются какие-то знаки или символы).
Оператор "site:"
Открываем поисковую строку, чтобы ввести "site:site_name.ru". В выдаче появятся все страницы вашего ресурса, прошедшие индексацию. Такой метод дает возможность отыскать не только страницы-дубли, но и "мусорный" контент.
Удаляем дубли страниц
Нет желания постоянно заниматься выявлением дублей страниц, а также их закрытием от поисковиков? Тогда лучше раз и навсегда от них избавиться.
Файл .htaccess и 301 редирект
Если дубли появились абсолютно случайно (к примеру, был использован двойной пробел), то можно воспользоваться обычной настройкой 301 редиректа. Для этого нужно установить необходимое перенаправление при помощи файла .htaccess.
Запрет индексации страниц-дублей через robots.txt
Есть возможность закрыть некоторые интернет-страницы от роботов поисковых систем. В файле robots.txt прописываем:
User-agent: *
Disallow: /page-name
Такой способ будет максимально эффективен в отношении служебных страниц, повторяющих контент главной страницы площадки. Если же интернет-страница уже присутствует в индексе, тогда данный метод может не работать.
Указание канонической старницы
Мы можем задать каноническую страницу для последующего индексирования используя тег rel="canonical". При этом она будет открыта для просмотра. Это очень полезно для различных фильтров, а также страниц-сортировок. Нужно лишь указать соответствующий атрибут canonical в теге <link>. Причем делается это в коде HTML текущей интернет-страницы.
Мета-тег
Есть возможность насильно запретить роботам поисковиков индексировать определенные документы при помощи тега noindex. Благодаря этому специальные боты не будут переходить по ссылкам. Сам тег располагается в блоке <meta name="robots" content="noindex, nofollow> или <meta name="robots" content="noindex, follow>
Данный вариант очень часто применяется, когда речь заходит о вкладках с пользовательскими отзывами о том или ином товаре или услуге.
Когда повторяющийся контент будет удален (или скрыт), то рекомендуется осуществить повторную проверку ресурса. Причем делать это нужно регулярно, чтобы случайно не выпасть из рейтинга поисковых систем. Важно, чтобы количество страниц с дублирующимися материалами было сведено к минимуму, либо же вообще равнялось нулю.