Плодятся страницы с GET-параметрами
Здравствуйте! Возникли проблемы со страницами, которые генерирует фильтр. В url содержится сначала числовые значения (13 цифр), а потом остальная часть запроса, в основном характеристики товаров. Предлагаю несколько примеров таких url:
/category/smartfony/?_=1604937377079&page=2
/category/smartfony/?_=1607230243193&operatsionnaya_sistema%5B%5D=723
/category/aksesuary/?_=1584895299946
/category/aksesuary/?_=1606778160762&page=2
/category/smartfony/?_=1593747649707&price_max=16790
Возникло два вопроса: 1) Что является источником этих url?
2)Как решить данную проблему?
Заранее благодарю участвующих!
6 ответов
Скорее всего фильтр и является источником, а параметр с цифрами скорее всего для обхода кеширования. Проблемы не вижу, максимум можете запретить ненужные параметры в robots
Проблему можно решить с помощью закрытия страниц от индексации в robots.txt и/или с помощью плагинов (SEO Meta Robots - чтобы закрыть, SEO Link Canonical - чтобы передать вес с уже проиндексированных страниц).
В идеале:
1) сначала закрыть страницы от индексации внедрением метатега robots и link canonical
2) дождаться переиндексации всех страниц
3) затем закрыть их в robots.txt. Я вообще предпочитаю закрывать все страницы с get-параметрами, делая исключение только для "?page=". Универсальный robots.txt, разработанный мной, можно подглядеть здесь.
Проблема с индексацией данных страниц, кстати говоря, часто возникает даже при наличии плагина "Link Canonical" от Bodysite - т.к. он не внедряет тег на страницы с get-параметром "?_=" из-за особенностей их определения в Webasyst. Я этот момент в своем плагине учел, Bodysite - нет.
Да и вообще в последнее время на "Canonical" нужно перестать надеяться - Яндекс активно его игнорирует когда принимает решение "индексировать или не индексировать". Так что обязательно закрывайте весь хлам в robots.txt.
Мы так и хотели это сделать, но "отловить" эти url не получается, поэтому мы пытаемся понять где генерится эта фигня. Но все равно, большое Вам спасибо за эту информацию!
На мой взгляд, не столь важно как именно роботы находят эти страницы. Сейчас ПСы собирают страницы не только по ссылкам, но и по посещениям страницы. Любой желающий может создать мини-бота, который будет гулять по вашему сайту по любым страницам с любыми get-параметрами, и Яндекс через Яндекс.Метрику "обнаружит" эти страницы и проиндексирует их, если не увидит на это явного запрета.
Проще закрыть все страницы с get-параметрами и забыть о проблемах. Главное чтобы на сайте не было ссылок на неправильные страницы, но в случае с "/category/aksesuary/?_=1584895299946" - сомневаюсь, что в вашей теме дизайна косяк и ссылки такого рода появляются в исходном коде страниц.
Мы закрыли их сейчас в robots, а попавшее в поиск удаляем из webmaster, но оказалось, что Google плевал на все robots и требует либо no-index, либо удаления. По этой причине данная проблема у тех, кто столкнется с подобным, будет актуальной, пока не удастся устранить эти страницы совсем.
Проблему решить удалось?