Плодятся страницы с GET-параметрами

Здравствуйте! Возникли проблемы со страницами, которые генерирует фильтр. В url содержится сначала числовые значения (13 цифр), а потом остальная часть запроса, в основном характеристики товаров. Предлагаю несколько примеров таких url:

/category/smartfony/?_=1604937377079&page=2

/category/smartfony/?_=1607230243193&operatsionnaya_sistema%5B%5D=723

/category/aksesuary/?_=1584895299946

/category/aksesuary/?_=1606778160762&page=2

/category/smartfony/?_=1593747649707&price_max=16790

Возникло два вопроса: 1) Что является источником этих url?

2)Как решить данную проблему? 

Заранее благодарю участвующих!

6 ответов

  • 1

    Скорее всего фильтр и является источником, а параметр с цифрами скорее всего для обхода кеширования. Проблемы не вижу, максимум можете запретить ненужные параметры в robots

  • 1

    Проблему можно решить с помощью закрытия страниц от индексации в robots.txt и/или с помощью плагинов (SEO Meta Robots - чтобы закрыть, SEO Link Canonical - чтобы передать вес с уже проиндексированных страниц).

    В идеале:

    1) сначала закрыть страницы от индексации внедрением метатега robots и link canonical

    2) дождаться переиндексации всех страниц

    3) затем закрыть их в robots.txt. Я вообще предпочитаю закрывать все страницы с get-параметрами, делая исключение только для "?page=". Универсальный robots.txt, разработанный мной, можно подглядеть здесь.

    Проблема с индексацией данных страниц, кстати говоря, часто возникает даже при наличии плагина "Link Canonical" от Bodysite - т.к. он не внедряет тег на страницы с get-параметром "?_=" из-за особенностей их определения в Webasyst. Я этот момент в своем плагине учел, Bodysite - нет.

    Да и вообще в последнее время на "Canonical" нужно перестать надеяться - Яндекс активно его игнорирует когда принимает решение "индексировать или не индексировать". Так что обязательно закрывайте весь хлам в robots.txt.

    • +1
      Виктор Второв Виктор Второв 9 декабря 2020 16:46 #

      Мы так и хотели это сделать, но "отловить" эти url не получается, поэтому мы пытаемся понять где генерится эта фигня. Но все равно, большое Вам спасибо за эту информацию!

      • +1

        На мой взгляд, не столь важно как именно роботы находят эти страницы. Сейчас ПСы собирают страницы не только по ссылкам, но и по посещениям страницы. Любой желающий может создать мини-бота, который будет гулять по вашему сайту по любым страницам с любыми get-параметрами, и Яндекс через Яндекс.Метрику "обнаружит" эти страницы и проиндексирует их, если не увидит на это явного запрета.

        Проще закрыть все страницы с get-параметрами и забыть о проблемах. Главное чтобы на сайте не было ссылок на неправильные страницы, но в случае с "/category/aksesuary/?_=1584895299946" - сомневаюсь, что в вашей теме дизайна косяк и ссылки такого рода появляются в исходном коде страниц.

        • +1
          Виктор Второв Виктор Второв 15 декабря 2020 10:09 #

          Мы закрыли их сейчас в robots, а попавшее в поиск удаляем из webmaster, но оказалось, что Google плевал на все robots и требует либо no-index, либо удаления. По этой причине данная проблема у тех, кто столкнется с подобным, будет актуальной, пока не удастся устранить эти страницы совсем.

  • 1
    Виталий Поник 13 октября 2021 17:01 #

    Проблему решить удалось?

Добавить ответ

Чтобы добавить комментарий, зарегистрируйтесь или войдите