15 ответов

  • 0
    replicant 14 февраля 2019 14:20 #

    Обычно хватает вот этого

    User-agent: *
    Disallow: /my/
    Disallow: /checkout/
    Host: ваш_сайт
    Sitemap: ваш_сайт/sitemap.xml

    Иногда можно по желанию добавить ещё примерно такие строки

    Disallow: /compare/*
    Disallow: *&sort=*
    Disallow: */?sort=*
    Disallow: /search/?page=*
    Disallow: /search/&query=*
    

    Хотя в сортировках и фильтрах должен работать canonical, поэтому особо можно и не напрягаться с их блокировкой в robots. Разрешать к индексации результаты сравнения и поиска или нет тоже дело личное.

  • 1
    Евгений Химич 15 февраля 2019 20:02 #

    Мой robots.txt

    Disallow: /my/
    Disallow: /checkout/
    Disallow: /cart/
    Disallow: /signup/
    Disallow: /login/
    Disallow: /forgotpassword/
    Disallow: /compare/
    Disallow: /search/*
    Disallow: /search/?query=
    Disallow: /search/?page=*
    Disallow: /search/&query=*
    Disallow: /*/reviews/
    Disallow: /*/?showall=yes
    Disallow: /*sort=
    Disallow: *&sort=
    Disallow: */?sort=
    Disallow: /*nomobile=*
    Disallow: /*utm_source=*
    Disallow: /*?set_region=*
    Disallow: /*cID=
    
    Host: https://name.ru/
    Sitemap: https://name.ru/sitemap.xml
    Sitemap: https://name.ru/filter-sitemap.xml
    Sitemap: https://name.ru/sitemap-shop.xml
    Sitemap: https://name.ru/sitemap-blog.xml

  • 3
    replicant 15 февраля 2019 20:22 #

    При таком раскладе достаточно одной первой строки ;-)

    Disallow: /search/*
    Disallow: /search/?query=
    Disallow: /search/?page=*
    Disallow: /search/&query=*

  • 1
    TopEssay Services 21 февраля 2019 16:13 #

    И не забудьте прописать несколько

    User-agent:
    Для Гугл и Яндекс
    
    -----------------------------------
    expert editing review
  • 1

    Универсальный robots.txt для shop script и инструкция по внедрению:

    https://chikurov-seo.ru/blog/u...

    • +3

      Там куча дублирующихся строк.
      Логика работы первой и второй строки не отличается, достаточно только второй.

      Disallow: /vk/
      Disallow: */vk/
      Disallow: /xml/
      Disallow: */xml/
      Disallow: /yml/
      Disallow: */yml/
      Disallow: /turbo/
      Disallow: */turbo/
      Disallow: /logs/
      Disallow: */logs/

      В итоге тот роботс можно очень сильно сократить без потери директив.

  • 3

    Директива Host: применялась только для Яндекса, а не для User-agent: *
    Но, это было раньше. Яндекс уже давно тоже отказался от ее поддержки и смотрит только на редирект. В общем - Host: не нужна уже никому.
    Чтобы долго не спорить по этому вопросу, вот пруф - https://webmaster.yandex.ru/bl...

    В
    ообще, самый минимум того, что нужно, описан тут https://support.webasyst.ru/sh...

    • +2

      Вот вы пишите про устаревшую директиву Host, при этом ссылаетесь на свою статью, а в ней используете другую устаревшую директиву Crawl-delay. Боты гугла и яндекса я тоже давно не используют. Пруфы загуглите самостоятельно.

      • +2

        Вы тут сильно путаете теплое с мягким.
        1. Я да, пишу про Хост, причем тут другие директивы? Я про них ничего не говорил.

        2. 

        при этом ссылаетесь на свою статью

        Я ссылаюсь на статью из Вебасистовской справки. К Вебасисту имею примерно такое же отношение как и Вы, может даже немного меньшее.
        3. Crawl-delay всегда считал вредной директивой. 

  • 1
    replicant 13 января 2021 12:42 #

    Посмотрел предложенный robots.txt и что-то показалось мне в нём очень подозрительным.

    Затем взял только самое подозрительное и прогнал на Вебмастере Яндекса на очистку параметров. Можно было бы взять файл целиком, но дебажить сложнее будет, а в указанном куске кода всё что нужно есть и последовательность строк сохранена.

    User-agent: Yandex
    Disallow: *?
    Allow: *.*?
    Allow: *?page=
    Disallow: *?page=*&
    Clean-param: sort&order

    Проверил пару URL (скриншот слегка подпилил, чтобы был компактнее)




    Потом проверил свой robots.txt на тех же самых адресах



    Весь смысл Clean-param в предложенном универсальном robots.txt потерян. Либо Clean-param надо выпилить из файла вообще, либо применять без ошибок.
    • +1

      Можно было бы взять файл целиком, но дебажить сложнее будет, а в указанном куске кода всё что нужно есть и последовательность строк сохранена.

      возможно, вы не в курсе, но последовательность строк в robots.txt вообще не имеет значения. Приоритетность задается длиной правил.



      Либо Clean-param надо выпилить из файла вообще, либо применять без ошибок.

      Что значит "применять clean-param без ошибок"? Ну да, в моем robots.txt условная страница site.ru/category/?nomobile=1 закрыта одновременно через Disallow и Clean-param. Ну и чё? Какой такой "смысл" потерян?

Добавить ответ

Чтобы добавить комментарий, зарегистрируйтесь или войдите