robots.txt для Shop-Script

Как избежать индексации лишних страниц и снизить нагрузку на сервер со стороны поисковых роботов

Правила для файла robots.txt нужно вписывать в бекенде приложения «Сайт». Перейдите в раздел «Настройки» и найдите в нем поле «robots.txt».

Как отменить индексацию лишних страниц

Примеры директив составлены для витрины интернет-магазина в корне домена, например: mydomain.ru.

Если в адресе витрины вашего магазина есть название поддиректории (например, mydomain.ru/shop/), то имя поддиректории нужно подставить вместо символа косой черты («/») в начале правила.

Например, для витрины с адресом mydomain.ru/shop/ правило

Disallow: /tag/

примет вид

Disallow: /shop/tag/

Примеры

Disallow: /search/?query= Страница с результатами поиска товаров.
Disallow: /compare/ Страница с результатами сравнения товаров.
Disallow: /tag/ Страница с результатами поиска по тегам.
Disallow: *&sort=
Disallow: */?sort=
Страница с результатами сортировки товаров в категории.
Disallow: /cart/ Страница корзины покупателя.
Disallow: /order/ Страница оформления заказа в корзине.
Disallow: /checkout/ Страницы пошагового оформления заказа.
Disallow: /my/ Личный кабинет покупателя.
Disallow: /signup/ Страница регистрации покупателя.
Disallow: /login/ Страница входа в личный кабинет.
Disallow: /forgotpassword/ Страница напоминания пароля.
Disallow: /webasyst/

Страница для входа в бекенд Webasyst.


Как снизить нагрузку на сервер

Нагрузку на сервер от поисковых роботов можно уменьшить с помощью директивы Crawl-delay. Она добавляет паузу после между посещениями поискового робота. Размер паузы указывайте в секундах.

Пример

Crawl-delay: 10
Некоторые поисковые системы могут не учитывать этот параметр. Например, регулировать частоту индексации страниц сайта поисковыми роботами «Яндекса» и «Гугла» нужно в личном кабинете на сайтах сервисов «Яндекс.Вебмастер» и Google Search Console.

67 комментариев

  • 0
    Max Pain Max Pain 25 декабря 2013 09:50 #
    Я бы еще добавил:

    Disallow: *?page=1$

    Страницы /категория/ и /категория/?page=1 по сути дубли, а их поисковики не любят.
  • +2
    Роман Роман 19 июня 2014 04:44 #
    Господа! Не специалисту очень сложно разобраться во всех тонкостях директорий. На верху выложены только запретительные дирректории.
    Уважаемый Михаил Ушенин, или его коллеги, нельзя ли отобразить полный файл? Не думаю, что основные правила должны отличаться кроме персональных. Но правильный robots.txt - вещь наиважнейшая, и не хотелось бы в ней напортачить.
    Буду очень признателен!Заранее спасибо!
    • 0
      "Правильный" файл опубликовать нет возможности, т. к. он не для всех будет правильным. Поселения магазина ведь могут быть доступны не только в корне домена, но и по любому вложенному пути. Сравните:

      http://domain.ru/
      http://domain.ru/shop/

      Для каждого из этих случаев robots.txt будет разным, т. к. к адресам запрещаемых URL придётся добавить /shop (в данном случае). Именно об этом и говорится в подсказке под таблицей.
    • +1
      Disallow: /vkontakte/

      в том случае если у Вас есть витрина Вконтакте
    • +2

      Также добавить нужно Disallow: /*/reviews/

      иначе будут дубли метаописаний

      Если нужна помощь по оптимизации, составлению семантического ядра, продвижению в поисковых системах и социальных сетях пишите на почту seo.tube@ya.ru


    • +1
      Петр Петр 18 сентября 2016 14:45 #

      Добрый день. А как вообще в роботе запретить индексацию витрины?

    • +2
      Killav Killav 18 декабря 2016 02:29 #

      Доброго времени суток.

      Появились дубли страниц

      1/товар/

      2/товар/reviews/

      как убрать с индексации страницу Отзывы ?


    • +1
      Евгений Сергиенко Евгений Сергиенко 28 марта 2017 21:56 #

      Добрый вечер! а что означает: # wa shop *

    • +1

      Я правильно понимаю? Для интернет магазина директивы которые в таблице вверху статьи надо все вписать в окошко Сайт - настройка - robots.txt ?

      У меня сейчас там только:

      User-agent: *

      Disallow: /my/

      Disallow: /checkout/

      Disallow: /mailer/unsubscribe/

    • +1
      kaktus kaktus 23 июля 2017 20:49 #

      добрый день, как запретить индексацию продуктов на главной shop-opt.com.ua? мне для поиска по по сайту надо отрыть доступ всем подоменам для главной. но нельзя что бы он попали в индекс. это будут дубли

      • +1
        Максим Максим Webasyst 25 июля 2017 10:50 #

        Попробуйте в robots добавить строку:

        Disallow: /$
        
        • +1
          kaktus kaktus 26 июля 2017 20:57 #

          Спасибо.

          гляньте пожалуйста на мой

          может чет не так прописано?

          User-agent: *

          # wa shop *

          Host: https://shop-opt.com.ua

          Disallow: /checkout/

          Disallow: /compare/

          Disallow: /search/

          Disallow: /mobile/

          Disallow: *&sort=

          Disallow: */?sort=

          Disallow: */?PHPSESSID=

          Disallow: *?page=

          Disallow: */?fp=

          Disallow: /cart/

          Disallow: /login/

          Disallow: /signup/

          Disallow: /forgotpassword/

          Disallow: /tag/

          Disallow: /my/

          Disallow: /m/

          Disallow: /*reviews

          Disallow: /reviews/

          Disallow: /*/?page=*

          Disallow: /$

        • +1
          kaktus kaktus 8 августа 2017 11:08 #

          Добрый день.. нет, все продукты влезли индекс... не помогает Disallow: /$

          больше нет вариантов?

        • +1
          Григорий Наумов Григорий Наумов 12 февраля 2018 11:57 #

          Не подскажите код для того чтобы 404 ошибки не считывались:?

        • +1
          Den Den Партнер-разработчик 31 октября 2018 19:23 #

          Объясните пожалуста как работает поле robots.txt в настройках сайта.

          У меня есть файл robots.txt, который лежит в корне установки вебасиста. В настройках сайта около данного поля есть сообщение:

          Файл robots.txt обнаружен в каталоге установки Webasyst. Правила для файла robots.txt, сохраненные на этой странице, не будут применены.

          Что нужно сделать чтобы правила для robots.txt брались из этого поля? Удаление файла приводит к 404 по запросу данного файла.

          Как это должно работать и в чем может быть проблема?

        • +1
          tesh_alekc@mail.ru tesh_alekc@mail.ru 18 декабря 2018 18:53 #

          Здравствуйте кто может помочь поставил плагин My Lang

          Куча ссылок с перенаправлением, лезет из за того, что к ссылкам добавляются параметры locale=ru_RU

          Как их закрыть?


        • +1
          Дима Дима 10 марта 2019 12:21 #

          Добрый день!

          Подскажите как в файле robots.txt закрыть от индексации эти страницы (Блог)

          https://areon-ua.com/blog/?page=8
          https://areon-ua.com/blog/?page=3
          https://areon-ua.com/blog/?page=4

          • +1
            Михаил Ушенин Михаил Ушенин Webasyst 11 марта 2019 10:56 #

            Ваш вопрос не имеет прямого отношения к теме статьи. Задайте его в отдельной теме на форуме поддержки, пожалуйста, или поищите ответ на него с помощью функции поиска.

            • +2
              Дима Дима 11 марта 2019 15:59 #

              Меня поддержка Webasyst отправила сюда за помощью.

              Здесь описываются правила для robots.txt я хотел узнать каким правилом можно закрыть от индексации страницы блога blog/?page=8

              Спасибо!

            • +1
              kramnica.com.ua kramnica.com.ua 26 апреля 2019 11:04 #

              Добрый день!

              У нас на сайте запрещены для индексации все страницы с Get-параметрами:

              Disallow: *?

              Этим мы исключили из индексации страницы поиска (/search/?query=), страницы с результатами сортировки (*/?sort=).

              Могли ли мы этой инструкцией исключить из индексации, страницы которые необходимо индексировать?

            • +1
              Cheshir Cheshir 13 июня 2019 14:52 #

              1. Если в качестве шаблона построения url используется Смешанный тип, т.е. ссылка на товар выглядит так - хттп://домен.ру/название продукта, будет работать для товаров запрет на индексацию, если для категории в которой они находятся установлен Disallow? (Есть категория Отстойник, товары из которой нельзя индексировать).

              2. Надо ли запрещать индексировать категории (продает лист), оставляя для индексации только карточки товаров?

              • +1
                1. Нет, потому что в URL товаров при смешанном типе URL нет фрагментов адресов категорий.
                2. Это зависит только от ваших потребностей. Что означают ваши слова «продает лист»?
                • +1
                  Cheshir Cheshir 13 июня 2019 15:15 #

                  Продакт лист, список товаров, прошу прощения - авто-замена сработала.

                  Как же быть со Смешанным типом? И если использовать Естественный тип, то как быть с дублированием в разные категории (если есть необходимость размещать товар в разные категории)?

                • +2

                  при использовании комбинации фильтров получаются такие страницы, их бесконечное множество, Яндекс их конечно же индексирует, как их убрать из индекса? 

                  /teploizolyatsiya/mineralnaya-teploizolyatsiya/?proizvoditel%5B%5D=670&proizvoditel%5B%5D=671

                  /teploizolyatsiya/mineralnaya-teploizolyatsiya/?marka%5B%5D=673&tolshchina_uteplitel%5B%5D=231

                • +1
                  Бизнес профи Бизнес профи 21 апреля 2020 07:57 #

                  Михаил подскажите 

                  а как лучше 

                  Disallow: *?
                  Disallow: */?

                  оба верные ведь ?

                • +1
                  Бизнес профи Бизнес профи 21 апреля 2020 10:02 #

                  читал про рекомендации блокировать в роботс  ботов от популярных сервисов, не раз слышал что они дают нагрузку, да и ходят часто. 

                  Как считаете есть смысл ? 

                  User-agent: MJ12bot
                  Disallow: /
                  User-agent: MegaIndex.ru/2.0
                  User-agent: MegaIndex.ru
                  User-agent: megaIndex.ru
                  Disallow: /
                  User-agent: bingbot
                  Disallow: /
                  User-agent: AhrefsBot
                  Disallow: /
                  User-agent: SemrushBot
                  Disallow: /
                  User-agent: BingBot
                  Disallow: /
                  User-agent: DotBot
                  Disallow: /
                  User-agent: Yahoo Slurp
                  User-agent: Slurp
                  User-agent: SEOkicks Webcrawler
                  User-agent: Alexa (IA Archiver)
                  User-agent: Common Crawl
                  Disallow: /

                  • +1
                    Михаил Ушенин Михаил Ушенин Webasyst 21 апреля 2020 17:11 #

                    Ваш вопрос не имеет прямого отношения к теме статьи. Задайте его в отдельной теме на форуме поддержки, пожалуйста, или поищите ответ на него с помощью функции поиска. Если вам потребуется квалифицированная помощь специалиста по этому вопросу, обратитесь к нашим партнёрам, пожалуйста.

                  • +1

                    Смысла в этом особо нет, т.к. большинство "вредных" ботов не будут учитывать ваши правила запрета robots.txt. Эффективнее бороться с ними нужно не на уровне файла "robots.txt", а блокировать их по IP, по поведению или по иным признакам (количество и частота запросов, итп). А вот как именно это делается - это уже действительно не относится к статье.

                    P.S. bingbot - бот поисковой системы Bing. Его закрывать от индексации не стоит, несмотря на то что на данный момент в РФ трафика данная поисковая система особо не дает.

                  • +3

                    Универсальный robots.txt для магазинов на Shop Script резместил в своем блоге - https://chikurov-seo.ru/blog/pravilnaya-nastroyka-indeksirovaniya-stranits-dlya-internet-magazinov-na-shop-script/. Сюда копировать не буду, т.к.:

                    1) > 150 строчек кода.

                    2) будет регулярно дорабатываться, копировать сюда каждый раз лень.

                    Кому надо - заходите, копируйте, юзайте. Если у вас есть специфические индексирующиеся страницы - пишите на почту anatoly@chikurov-seo.ru - доработаю файл.

                    • +1
                      Дмитрий Дмитрий 2 августа 2020 19:26 #

                      Спасибо большое, Анатолий !

                    • +2
                      Anton Anton 26 ноября 2020 21:03 #

                      Использовал ваш роботс. В гугл рекламе повылетали все товары, ругается на неправильный роботс. Что-то для гугла не то

                      • +1
                        Михаил Ушенин Михаил Ушенин Webasyst 27 ноября 2020 09:10 #

                        Напишите нам в службу поддержки подробно обо всех обнаруженных ошибках, пожалуйста. Предложим вам решение или передадим информацию администрации для обновления справочной статьи.

                      • +2

                        если речь о моем robots.txt, то эта недоработка поправлена. Актуальный универсальный robots.txt и инструкция по внедрению расположены по адресу: https://chikurov-seo.ru/blog/u...

                        • +1
                          Alex Alex 27 марта 2021 16:42 #

                          В статье вы пишите - "Crawl-delay - используется для установки задержки между запросами от бота на страницы сайта. Всё что вам нужно запомнить об этой директиве - то что еще с 2018 года Crawl-delay уже не поддерживается ни Google ни Yandex."

                          Но тем не менее в вашем предлагаемом файле robots.txt данный параметр имеется. Так стоит его вносить в файл или нет?

                        • +1
                          Alex Alex 27 марта 2021 18:40 #

                          В файле robots.txt для региональных поддоменов у вас значится параметр - 

                          1. User-agent: *
                          2. Disallow: /

                          Для чего вы запрещаете индексацию поддоменов, кроме робота Яндекса? Ведь поддомены наоборот делаются для их индексации и выхода на регионы..

                          • +1

                            Поддомены в гугл работают плохо. Боты создают высокую нагрузку на сервер, а трафик потом идет мизерный. Не окупается. Для регионального продвижения в Гугл лучше создавать папки (не spb.site.ru, а site.ru/spb/). Можно экспериментировать и создавать одновременно и папки и поддомены - первые для Гугла, вторые для Яндекса. Запустил по такой схеме несколько проектов, схема работает неплохо.

                          • +1
                            Andrey Grachev Andrey Grachev 3 марта 2021 17:54 #

                            Добрый день!

                            Изменяем файл Robots.txt (находится естественно в корне) но по адресу https://x3mshop.ru/robots.txt никаких изменения не происходит

                            Настройка в Robots в бэкэнде пустая.

                            Кэш чистил везде, ну почти везде.

                            Кто с этим сталкивался? Как решить? Что удалить? Что почистить?

                            Аналогичная проблема на сайте https://starfitshop.ru/robots....

                          • +1
                            Светлана Светлана 5 мая 2021 16:32 #

                            А что значит User-agent? У Вас он только один и в виде звездочки, а в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress их куча и всяких разных. Многие говорят что надо закрывать картинки от индексации от основных роботов и открывать для роботов, которые индексирую изображения для поиска по изображениям. Я реально запуталась....

                            • +1

                              В статье показан пример формирования содержимого robots.txt. Чтобы получить дополнительную информацию о том, как нужно сформировать это содержимое именно для вашего сайта, обратитесь к специальной литературе или к специалистам в этой области, например, к партнёрам Webasyst.

                              Добавить комментарий

                              Чтобы добавить комментарий, зарегистрируйтесь или войдите