Правила для файла robots.txt нужно вписывать в бекенде приложения «Сайт». Перейдите в раздел «Настройки» и найдите в нем поле «robots.txt».
Как отменить индексацию лишних страниц
Примеры директив составлены для витрины интернет-магазина в корне домена, например: mydomain.ru.
Если в адресе витрины вашего магазина есть название поддиректории (например, mydomain.ru/shop/), то имя поддиректории нужно подставить вместо символа косой черты («/») в начале правила.
Например, для витрины с адресом mydomain.ru/shop/ правило
Disallow: /tag/
примет вид
Disallow: /shop/tag/
Примеры
Disallow: /search/?query= | Страница с результатами поиска товаров. |
Disallow: /compare/ | Страница с результатами сравнения товаров. |
Disallow: /tag/ | Страница с результатами поиска по тегам. |
Disallow: *&sort= Disallow: */?sort= |
Страница с результатами сортировки товаров в категории. |
Disallow: /cart/ | Страница корзины покупателя. |
Disallow: /order/ | Страница оформления заказа в корзине. |
Disallow: /checkout/ | Страницы пошагового оформления заказа. |
Disallow: /my/ | Личный кабинет покупателя. |
Disallow: /signup/ | Страница регистрации покупателя. |
Disallow: /login/ | Страница входа в личный кабинет. |
Disallow: /forgotpassword/ | Страница напоминания пароля. |
Disallow: /webasyst/ |
Страница для входа в бекенд Webasyst. |
Как снизить нагрузку на сервер
Нагрузку на сервер от поисковых роботов можно уменьшить с помощью директивы Crawl-delay. Она добавляет паузу после между посещениями поискового робота. Размер паузы указывайте в секундах.
Пример
Crawl-delay: 10
Некоторые поисковые системы могут не учитывать этот параметр. Например, регулировать частоту индексации страниц сайта поисковыми роботами «Яндекса» и «Гугла» нужно в личном кабинете на сайтах сервисов «Яндекс.Вебмастер» и Google Search Console.
67 комментариев
Disallow: *?page=1$
Страницы /категория/ и /категория/?page=1 по сути дубли, а их поисковики не любят.
Запрет на индексацию дублей Disallow: *?page=*
*?page=*
этим вы исключите все страницы категории, кроме первой.
Уважаемый Михаил Ушенин, или его коллеги, нельзя ли отобразить полный файл? Не думаю, что основные правила должны отличаться кроме персональных. Но правильный robots.txt - вещь наиважнейшая, и не хотелось бы в ней напортачить.
Буду очень признателен!Заранее спасибо!
http://domain.ru/
http://domain.ru/shop/
Для каждого из этих случаев robots.txt будет разным, т. к. к адресам запрещаемых URL придётся добавить /shop (в данном случае). Именно об этом и говорится в подсказке под таблицей.
в том случае если у Вас есть витрина Вконтакте
Также добавить нужно Disallow: /*/reviews/
иначе будут дубли метаописаний
Если нужна помощь по оптимизации, составлению семантического ядра, продвижению в поисковых системах и социальных сетях пишите на почту seo.tube@ya.ru
Disallow: /*/reviews/
или все-таки:
Disallow: */reviews/
?
Disallow: /*/reviews/
Проверил в google
Добрый день. А как вообще в роботе запретить индексацию витрины?
Первая ссылка в поиске:
Запретить весь сайт для индексации всеми роботами
Доброго времени суток.
Появились дубли страниц
1/товар/
2/товар/reviews/
как убрать с индексации страницу Отзывы ?
С помощью правила
Добрый вечер! а что означает: # wa shop *
Это комментарий-подсказка, указывающий на то, к какому поселению сайта относятся приведённые ниже правила.
Михаил, а он обязателен в файле или можно прописывать правила без него?
Комментарии всегда необязательны — они только для удобства чтения файла. Их можно удалить.
Я правильно понимаю? Для интернет магазина директивы которые в таблице вверху статьи надо все вписать в окошко Сайт - настройка - robots.txt ?
У меня сейчас там только:
User-agent: *
Disallow: /my/
Disallow: /checkout/
Disallow: /mailer/unsubscribe/
Да, правильно.
добрый день, как запретить индексацию продуктов на главной shop-opt.com.ua? мне для поиска по по сайту надо отрыть доступ всем подоменам для главной. но нельзя что бы он попали в индекс. это будут дубли
Попробуйте в robots добавить строку:
Спасибо.
гляньте пожалуйста на мой
может чет не так прописано?
User-agent: *
# wa shop *
Host: https://shop-opt.com.ua
Disallow: /checkout/
Disallow: /compare/
Disallow: /search/
Disallow: /mobile/
Disallow: *&sort=
Disallow: */?sort=
Disallow: */?PHPSESSID=
Disallow: *?page=
Disallow: */?fp=
Disallow: /cart/
Disallow: /login/
Disallow: /signup/
Disallow: /forgotpassword/
Disallow: /tag/
Disallow: /my/
Disallow: /m/
Disallow: /*reviews
Disallow: /reviews/
Disallow: /*/?page=*
Disallow: /$
Добрый день.. нет, все продукты влезли индекс... не помогает Disallow: /$
больше нет вариантов?
Для того чтобы получить больше комментариев от других пользователей, задайте свой вопрос в общем хабе вопросов, пожалуйста.
Не подскажите код для того чтобы 404 ошибки не считывались:?
Не считывались чем? Что должно происходить при возникновении ошибки 404?
Объясните пожалуста как работает поле robots.txt в настройках сайта.
У меня есть файл robots.txt, который лежит в корне установки вебасиста. В настройках сайта около данного поля есть сообщение:
Файл robots.txt обнаружен в каталоге установки Webasyst. Правила для файла robots.txt, сохраненные на этой странице, не будут применены.
Что нужно сделать чтобы правила для robots.txt брались из этого поля? Удаление файла приводит к 404 по запросу данного файла.
Как это должно работать и в чем может быть проблема?
Заполните поле, чтобы оно было непустое — его содержимое начнёт отдаваться вместо ошибки 404.
Михаил естественно оно заполнено, а что делать с файлом в корне? Его удалить, правильно? Может какаято специфическая настройка должна быть на серваке?
Чтобы это поле настроек заработало, файл надо удалить. Или хотя бы временно переименовать либо перенести в другую директорию на сервере.
404 при удалении/переименовании файла. Поле заполнено.
Напишите нам в службу поддержки — выясним причины и поможем наладить работу этой функции.
Здравствуйте кто может помочь поставил плагин My Lang
Куча ссылок с перенаправлением, лезет из за того, что к ссылкам добавляются параметры locale=ru_RU
Как их закрыть?
на
isra-shop.net/serebryanye-sergi_5/
Чтобы получить помощь от других пользователей, задайте вопрос на форуме поддержки Webasyst.
Добрый день!
Подскажите как в файле robots.txt закрыть от индексации эти страницы (Блог)
https://areon-ua.com/blog/?page=8
https://areon-ua.com/blog/?page=3
https://areon-ua.com/blog/?page=4
Ваш вопрос не имеет прямого отношения к теме статьи. Задайте его в отдельной теме на форуме поддержки, пожалуйста, или поищите ответ на него с помощью функции поиска.
Меня поддержка Webasyst отправила сюда за помощью.
Здесь описываются правила для robots.txt я хотел узнать каким правилом можно закрыть от индексации страницы блога blog/?page=8
Спасибо!
Добрый день!
У нас на сайте запрещены для индексации все страницы с Get-параметрами:
Disallow: *?
Этим мы исключили из индексации страницы поиска (/search/?query=), страницы с результатами сортировки (*/?sort=).
Могли ли мы этой инструкцией исключить из индексации, страницы которые необходимо индексировать?
Ваше правило выглядит слишком общим. Проконсультируйтесь у специалистов по поисковой оптимизации, например, у партнёров Webasyst.
Ок, правило действительно общее. Но мы исходили из того, что все страницы с Get-параметрами это дубли. Спасибо за ответ Михаил!
Всё правильно, все страницы с GET параметрами это дубли. Кроме страниц пагинаций. Сделайте для них исключение. например, так:
1. Если в качестве шаблона построения url используется Смешанный тип, т.е. ссылка на товар выглядит так - хттп://домен.ру/название продукта, будет работать для товаров запрет на индексацию, если для категории в которой они находятся установлен Disallow? (Есть категория Отстойник, товары из которой нельзя индексировать).
2. Надо ли запрещать индексировать категории (продает лист), оставляя для индексации только карточки товаров?
Продакт лист, список товаров, прошу прощения - авто-замена сработала.
Как же быть со Смешанным типом? И если использовать Естественный тип, то как быть с дублированием в разные категории (если есть необходимость размещать товар в разные категории)?
Используйте плагин https://www.webasyst.ru/store/plugin/shop/metarobots/: скрывайте товары/категории которые не хотите индексировать и активируйте в плагине соответствующие правила запрета для индексации.
при использовании комбинации фильтров получаются такие страницы, их бесконечное множество, Яндекс их конечно же индексирует, как их убрать из индекса?
/teploizolyatsiya/mineralnaya-teploizolyatsiya/?proizvoditel%5B%5D=670&proizvoditel%5B%5D=671
/teploizolyatsiya/mineralnaya-teploizolyatsiya/?marka%5B%5D=673&tolshchina_uteplitel%5B%5D=231
Добавьте такое правило, чтобы запретить индексацию любых страницы, в адресах которых есть GET-параметры со знаком вопроса:
Плохой совет. Точнее - неполный. Данное правило также запрещает для индексации страницы пагинаций.
Тогда уж лучше делать так:
Михаил подскажите
а как лучше
оба верные ведь ?
Можно и так, если у вас есть адреса страниц без косой черты в конце.
читал про рекомендации блокировать в роботс ботов от популярных сервисов, не раз слышал что они дают нагрузку, да и ходят часто.
Как считаете есть смысл ?
Ваш вопрос не имеет прямого отношения к теме статьи. Задайте его в отдельной теме на форуме поддержки, пожалуйста, или поищите ответ на него с помощью функции поиска. Если вам потребуется квалифицированная помощь специалиста по этому вопросу, обратитесь к нашим партнёрам, пожалуйста.
Смысла в этом особо нет, т.к. большинство "вредных" ботов не будут учитывать ваши правила запрета robots.txt. Эффективнее бороться с ними нужно не на уровне файла "robots.txt", а блокировать их по IP, по поведению или по иным признакам (количество и частота запросов, итп). А вот как именно это делается - это уже действительно не относится к статье.
P.S. bingbot - бот поисковой системы Bing. Его закрывать от индексации не стоит, несмотря на то что на данный момент в РФ трафика данная поисковая система особо не дает.
Универсальный robots.txt для магазинов на Shop Script резместил в своем блоге - https://chikurov-seo.ru/blog/pravilnaya-nastroyka-indeksirovaniya-stranits-dlya-internet-magazinov-na-shop-script/. Сюда копировать не буду, т.к.:
1) > 150 строчек кода.
2) будет регулярно дорабатываться, копировать сюда каждый раз лень.
Кому надо - заходите, копируйте, юзайте. Если у вас есть специфические индексирующиеся страницы - пишите на почту anatoly@chikurov-seo.ru - доработаю файл.
Спасибо большое, Анатолий !
Использовал ваш роботс. В гугл рекламе повылетали все товары, ругается на неправильный роботс. Что-то для гугла не то
Напишите нам в службу поддержки подробно обо всех обнаруженных ошибках, пожалуйста. Предложим вам решение или передадим информацию администрации для обновления справочной статьи.
если речь о моем robots.txt, то эта недоработка поправлена. Актуальный универсальный robots.txt и инструкция по внедрению расположены по адресу: https://chikurov-seo.ru/blog/u...
В статье вы пишите - "Crawl-delay - используется для установки задержки между запросами от бота на страницы сайта. Всё что вам нужно запомнить об этой директиве - то что еще с 2018 года Crawl-delay уже не поддерживается ни Google ни Yandex."
Но тем не менее в вашем предлагаемом файле robots.txt данный параметр имеется. Так стоит его вносить в файл или нет?
Crawl-delay не учитывается Яндексом и Гуглом, но многие другие боты еще могут ее использовать.
В файле robots.txt для региональных поддоменов у вас значится параметр -
Для чего вы запрещаете индексацию поддоменов, кроме робота Яндекса? Ведь поддомены наоборот делаются для их индексации и выхода на регионы..
Поддомены в гугл работают плохо. Боты создают высокую нагрузку на сервер, а трафик потом идет мизерный. Не окупается. Для регионального продвижения в Гугл лучше создавать папки (не spb.site.ru, а site.ru/spb/). Можно экспериментировать и создавать одновременно и папки и поддомены - первые для Гугла, вторые для Яндекса. Запустил по такой схеме несколько проектов, схема работает неплохо.
Добрый день!
Изменяем файл Robots.txt (находится естественно в корне) но по адресу https://x3mshop.ru/robots.txt никаких изменения не происходит
Настройка в Robots в бэкэнде пустая.
Кэш чистил везде, ну почти везде.
Кто с этим сталкивался? Как решить? Что удалить? Что почистить?
Аналогичная проблема на сайте https://starfitshop.ru/robots....
Чтобы получить комментарии от других пользователей, задайте свой вопрос на форуме поддержки.
Прошу уточнить, Вы специально запретили индексацию картинок товаров на Вашем сайте https://yandex.ru/images/searc...
https://starfitshop.ru/robots....
А что значит User-agent? У Вас он только один и в виде звездочки, а в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress их куча и всяких разных. Многие говорят что надо закрывать картинки от индексации от основных роботов и открывать для роботов, которые индексирую изображения для поиска по изображениям. Я реально запуталась....
В статье показан пример формирования содержимого robots.txt. Чтобы получить дополнительную информацию о том, как нужно сформировать это содержимое именно для вашего сайта, обратитесь к специальной литературе или к специалистам в этой области, например, к партнёрам Webasyst.