Как закрыть сайт от индексации поисковыми системами целиком или отдельные его страницы. Все способы запрета индексирования для роботов - через robots.txt, файл htaccess.
Существует несколько методов закрытия сайта от индексации – с помощью robots.txt, мета-тегов и изменения настроек сервера. В заключении статьи мы оставили несколько полезных ссылок, которые помогут еще лучше разобраться в вопросе индексации, а также провести аудит в автоматическом режиме.
Зачем закрывать доступ к сайту:
- проект готов не полностью и находится в процессе разработки или тестирования;
- создан тестовый домен с полной копией сайта для проведения доработок по верстке и функционалу.
Когда доработки несут локальный характер, то выставите запрет индексации индивидуально для страниц или разделов, на которых ведутся работы.
Рекомендуем закончить все запланированные работы перед запуском сайта, исключить попадание в поисковую базу неполноценных страниц, а также дублей с тестовых площадок. Иначе это скажется негативным образом на дальнейшем развитии проекта.
Полное закрытие сайта
Внесите в robots.txt указанную ниже директиву, чтобы полностью закрыть сайт от индексации поисковыми роботами:
User-agent: * Disallow: /
Пользовательский агент «*» является сигналом для ботов всех поисковых систем.
Важно, чтобы корректно заполненный файл был расположен в корневой папке и доступен адресу domain.ru/robots.txt (domain.ru - адрес вашего сайта), иначе поисковики его не найдут и проигнорируют.
Для проверки используйте инструмент Яндекс Вебмастера «Анализ robots.txt», найти его вы сможете по адресу https://webmaster.yandex.ru/tools/robotstxt/.
Укажите адрес сайта здесь.
Перечислите с новой строки все страницы, необходимые к проверке.
После проверки инструмент выдаст результат.
Символ «/» означает, что сайт закрыт.
Закрытие от индексации постранично
На любом многостраничном сайте существуют разделы и страницы, имеющие низкую ценность для поисковых систем.
В обязательном порядке скрывайте следующее:
- служебные папки;
- формы заполнения заявок;
- формы регистрации;
- дубли (страницы с параметрами в адресе);
- корзина в интернет-магазине;
- личный кабинет;
- страница поиска.
Например, для закрытия страницы по адресу https://bitagency.ru/services/seo/, прописываем:
User-Agent: * Disallow: /services/seo/
Для закрытия административной папки, например «/bitrix/», указываем:
User-Agent: * Disallow: /bitrix/
В результате данная папка и все ее содержимое скроется от поисковиков.
Пример полностью заполненного роботс:
Большинство современных CMS-систем, таких, как «1С-Битрикс» и «Wordpress», имеют встроенные модули формирования robots.txt, в котором учитываются и автоматически закрываются стандартные служебные файлы и страницы сайта, разработанного на данной платформе.
Закрытие от робота Яндекс
Процедура похожа на полный запрет ботам поисковых систем на индексацию сайта, но в качестве пользовательского агента указываем «Yandex».
Выглядит это так:
User-Agent: Yandex Disallow: /
Также не забудьте указать для Яндекса главное зеркало сайта с помощью директивы «Host».
User-Agent: Yandex Host: https://domain.ru.
Для проверки корректности заполнения для робота «Яндекс», добавьте сайт в «Яндекс Вебмастер» https://webmaster.yandex.ru/, подтвердите на него права следуя инструкциям и проверьте необходимые адреса.
Установка запрета для Google
В качестве пользовательского агента указываем «Googlebot», приведем пример:
User-Agent: Googlebot Disallow: /
В качестве инструмента для проверки используем сервис «Google Search Console».
Клик – https://search.google.com/
Обнаружить ошибку доступа поискового бота к странице можно в разделе «Покрытие».
Озаглавлена ошибка будет как «Доступ к отправленному URL заблокирован в файле robots.txt».
Провалившись внутрь, вы увидите перечень заблокированных URL-адресов.
Также доступен для использования аналог инструмента от Яндекс Вебмастера, находится он по следующему пути: «Прежние инструменты и отчеты» - «Подробнее» - «Инструмент проверки файла robots.txt».
Далее выбрать подтвержденный ресурс и внести интересующий URL-адрес.
Закрытие поддомена
Каждый из поддоменов имеет свою отдельную папку на сервере и индивидуальный файл robots.txt. Для закрытия любого из них, откройте robots.txt, находящийся в папке, соответствующей поддомену и укажите в нем:
User-agent: * Disallow: /
Также вы можете использовать любые другие директивы, аналогично основному домену.
Запрет индексации изображений
Можно заблокировать целиком папку, в которой располагаются все изображения на сайте. Узнать ее расположение вы можете через режим просмотра кода страницы в браузере.
На нашем сайте местоположением всех изображений является папка /upload/.
Следовательно, заблокировать ее можно командой:
User-agent: * Disallow: /upload/
Также существует возможность блокировки картинок в соответствии с их типом файла (jpeg, png, gif и т.д.). Пример:
User-agent: * Disallow: *png
Запрет через файл htaccess
Теперь рассмотрим возможности закрытия сайта от индексации Яндекс и Google с помощью настроек сервера.
Закрытие для каждой поисковой системы по отдельности
Откройте файл .htaccess, располагающийся в корневой папке сайта и пропишите следующее:
Запрет доступа
Запретить доступ на уровне сервера формированием ошибки 403 в htaccess:
ErrorDocument 403 https://domain.ru. Order deny,allow Deny from all Allow from IP123
Где, "https://domain.ru" – адрес вашего сайта
IP123 - IP-адрес, доступ которому будет разрешен. Количество разрешенных IP-адресов не ограничено.
Блокировка с помощью тега meta name="robots"
Запрет установкой тега «meta name="robots"» внутри области контейнера <head></head> будет считываться поисковыми роботами как наиболее приоритетный.
<meta name="robots" content="noindex, nofollow"/> – установите данный код внутри области хедера.
Также можно установить данный запрет только для одного из поисковых ботов:
<meta name="googlebot" content="noindex, nofollow"/>
Или:
<meta name="yandex" content="none"/>
Подводим итог
В этой статье описаны наиболее распространенные способы сокрытия сайта от поисковиков. Самым доступным для самостоятельной реализации считается запрет через файл роботс, так как не требует даже базовых знаний кода. Вы можете просто скопировать директивы из нашей статьи.
Как и обещали в начале, оставляем полезные ссылки:
- https://www.screamingfrog.co.uk/seo-spider/ – софт для комплексного SEO-аудита, приводит данные по статусу индексации и коды ответа сервера всех URL-адресов сайта;
- https://netpeaksoftware.com/spider – русскоязычный аналог вышеуказанного сервиса;
- https://webmaster.yandex.ru/tools/robotstxt/ – внутренний инструмент Яндекс Вебмастера для проверки индексации согласно файлу robots.txt;
- оператор «site:» – вводится в поисковую строку браузера по форме site:bitagency.ru, в результате чего выводятся все проиндексированные страницы ресурса.
Если вам нужна доработка сайта, а также поисковое продвижение и регулярная техническая поддержка, мы можем вам помочь. Свяжитесь с менеджером по номеру телефона в шапке или через форму связи на сайте.