и мы с вами свяжемся!
Шутки ради: Robots.txt я предохраняюсь.
Начну с того, что файл robots.txt является практически самым важным в сео продвижении. Из него поисковые роботы о (них тут) узнают что какие страницы можно показывать в поиске, а какие вообще не посещать и не показывать.
Содержание:
- Robots.txt — зачем он нужен
- Для чего скрывать информацию от роботов
- Как создать файл robots.txt
- Правильная настройка файла robots.txt
- Как запретить к индексации страницу сайта
- Как разрешить к индексации только одну папку
- Как запретить к индексации весь сайт
- Как проверить страницу на запрет к индексации
- Как правильно настроить файл robots.txt
В robots.txt содержатся набор параметров для поисковых роботов, как для всех поисковых систем, так и для каждой поисковой системы в отдельности.
В него необходимо помещать все технические страницы, файлы, папки, пустые и не нужные страницы, чтобы не захламлять поиск и увеличить доверие поисковой системы к вашему сайту.
Например: файлы админ панели, страница с поиском, рекламные страницы, служебная информация и прочее.
Давайте представим, что сайт это ваша квартира в которой вы храните все свои вещи. Паспорт, деньги, документы на автомобиль, акции компаний, фотографии, драгоценности, квитанции на оплату и так далее.
К вам приходят в гости друзья и вы хотите показывать им только свои фотографии, похвастаться драгоценностями, а личные вещи скрыть от всех и не показывать ни при каких обстоятельствах.
Для этого вы возьмете и положите все вещи которые не хотите показывать друзьям в другую комнату и закроете ее на ключ. Больше ваши личные вещи не потревожат и вы спокойны.
В интернете роль ваших гостей получает поисковый робот. Так как сайт в интернете общедоступный, а интернет является всемирным, любой желающий может войти на него или посмотреть какую информацию вы на нем храните.
Некоторой информации вы хотите делиться со всеми (например свои цены на услуги), а некоторая информация только для внутреннего пользования (оптовые цены и телефоны ваших поставщиков партнеров).
Так для того, чтобы спрятать важную информацию от посторонних глаз и служит файл robots.txt. Он в переносном смысле убирает вещи (страницы) от посторонних глаз в другую сторону. Конечно если вы его создали, в противном случаи запреты действовать не будут и робот зайдет и все скачает в общий доступ.
Для создания файла нам потребуется простой текстовой блокнот. Его можно создать нажмите комбинацию клавиш Windows+R и в появившимся окне наберите слово notepad.
У вас появится чистый файл блокнота в который мы добавляем следующую запись:
User-agent: *
Фраза означает, что мы настраиваем этот файл для всех поисковых роботов всех поисковых систем. Можно настроить для каждой в отдельности но я не хочу вас путать и это нужно в индивидуальных случаях.
Все файлы robots начинаются с нее.
После чего мы нажимаем комбинацию клавиш Ctrl+S, пишем название robots, сохраняем файл на рабочий стол и мы на 30% ближе к правильной настройке.
Файл нужно загрузить на ваш сервер с сайтом туда, где находится файл index.html или index.php (в начальный каталог сайта)
Есть всего 2 команды которыми мы будем пользоваться это:
, а теперь давайте разберем на примере:
У нас есть сайт roi-consulting.ru. На нем есть сервере есть папки например с папка от управления сайтом (админ панель). Выглядит она вот так roi-consulting.ru/wp-admin
Это папка техническая и не несет посетителям какой либо информацией, а значит не нужна в поисковой выдаче. Для того чтобы запретить ее к обходу робота файл robots.txt будет выглядеть вот так:
User-agent: *
Disallow: /wp-admin/
В таком случае поисковому роботу дана команда, что весь сайт можно показывать в поисковой выдаче, но не папку wp-admin.
Внимание: в начете всех файлов и папок должен стоять знак «/»
Чтобы запретить к индексации конкретную страницу сайта нужно добавить ее в запреты к индексации в файле роботс. Например мы не хотим показывать страницу secret.html в поисковой выдаче. Название страницы можно посмотреть в вверху браузера зайдя на нее.
Например у нас выглядит вот так: site.ru/secret.html
Файл robots.txt выделит вот так:
User-agent: *
Disallow: /secret.html
Данная страница больше не будет обходится всеми роботами поисковых систем.
Бывают случаи, что от целого сайта нам нужно получать посетителей только на одну папку. Назовем ее /vsem/, а остольные файлы и папки срыть от роботов, тогда файл robots.txt будет выглядеть так:
User-agent: *
Allow: /vsem/
Disallow: /
Такой командой мы говорим роботу, что можно посещать и показывать в поиске только все что находится в папке /vsem/ и нечего больше.
Запретить сайт к индексации совсем поможет вот такое заполнение файла:
User-agent: *
Disallow: /
*Ваш сайт будет полностью запрещен к обходу поисковыми роботами и показу во всех поисковых системах.
В Яндекс Вебмастер есть функция позволяющая проверить есть ли запрет на индексацию () Как получить доступ к Яндекс Вебмастер я рассказал тут.
Она находится в разделе Инструменты > Анализ Robots.txt.
Опускаем страницу немного ниже и для выявления запрета к индексации мы вводим название файла или папки в окошко после чего нажимаем кнопку проверить.
Давайте попробуем проверить папку которую мы запретили к индексации в начале статьи.
Как вы видите доступ запрещен. Также указан параметр из-за чего индексация не происходит. В нашем примере запрет стоит на все технические папки название начала которых совпадает с /wp-*/
А вот пример уже доступной к индексации папки блога
Правильная настройка файла robots.txt, заключается в понимании зачем он вообще нужен, также поиску «мусорных», системных и ненужных страниц.
Они выявляются с помощью сервиса Яндекса, а также с помощью специальных программ, о чем я написал целую статью по исправлению ошибок на сайте и давайте отталкиваться от нее.
Давайте возьмем старый скриншот и его разберем
На этом скриншоте мы уже видим технические папки и данные, давайте их запретим к индексации.
Папка /wp-json/ сразу видно что техническая, а параметр «?p=» забивает выдачу технической информацией. Проверить и принять решение о нужности папки или файла можно перейдя по ссылке и посмотреть страницу.
Давайте их уберем. Для этого настоим файл robots.txt вот таким образом:
User-agent: *
Disallow: */wp-json/*
Disallow: */?p=*
Параметр * говорит роботам, что при любой встрече с папкой wp-json, не важно в каком разделе сайта она будет находится и при любом значении парамернра /?p= (/?p=1, /?p=2, /?p=123) страницы не показывать в поиске и не индексировать.
Как рассказано в статье исправление ошибок, найдите все ненужные и технические страницы сайта и добавьте их в запрет файла robots.txt
Надеюсь вам помогла моя статья, а если появились вопросы, задавайте их в комментариях. Мы идем дальше Продвижение сайта — настройка Sitemap — часть 4
Автор: Аграчев Михаил
Вступление Сервис контекстной рекламы Яндекс Директ остается удобным
Добрый день дорогой читатель! Каждый день в интернете
Вместо 1000 символов достаточно простого разговора. Развиваем бизнесы клиентов с 2016 года. Всегда достигаем заявленного результата.