Составляем robots. txt для яндекс

Robots. txt для яндекс

Хотите, что бы ваш сайт индексировался поисковыми роботами? Тогда начните с самого малого, настройте файл robots.txt для Яндекса. Как говорят знаменитые SEO-гуру в SEO мелочей нет. Вот тут я с ними полностью согласен, порой самая банальная мелочь может оказаться огромной не приятностью.

В более чем 70% анализируемых мною сайтов, данный файл был составлен не должным образом. Ошибки вели к тому что, например, казалось бы, релевантная определенному запросу страница, оказывалась ниже в выдаче, чем страница с тегами. Банальная ошибка, в роботсе не закрыты к индексации страницы тегов. Мелочь, а какая неприятность? Чтобы не возникало подобных недоразумений, давайте попробуем разобраться, как правильно составить roots.txt для поисковой системы Яндекс.

Правильный robots.txt для
Яндекса

Robots.txt — обычный текстовый файл, который расположен в корневой дериктории сайта. Основное предназначение — указать роботам поисковых систем основные параметры индексирования сайта.

Одним из первых файлов, к которому обращаются поисковые роботы — robots.txt, «считывая» информацию, прописанную в файле, поисковый робот действует согласно прописанной «инструкции». Какая информация должна быть в файле robots.txt?

Вся информация прописывается директивами, директива это команда поисковому роботу на то или иное действие. Основных директив для  robots.txt ни так уж и много.

 User-agent:  — назначение этой директивы указать, какому поисковому роботу предназначена информация.

 Allow:  — разрешение на индексацию всего сайта или какой-то его части

 Disallow:  — запрещение индексации всего сайта или определенной его части

 Sitemap:  — не обязательная директива, она указывает на то, что у вас на сайте есть  Sitemap, так называемая карта сайта, или по «научному» – описание структуры вашего сайта в формате .xml  или .xml.gz.

 Host:  — тоже не обязательная директива – ей мы указываем основное зеркало сайта.

А сейчас на примере опробуем составить простенький robots.txt для Яндекса:

User-agent: * — данной директивой мы разрешаем индексировать сайт всем поисковым роботам, для этого достаточно после User-agent: добавить значок *. Но мы составляем robots.txt именно для Яндекса, в этом случае наш  User-agent: должен выглядеть так:

 User-agent: Yandex – этой директивой мы открываем доступ всем поисковым роботам Яндекса, которых существует более десятка.

Возможно, каким то из них вы решите запретить доступ к вашему сайту. Привожу их список и краткое описание;

«YandexBot» — основной индексирующий робот

«YandexMedia» — индексирует мультимедийные данные

«YandexImages» — индексирует картинки

«YandexCatalog» — так называемый «стукач» Яндекс.Каталога

«YaDirectFetcher» — индексатор Яндекс.Директа, вот этому можно смело дать запрет

«YandexBlogs» — поиск по блогам, индексирует комментарии и посты всех блогов

«YandexNews» — индексирует  Яндекс.Новости

«YandexPagechecker» — валидатор микроразметки я бы тоже не пускал его на сайт)

«‘YandexMetrika» — поисковый бот Яндекс.Метрики

«YandexMarket» — поисковый бот Яндекс.Маркета

«YandexCalendar» — поисковый бот Яндекс.Календаря что это такое я не знаю

Теперь, когда мы знаем всех роботов Яндекса в «лицо», при желании можно запретить любому из них, индексировать ваш сайт. Хотя это и не обязательно, особого вреда они вашему сайту не принесут, но мало ли у кого какие цели.

Несколько практических примеров robots.txt для Яндекса:


User-agent: Yandex
Disallow: /
Полный запрет на индексацию вашего сайта всем роботам Яндекса.


User-agent: Yandex
Allow: /
В данном случае ваш сайт полностью открыт для индексации Яндексом.


User-agent: Yandex
Allow: /
User-agent: YandexMetrika
Disallow: /
В этой ситуации, ваш сайт закрыт от индексации только роботу YandexMetrika остальным роботам Яндекса доступ к сайту открыт. Я думаю, что принцип понятен.


User-agent: Yandex
Allow: /content
Disallow: /
Здесь мы закрыли для индексации весь сайт кроме директории /content


User-agent: Yandex
Allow: /
Disallow: /content
А это противоположная ситуация, весь сайт открыт для индексации кроме директории /content. Как видите совсем ни чего сложного.


User-agent: Yandex
Allow: /
Disallow: /content
Sitemap: адрес сайта/ sitemap.xml
Host: домен.ру
Добавили две директивы, и это уже похоже на настоящий robots.txt, или вернее сказать это основной скелет будущего файла robots.txt.

И еще, один совет.

Особо следует уделить внимание, когда от индексации закрываются страницы категорий. Иногда в адресе страницы можно увидеть такую картину – название сайта/категория/название категории/название статьи, если адреса страницы у вас построены таким образом, а категории закрыты в robots.txt, вы долго будете искать причины, по которым ваш сайт не индексируется.

Как проверить robots.txt в Яндексе

Если вы, поняли принцип создания правильного robots.txt для Яндекса,и ваш файл готов, самое время его проверить. Проверка robots.txt Яндексом, процедура не трудная, и не займет у вас много времени. Идем в Яндекс.Вебмастер, все дальнейшие действия будут происходить именно там.

1 шаг2 шаг3 шаг4 шаг5 шаг6 шаг
1
Жмем мои сайты и выбираем нужный вам сайт
2
В левом меню – Индексирование сайта
3
Анализ robots.txt
4
Загружаем robots.txt с сайта
5
После загрузки жмем – проверить
6
И смотрим результаты

Результаты проверки Яндексом robots.txt моего блога показали, что все директивы учитываются роботом Яндекса, в правильности данной проверки можно не сомневаться.

В заключении не большой совет: если вы слабо разбираетесь, или попросту не хотите вникать в то что я описал выше, для составления правильно файла robots.txt обратитесь к специалисту. Даже если вы нашли готовый файл, для популярных CSM существуют готовый роботсы, всеравно покажите его специалисту, не все сайты одинаковы, даже если сделаны на одинаковых движках.

В ближайшее время я расскажу вам о том, как сделать правильный robots txt для WordPress.