
Хотите, что бы ваш сайт индексировался поисковыми роботами? Тогда начните с самого малого, настройте файл robots.txt для Яндекса. Как говорят знаменитые SEO-гуру в SEO мелочей нет. Вот тут я с ними полностью согласен, порой самая банальная мелочь может оказаться огромной не приятностью.
В более чем 70% анализируемых мною сайтов, данный файл был составлен не должным образом. Ошибки вели к тому что, например, казалось бы, релевантная определенному запросу страница, оказывалась ниже в выдаче, чем страница с тегами. Банальная ошибка, в роботсе не закрыты к индексации страницы тегов. Мелочь, а какая неприятность? Чтобы не возникало подобных недоразумений, давайте попробуем разобраться, как правильно составить roots.txt для поисковой системы Яндекс.
Правильный robots.txt для Яндекса
Robots.txt — обычный текстовый файл, который расположен в корневой дериктории сайта. Основное предназначение — указать роботам поисковых систем основные параметры индексирования сайта.
Одним из первых файлов, к которому обращаются поисковые роботы — robots.txt, «считывая» информацию, прописанную в файле, поисковый робот действует согласно прописанной «инструкции». Какая информация должна быть в файле robots.txt?
Вся информация прописывается директивами, директива это команда поисковому роботу на то или иное действие. Основных директив для robots.txt ни так уж и много.
User-agent: — назначение этой директивы указать, какому поисковому роботу предназначена информация.
Allow: — разрешение на индексацию всего сайта или какой-то его части
Disallow: — запрещение индексации всего сайта или определенной его части
Sitemap: — не обязательная директива, она указывает на то, что у вас на сайте есть Sitemap, так называемая карта сайта, или по «научному» – описание структуры вашего сайта в формате .xml или .xml.gz.
Host: — тоже не обязательная директива – ей мы указываем основное зеркало сайта.
А сейчас на примере опробуем составить простенький robots.txt для Яндекса:
User-agent: * — данной директивой мы разрешаем индексировать сайт всем поисковым роботам, для этого достаточно после User-agent: добавить значок *. Но мы составляем robots.txt именно для Яндекса, в этом случае наш User-agent: должен выглядеть так:
User-agent: Yandex – этой директивой мы открываем доступ всем поисковым роботам Яндекса, которых существует более десятка.
Возможно, каким то из них вы решите запретить доступ к вашему сайту. Привожу их список и краткое описание;
«YandexBot» — основной индексирующий робот
«YandexMedia» — индексирует мультимедийные данные
«YandexImages» — индексирует картинки
«YandexCatalog» — так называемый «стукач» Яндекс.Каталога
«YaDirectFetcher» — индексатор Яндекс.Директа, вот этому можно смело дать запрет
«YandexBlogs» — поиск по блогам, индексирует комментарии и посты всех блогов
«YandexNews» — индексирует Яндекс.Новости
«YandexPagechecker» — валидатор микроразметки я бы тоже не пускал его на сайт)
«‘YandexMetrika» — поисковый бот Яндекс.Метрики
«YandexMarket» — поисковый бот Яндекс.Маркета
«YandexCalendar» — поисковый бот Яндекс.Календаря что это такое я не знаю
Теперь, когда мы знаем всех роботов Яндекса в «лицо», при желании можно запретить любому из них, индексировать ваш сайт. Хотя это и не обязательно, особого вреда они вашему сайту не принесут, но мало ли у кого какие цели.
Несколько практических примеров robots.txt для Яндекса:
User-agent: Yandex Disallow: / Полный запрет на индексацию вашего сайта всем роботам Яндекса.
User-agent: Yandex Allow: / В данном случае ваш сайт полностью открыт для индексации Яндексом.
User-agent: Yandex Allow: / User-agent: YandexMetrika Disallow: / В этой ситуации, ваш сайт закрыт от индексации только роботу YandexMetrika остальным роботам Яндекса доступ к сайту открыт.

Я думаю, что принцип понятен.
User-agent: Yandex Allow: /content Disallow: / Здесь мы закрыли для индексации весь сайт кроме директории /content
User-agent: Yandex Allow: / Disallow: /content А это противоположная ситуация, весь сайт открыт для индексации кроме директории /content. Как видите совсем ни чего сложного.
User-agent: Yandex Allow: / Disallow: /content Sitemap: адрес сайта/ sitemap.xml Host: домен.ру Добавили две директивы, и это уже похоже на настоящий robots.txt, или вернее сказать это основной скелет будущего файла robots.txt.
И еще, один совет.
Особо следует уделить внимание, когда от индексации закрываются страницы категорий. Иногда в адресе страницы можно увидеть такую картину – название сайта/категория/название категории/название статьи, если адреса страницы у вас построены таким образом, а категории закрыты в robots.txt, вы долго будете искать причины, по которым ваш сайт не индексируется.
Как проверить robots.txt в Яндексе
Если вы, поняли принцип создания правильного robots.txt для Яндекса,и ваш файл готов, самое время его проверить. Проверка robots.txt Яндексом, процедура не трудная, и не займет у вас много времени. Идем в Яндекс.Вебмастер, все дальнейшие действия будут происходить именно там.
1 шаг2 шаг3 шаг4 шаг5 шаг6 шаг Жмем мои сайты и выбираем нужный вам сайт В левом меню – Индексирование сайта Анализ robots.txt Загружаем robots.txt с сайта После загрузки жмем – проверить И смотрим результаты
Результаты проверки Яндексом robots.txt моего блога показали, что все директивы учитываются роботом Яндекса, в правильности данной проверки можно не сомневаться.
В заключении не большой совет: если вы слабо разбираетесь, или попросту не хотите вникать в то что я описал выше, для составления правильно файла robots.txt обратитесь к специалисту. Даже если вы нашли готовый файл, для популярных CSM существуют готовый роботсы, всеравно покажите его специалисту, не все сайты одинаковы, даже если сделаны на одинаковых движках.
В ближайшее время я расскажу вам о том, как сделать правильный robots txt для WordPress.