
Приветствую всех читателей своего блога.
Сегодня решил посвятить небольшой пост важному файлу для поисковых роботов,простому документу формата .txt, robots.txt.
Что это за файл и для чего он нужен? Этот документик, указывает поисковым ботам какие разделы сайта можно и нужно индексировать а какие нет, или же наоборот запрещает,одним словом в этом файле мы задаем
четкие инструкции для роботов поисковых машин которые посещают наш сайт. Файл лежит в корневой директории сайта, после тега. Blogspot не исключение, и тоже имеет такой файл изначально в каждом стандартном шаблоне, который выглядит так:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Disallow: /
User-Agent: googlebot
Disallow: /search
Allow: /
Вот так можно расшифровать этот robots.txt:
Поисковый бот для рекламных блоков адсенс, только ему,
разрешена индексация рекламы, всем другим поисковым
роботам запрещено. User-agent:* — все поисковые боты, все
обозначаются символом «*», Disallow:/search — запретить.
Тут подразумевается запретить индексацию всех страниц
с директивой search, это архивы,страницы из карты сайта,
которые повторяются, чтоб не было дублей в кеше поиска
robots.txt запрещает их сканировать. User-Agent:googlebot —
поисковый робот Google, который очень любит блоги Блогспот и посещает их каждый день, для него прописано
что может индексировать все, кроме страниц с атрибутом
search.
Посмотреть свой robots.txt вы вставив адресную строку браузера название своего сайта добавив к нему robots.txt
http:///robots.txt
В Blogger, можно заменить robots.txt на пользовательский, для этого заходим в панель управления своими блогами, выбираем настройки поиска-пользовательский файл robots.txt, изменить, далее удаляем имеющийся там текст и
вставляем вот такой :
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /
Sitemap:
User-agent: Yandex

Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /
выделенное черным меняете на свой адрес RSS канала, который служит блогу картой сайта. Этот robots.txt, для Blogspot изменен. Яндекс лучше будет индексировать ваш блог, проверенно! А вообще у каждой поисковой системы есть свои названия роботов, вот некоторые:
Google – «googlebot»;
Яндекс – «Yandex»;
Рамблер – «StackRambler»;
Yahoo – «Yahoo! Slurp»;
MSN – «msnbot»
Вот атрибуты которые:
NOINDEX — запрещает индексирование документа;
NOFOLLOW — запрещает проход по ссылкам,имеющимся в документе;
INDEX — разрешает индексирование документа;
FOLLOW — разрешает проход по ссылкам
Вот и все что я хотел сегодня написать, конечно существует
намного более правил для поисковых роботов, и это далеко не все боты, для каталогов свои, для изображений свои боты и.т.д
Подпишитесь на рассылку чтобы не пропустить следующие
статьи. До скорых встреч на страницах моего блога.