Как создать правильный robots.txt для WordPress

настройка robots txt wordpress

Выполняю данное мною обещание, сегодня речь пойдет о том, как настроить правильный файл robots.txt для WordPress. Что это за файл такой, и насколько он важен для сайта или блога я писал в недавней статье о robots txt для Яндекс.

Совершая «прогулки» по блогам, которые созданы на платформе вордпресс, я заметил, что почти на каждом из них есть ошибки в роботсе. Пусть у некоторых они и не значительны, но из вот таких мелочей порой и складываются в будущем огромные проблемы.
Многие блогеры понятия не имеют об этом файлике, а уж тем более о том, где он находится.

Где находится robots.txt в WordPress

Расположение robots.txt  в Вордпресс ни чем, ни отличается от другого любого сайта – корневая папка сайта. Где находится данная папка? Естественно на вашем хостинге, эта та папка, в которой находятся все файлы вашего блога или сайта. На каждом хостинге это выглядит по-своему. Достут к корневой директории (папке) возможен через файловый менеджер панели управления вашим хостингом, либо по FTP. Тот, кто знает, что можно зайти в корень сайта по SSH, может воспользоваться и этим методом.

Как создать robots.txt для WordPress

Для начала создадим простой текстовый файл с именем «robots». От кроем его и начинаем прописывать директивы для поисковых систем. Для примера я сделал скрин роботса своего блога, скопировать его можно перейдя по ссылке (если скопировали, не забудьте в дальнейшем его отредактировать).

А теперь пройдемся по всем директивам, что бы вам было понятно что и для чего.

 User-agent: Yandex  – открываем доступ всем поисковым роботам Яндекса

 Allow: /wp-content/uploads/  — разрешаем индексировать картинки, это обязательная директива!!!

  Disallow: /wp-  — запрет на индексацию всех системных папок и файлов

 Disallow: /webstat  – это не обязательная директива, добавил ее исключительно в собственных целях, возможно у вас в корне сайта лежат такие папки

 Disallow: /cgi-bin   —  без объяснений, это очень долго, да и не нужно

 Disallow: */trackback  – и

 Disallow: */trackback/  — запрет индексации трекбеков

 Disallow: */feed  – и

 Disallow: */feed/  — и

 Disallow: /?feed=   — запрещаем индексировать фид, почему так много директив? Все зависит от используемого шаблона, поэтому я сделал так

 Disallow: */comments  – и

 Disallow: */comments/  – дабы не плодить дубли страниц с комментариями, закрываем, не волнуйтесь, все комментарии будут проиндексированы

 Disallow: /tag  – тут я думаю все понятно, закрываем страницы тегов, лично я их не прописываю, что бы не плодить лишних страниц, которые дублируют контент, но всякий случай директиву прописал

 Disallow: /category  – спорный запрет, если хотите что бы ваши страницы категорий попали в индекс поисковика, уберите эту строчку

 Disallow: /archive  – яснее не куда, закрываем страницы с архивами

 Disallow: /?wysija-  —  это я закрыл страницы создаваемые одним из плагинов, вам это не обязательно, об этом плагине я напишу в ближайшем будущем

  Disallow: /?s=  — запрет на индексацию страниц с поиска сайта

 Disallow: /lin  – это тоже вам не нужно, использую эту папку для файлов редиректа

 Host: platon-shhukin.ru  – понятно?

 Sitemap: http://platon-shhukin.ru/sitemap.xml    Sitemap: http://platon-shhukin.ru/sitemap.xml.gz  — думаю тоже не возникло проблем.

 User-agent: *  — открываем доступ к сайту всем роботам

Директивы прописаны отдельно для Яндекса, и отдельно для всех остальных поисковых роботов.

Вот и все, рабочий файл robots.txt для блога на WordPress готов, остается проверить его, но вы то уже знаете как это сделать? Если забыли, то смотрите еще раз в конце статьи проверка и анализ файла robots txt. Теперь остается загрузить файл в коревую папку вашего сайта, и поисковые системы приступят к правильной индексации вашего блога.

Есть вопросы, спрашивайте в комментариях, постараюсь помочь в меру своих знаний.

  • Я честно говоря, при создании блога где-то его скачала и поставила, но потом мне посоветовали убрать Disallow: /tag и Disallow: /category, а в Ворд Пресс поставить галочки Ноиндекс. Чтобы лишнего не грузил робот. Но он пока грузит всё подряд, но не индексирует лишнего — спасибо на этом.

    • Я понял, речь идет о галочки ставятся не в вордпресс а в плагине) Тоже вариант, у меня используются и то и другое)

  • Галина Нагорная

    Привет! Я когда вижу эти слова с роботс — у меня ступор…
    А давай договоримся? Я тебе напишу любую развлекательную статью, а ты посмотришь и откоррегируешь мой роботс?
    Мне его Анжелика Александрова в очередной раз делала — может там и всё правильно, но есть — форум… Как ты на это смотришь?

    • Галина, тебе по старой дружбе сделаю просто так) Вышлю на почту

  • Это основа основ. Убедилась на собственном опыте. Спасибо!

  • Здравствуйте, такая проблема: «Обнаружена неизвестная директива» Как исправить?

  • Приветствую! Вопрос такого плана. Прошерстил весь рунет, везде одно и то же и никто мне не может ответить. Вот вы закрываете доступ гуглу к внутренним папкам Disallow: /wp- А что тогда делать для прохождения проверки на мобильность? Гугл сразу выдает ошибку

    • Да действительно если закрыть Google путь к папкам темы плагинов и скриптам будет выдавать ошибку В этом случае следует открыть директивой Allow путь к следующим файлам

      Allow: /wp-content/uploads/
      Allow: /wp-content/themes/название вашей темы/
      Allow: /wp-content/plugins
      Allow: /wp-includes/

      И все будет в порядке

      • Логично. В итоге получается, что все составляют роботс без оглядки на поисковики?

        • Не совсем так, требование на мобильность от гугла появилось не так давно, многие просто забывают о том, что на сайте есть robots.txt

          • Полгода уже прошло, а все не помнят)))

            • Скажу больше, многие и не подозревают что есть такой файл))

              • Ну может быть и правильно. Ну нет его и ладно)))) Зато никаких заморочек: правильно-неправильно

                • В случае отсутствия файла robots.txt ПС воспринимают как действие а полному сканированию сайта, и как следствие в выдачу попадает много не нужного хлама

  • Ева

    Добрый день Платон! Скажите пожалуйста что делать если ни в корне сайта, ни в теме вордпресса не нахожу robots.txt? через браузер смотрю, он есть с таким содержанием
    User-agent: *

    Disallow: /wp-admin/

    Disallow: /wp-includes/

    если не нахожу можно я создам и добавлю в корень его сама? Будет его робот видеть?

    • Такого не может быть, если через браузер его видно значит он есть в корневой папке сайта. В папке с темой его не должно быть

      • Dmitriy Travkin

        анологичная ситуация, в браузере есть, на хостинге, нет, создал новый, никакой замены не было.

      • Михаил

        Такая же фигня. Браузер показывает, а в папке нет.

  • Ева

    мой ком удалили что ли??(

  • Helen Lisitsina

    А можно ли добавить в роботс страницы, которые проиндексировал Гугл, но они все удаленные, я просто сначала писала название в тайтле, потом добавила вывод : категория — название. Страницы удалились, там у меня настроенная 404 со ссылками на последние статьи. И вот я решила выбрать все страницы в Гугле, их порядка 20 получилось и запретить их индексацию через роботс, так можно или есть более простые способы удалить из индекса несуществующий хлам?

    • Можно удалить в ГуглВебмастере, там есть инструмент удаления страниц. Только условие, либо страницы нет, либо она закрыта к индексации. Если страниц нет, то закрывать их смысла нет. Если правильно настроена ошибка 404, и несуществующие страницы отдают 404 то волноваться вовсе не о чем, это не скажется негативно на ранжирование сайта