Правильный файл robots.txt для wordpress

Добрый вечер, уважаемые читатели. Сегодня я проглядывал один из разделов серча и увидел тему, где человек спрашивал о том, как выглядит правильный файл robots.txt для wordpress. Я уже надеялся, что больше никогда не увижу таких тредов в 2012 году, так как в миллионе блогов ответили на поставленный вопрос, но не тут-то было! Почему-то раз в неделю стабильно создается топик, в котором спрятан этот вопрос. Ну, что же, тогда мне придется рассказать в своем блоге, как составлять этот пресловутый robots.txt

Правильный файл robots.txt для wordpress

Итак, первое, что я обязан сказать – это то, что не существует единого файла robots.txt. Это не абстрактный файл, который должен повторяться на каждом сайте. Какую функцию выполняет роботс? Он говорит поисковику: «Мужик, не засовывай страницы, которые я написал ниже, в свой индекс, ах да – ещё отображай мой сайт, пож-та, без www, ну и погляди мою карту сайта, которая расположена по адресу http://site.com/sitemap.xml». Вопрос – почему он должен повторятся? Надеюсь, что все поняли, что robots.txt различается в зависимости от сайта.

После того, как вы уяснили главную мысль этого поста, можно читать дальше. В связи с тем, что мы все работаем с wordpress, то часть нашего файла robots.txt будет повторяться – есть технические страницы, котором в любом случае нечего делать в индексе. Чтобы закрыть эти страницы, нужно использовать следующий шаблон:

Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /attachment

Так, в любом случае ещё нужно указывать, где располагается xml карта сайта, и какой host у сайта. Это делается следующим образом (при условии, что карта сайта лежит в корневой папке):

Host: site.com
Sitemap: http://site.com/sitemap.xml

Теперь мы подошли к самому интересному – устранению дублей в wordpress. Более подробно вы сможете прочитать об этом в одной из моих следующих статей, сейчас я вам просто скажу: контент может быть по таксономии МЕТКИ, по таксономии РУБРИКИ, по странице автора /author/, в архиве (год, месяц, день), на index.php. Ваш контент должен быть доступен по одной странице. Вероятней всего, вы выбирите index.php, тогда (только в этом случае), robots.txt будет иметь следующий вид:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /archive
Disallow: /author
Disallow: /2011
Disallow: /2012
Disallow: /2013
Disallow: /attachment
Disallow: /tag
Disallow: /category
Host: site.com

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /archive
Disallow: /author
Disallow: /2011
Disallow: /2012
Disallow: /2013
Disallow: /attachment
Disallow: /tag
Disallow: /category

Sitemap: http://site.com/sitemap.xml

Считается, что нужно отдельно указывать правила для яндекса, отдельно для всех других поисковиков. Не знаю, насколько это правильно, но данный robots.txt для wordpress работает правильно, так что можно и не экспериментировать. Если у вас возникнут какие-то вопросы, то пишите их в комментарии, я постараюсь на них ответить.

Категории: wordpress

Метки: