Добрый вечер, уважаемые читатели. Сегодня я проглядывал один из разделов серча и увидел тему, где человек спрашивал о том, как выглядит правильный файл robots.txt для wordpress. Я уже надеялся, что больше никогда не увижу таких тредов в 2012 году, так как в миллионе блогов ответили на поставленный вопрос, но не тут-то было! Почему-то раз в неделю стабильно создается топик, в котором спрятан этот вопрос. Ну, что же, тогда мне придется рассказать в своем блоге, как составлять этот пресловутый robots.txt
Итак, первое, что я обязан сказать – это то, что не существует единого файла robots.txt. Это не абстрактный файл, который должен повторяться на каждом сайте. Какую функцию выполняет роботс? Он говорит поисковику: «Мужик, не засовывай страницы, которые я написал ниже, в свой индекс, ах да – ещё отображай мой сайт, пож-та, без www, ну и погляди мою карту сайта, которая расположена по адресу http://site.com/sitemap.xml». Вопрос – почему он должен повторятся? Надеюсь, что все поняли, что robots.txt различается в зависимости от сайта.
После того, как вы уяснили главную мысль этого поста, можно читать дальше. В связи с тем, что мы все работаем с wordpress, то часть нашего файла robots.txt будет повторяться – есть технические страницы, котором в любом случае нечего делать в индексе. Чтобы закрыть эти страницы, нужно использовать следующий шаблон:
Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /attachment
Так, в любом случае ещё нужно указывать, где располагается xml карта сайта, и какой host у сайта. Это делается следующим образом (при условии, что карта сайта лежит в корневой папке):
Host: site.com Sitemap: http://site.com/sitemap.xml
Теперь мы подошли к самому интересному – устранению дублей в wordpress. Более подробно вы сможете прочитать об этом в одной из моих следующих статей, сейчас я вам просто скажу: контент может быть по таксономии МЕТКИ, по таксономии РУБРИКИ, по странице автора /author/, в архиве (год, месяц, день), на index.php. Ваш контент должен быть доступен по одной странице. Вероятней всего, вы выбирите index.php, тогда (только в этом случае), robots.txt будет иметь следующий вид:
User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /archive Disallow: /author Disallow: /2011 Disallow: /2012 Disallow: /2013 Disallow: /attachment Disallow: /tag Disallow: /category Host: site.com User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /archive Disallow: /author Disallow: /2011 Disallow: /2012 Disallow: /2013 Disallow: /attachment Disallow: /tag Disallow: /category Sitemap: http://site.com/sitemap.xml
Считается, что нужно отдельно указывать правила для яндекса, отдельно для всех других поисковиков. Не знаю, насколько это правильно, но данный robots.txt для wordpress работает правильно, так что можно и не экспериментировать. Если у вас возникнут какие-то вопросы, то пишите их в комментарии, я постараюсь на них ответить.
Категории: wordpress
Метки: внутренняя оптимизация