Robots.txt и Sitemap: некоторые проблемы с картой сайта

И так, мой дорогой читатель, сегодня речь пойдет о пользе карты сайта (sitemap) и правильности настройки robots.txt. История простая — сайт существовал несколько месяцев, а в индексе Яндекса была всего лишь одна главная страница (морда сайта). На различных форумах подобных историй множество. Выяснение причин методом проб и ошибок позволило докопаться до истины (применительно к моему случаю), чем я и хочу поделиться с Вами. Начнем с небольшого кусочка теории.

Robots.txt — простой файл, созданный в блокноте, в котором указано какие части сайта, файлы, страницы, разделы сайта поисковым системам просматривать и индексировать можно, а какие нельзя.

Карта сайта (sitemap) — это дополнительная подсказка поисковой системе о созданных на сайте страницах. Реализована карта сайта через файл sitemap.xml или sitemap.txt (Яндекс утверждает, что понимает sitemap.txt). Вещь очень полезная, особенно когда сайт очень большой, а сделать перелинковку с главной страницы на недавно созданные нереально. А с помощью специальным образом созданного файла, робот получает всю картину о Вашем сайте. Сам файл карты сайта лежит в корне Вашего сайта и содержит ссылки на все страницы сайта с уточнением, как часто эти страницы индексировать и переиндексировать. Поисковый робот заглядывает на сайт, находит robots.txt, смотрит какие страницы индексировать можно, а какие нельзя. Затем он находит карту сайта и индексирует новые страницы. Все просто, но на первый взгляд.

А теперь будем кидать камень в огород разработчиков, а также в свой огород за доверчивость. Вы создали свой сайт, например блог на WordPress, и решили, что создавать и редактировать sitemap и robots.txt руками — совсем уж прошлый век. Сейчас же все автоматизировано, пара кликов мыши и Вы установили какой-либо SEO-плагин. Еще щелчок и все нужные файлы созданы. Можно расслабиться, наслаждаться жизнью и ждать индексации сайта поисковыми системами. А ждать придется долго.

Конечно, поисковая система поисковой системе рознь, тот же Google найдет все сам без всяких sitemap, mail.ru тоже (так как использует поисковую базу Google), а вот Яндекс торопиться не будет. Можно облазить все настройки, пересмотреть код, переписываться с Платонами, а воз и ныне там.

 А секрет прост — внимательно просмотрите результаты работы SEO-плагина. Подобные плагины создают динамический файл robots.txt и sitenap, которые формируются в момент обращения к ним (то есть физически на сервере таких файлов нет). Поисковый робот запросил карту сайта или robots.txt — пожалуйста, они моментально сформировались.

Подвох может быть самый неожиданный. Например, robots.txt может содержать путь к карте сайта:

Allow: /
Sitemap: http://work-seo.ru/sitemap.xml

Но если Вы вручную этот адрес в robots.txt внесли, то обезопасили себя от множества проблем. Если же в фале robots.txt и в настройках SEO-плагина Вы подобное не вводили (например, плагин не позволяет ввести адрес карты сайта самостоятельно), то адрес карты сайта может быть совершенно другим. У меня он оказался вот таким:

http://work-seo.ru/sitemap.xml.gz

Понятно, что файла с именем sitemap.xml.gz SEO-плагин не создавал. А вот Яндекс, получив адрес этого файла и не найдя его, перестает индексировать сайт. В итоге индексируется только первая страница и больше ничего.

Решение проблемы — отключение функции SEO-плагина, отвечающей за создание robots.txt, создание этого файла вручную и размещение его в корне сайта. При этом sitemap как формировался автоматически, так и продолжает формироваться все тем же SEO-плагином.

Кстати, сам Яндекс говорит, что их поисковые роботы находят все страницы сайта и без sitemap, используя ссылки. На практике это не всегда так. Даже если на конкретную страницу имеется множество внешних ссылок, то, в силу бракованного файла sitemap, Яндекс может не индексировать ни сайт, ни конкретно взятую страницу. В общем, прав был Дмитрий Шахов, вспомнив старую байку: «Яндекс» уже сам не знает, как работает «Яндекс».

Читайте также

Как учитывать расходы на создание, обновление и продвижение сайта... Создание сайта сейчас сравнимо с жизненной необходимостью для большинства компаний. Однако до сих пор возникают вопросы как учитывать расходы на создание, модернизацию и продвижение сайта. К расходам на создание сайта относится, в частности, стоимос...
С Днем оптимизатора! А Вы знали, что 28 мая свой профессиональный праздник отмечают SEO-оптимизаторы? Наверняка нет. И мы поздравляем с этим праздником всех, кто так или иначе связан с поисковым продвижением. Первые SEO-специалисты появились в конце 90-х годов прошлог...
PageRank Google больше не актуален? Google не перестает печалить SEO-оптимизаторов. Недавно поисковый гигант подтвердил удаление Toolbar PageRank. И если Вы используете инструмент или браузер, позволяющий получать данные PageRank от Google, то в течение следующих недель они перестанут ...
Налогообложение веб-студий и SEO-компаний... И так, Вы решили открыть свою веб-студию или SEO-компанию. Перед регистрацией в качестве юридического лица или индивидуального предпринимателя подумайте о том, какую систему налогообложения выбрать. Ведь не все так просто как кажется. ОСН или УС...
Что должны знать заказчики при создании сайта?... При создании сайтов многие клиенты отдают все на откуп программистам. Принцип такой "я заплатил деньги - создайте мне сайт, Вы же специалисты". В какой-то мере такой был бы подход оправдан, если бы создатели сайта подходили к своему делу ответствен...
Каким должен быть отзыв в крауд-маркетинге?... С развитием поисковых систем перестают работать "старые, добрые и проверенные" методы продвижения - ссылки. Поисковые гиганты достаточно просто отличают SEO-ссылки от естественных. Но как получить естественные ссылки в эпоху Минусинска? На помощь п...
Яндекс и микроразметка Schema.org Яндекс опять обновил свой поисковый функционал, и отныне в поисковой выдаче по запросам, связанным с программным обеспечением и играми поддерживается разметка Schema.org. В итоге, если Вы ищите какую-либо программу, то в поисковой выдаче Яндекса Вы с...
Как продвигаются Langing Page Как продвигаются лендинги? Такой вопрос нам часто задают многие наши клиенты. Landing Page (или Лендинг пейдж посадочная страница, продающая страница) - это весьма уникальный вид сайта. Сайт-одностраничник, на котором умещается уйма информации...