Robots.txt и Sitemap: некоторые проблемы с картой сайта

И так, мой дорогой читатель, сегодня речь пойдет о пользе карты сайта (sitemap) и правильности настройки robots.txt. История простая — сайт существовал несколько месяцев, а в индексе Яндекса была всего лишь одна главная страница (морда сайта). На различных форумах подобных историй множество. Выяснение причин методом проб и ошибок позволило докопаться до истины (применительно к моему случаю), чем я и хочу поделиться с Вами. Начнем с небольшого кусочка теории.

Robots.txt — простой файл, созданный в блокноте, в котором указано какие части сайта, файлы, страницы, разделы сайта поисковым системам просматривать и индексировать можно, а какие нельзя.

Карта сайта (sitemap) — это дополнительная подсказка поисковой системе о созданных на сайте страницах. Реализована карта сайта через файл sitemap.xml или sitemap.txt (Яндекс утверждает, что понимает sitemap.txt). Вещь очень полезная, особенно когда сайт очень большой, а сделать перелинковку с главной страницы на недавно созданные нереально. А с помощью специальным образом созданного файла, робот получает всю картину о Вашем сайте. Сам файл карты сайта лежит в корне Вашего сайта и содержит ссылки на все страницы сайта с уточнением, как часто эти страницы индексировать и переиндексировать. Поисковый робот заглядывает на сайт, находит robots.txt, смотрит какие страницы индексировать можно, а какие нельзя. Затем он находит карту сайта и индексирует новые страницы. Все просто, но на первый взгляд.

А теперь будем кидать камень в огород разработчиков, а также в свой огород за доверчивость. Вы создали свой сайт, например блог на WordPress, и решили, что создавать и редактировать sitemap и robots.txt руками — совсем уж прошлый век. Сейчас же все автоматизировано, пара кликов мыши и Вы установили какой-либо SEO-плагин. Еще щелчок и все нужные файлы созданы. Можно расслабиться, наслаждаться жизнью и ждать индексации сайта поисковыми системами. А ждать придется долго.

Конечно, поисковая система поисковой системе рознь, тот же Google найдет все сам без всяких sitemap, mail.ru тоже (так как использует поисковую базу Google), а вот Яндекс торопиться не будет. Можно облазить все настройки, пересмотреть код, переписываться с Платонами, а воз и ныне там.

 А секрет прост — внимательно просмотрите результаты работы SEO-плагина. Подобные плагины создают динамический файл robots.txt и sitenap, которые формируются в момент обращения к ним (то есть физически на сервере таких файлов нет). Поисковый робот запросил карту сайта или robots.txt — пожалуйста, они моментально сформировались.

Подвох может быть самый неожиданный. Например, robots.txt может содержать путь к карте сайта:

Allow: /
Sitemap: http://work-seo.ru/sitemap.xml

Но если Вы вручную этот адрес в robots.txt внесли, то обезопасили себя от множества проблем. Если же в фале robots.txt и в настройках SEO-плагина Вы подобное не вводили (например, плагин не позволяет ввести адрес карты сайта самостоятельно), то адрес карты сайта может быть совершенно другим. У меня он оказался вот таким:

http://work-seo.ru/sitemap.xml.gz

Понятно, что файла с именем sitemap.xml.gz SEO-плагин не создавал. А вот Яндекс, получив адрес этого файла и не найдя его, перестает индексировать сайт. В итоге индексируется только первая страница и больше ничего.

Решение проблемы — отключение функции SEO-плагина, отвечающей за создание robots.txt, создание этого файла вручную и размещение его в корне сайта. При этом sitemap как формировался автоматически, так и продолжает формироваться все тем же SEO-плагином.

Кстати, сам Яндекс говорит, что их поисковые роботы находят все страницы сайта и без sitemap, используя ссылки. На практике это не всегда так. Даже если на конкретную страницу имеется множество внешних ссылок, то, в силу бракованного файла sitemap, Яндекс может не индексировать ни сайт, ни конкретно взятую страницу. В общем, прав был Дмитрий Шахов, вспомнив старую байку: «Яндекс» уже сам не знает, как работает «Яндекс».

Читайте также

YouTube рассказал о своих перспективах YouTube на собственной маркетинговой конференции NewFront в Нью-Йорке рассказали о будущем своего бизнеса: мобильный видео-контент сейчас набирает популярность семимильными шагами, а аудитория YouTube молода и энергична настолько, что вряд ли будут с...
Яндекс меняет поисковую выдачу Все мы привыкли, что в Яндексе и Google на страницах поисковой выдачи по 10 позиций. Быть в первой десятке - именно этого многие добиваются. Правда теперь придется менять свои привычки, ведь Яндекс экспериментирует с поисковой выдачей. Возможно, в ск...
Продвижение сайта или контекстная реклама? Вопрос, волнующий мног... Привлечь клиентов через интернет - цель практически любого владельца сайта. Сайт, просто болтающийся в интернете, бесполезен, каким бы красивым и удобным он ни был. Так какие есть варианты привлечения клиентов? Есть контекстная реклама, есть SEO-пр...
20 лет Яндексу! В это трудно поверить, но поисковой системе Яндекс уже 20 лет! 20 лет Яндекс повсюду с нами, помогая находить в интернете нужную нам информацию. Поисковая система www.yandex.ru была анонсирована 23 сентября 1997 года. С тех пор прошло целых 20 лет...
9 причин, почему контент-маркетинг не работает... Далеко не секрет, что использование контент-маркетинга - это один из самых безопасных способов продвижения сайта. И не секрет, что контент-маркетинг работает не у всех. Мы нашли 9 причин, почему контент-маркетинг не работает именно у вас! Почему т...
Что такое продвижение контентом? Самая актуальная тенденция в мире продвижения - это продвижение сайта контентом. О том, что это такое, какие у данного метода особенности, преимущества и недостатки, читайте далее. Что такое продвижение контентом? Продвижение контентом - это не п...
Какие есть сервисы для анализа сайта?... Доброго дня, дорогой читатель этого блога! Сегодня мы постараемся рассказать Вам о том, какие сервисы можно и нужно использовать для бесплатного анализа сайтов. Итак, Вы новичок и перед Вами стоит простая задача - узнать ситуацию с каким-то сайтом и...
Яндексу не нужна война с SEO-шниками Совсем недавно Яндекс объявил о запуске нового алгоритма (фильтра) по борьбе с ссылочным спамом, который будет пессимизировать сайты, злоупотребляющие покупными внешними ссылки. Однако по словам  руководителя Яндекса по поисковым сервисам Александра ...