Да, мой дорогой читатель, порой возникает необходимость закрыть сайт или его часть от индексации поисковых систем. Причины бывают разные: то сайт на реконструкции и модернизации, то нежелательно показывать какие-либо страницы, папки и документы поисковой машине.
Для начала нужно знать, от какого поисковика Вы хотите закрыть свой сайт. У каждой поисковой системы есть свой список поисковых роботов, к которым можно обращаться по имени в файле robots.txt. Как говорится, для более полной информации обращайтесь на страницы помощи вебмастерам, но некоторый список основных поисковых роботов мы приведем:
- Yandex — поисковый робот Яндекса.
- Googlebot — поисковый робот Google.
- Slurp — поисковый робот Yahoo!.
- MSNBot — поисковый робот от MSN (поисковая система Bing).
- SputnikBot — имя робота российского поисковика Спутник от Ростелекома.
Способов закрыть сайт от индексации хватает. Самый первый из них – отредактировать robots.txt.
User-agent: *
Disallow: /
Добавив такой текст, Вы запрещаете индексировать Ваш сайт любым поисковым системам.
User-agent: Yandex
Disallow: /
Сейчас запрет коснулся только Яндекса.
User-agent: Googlebot
Disallow: /
А в данном примере – только Google.
Закрыть папку, отдельный файл или же группу файлов очень просто. Так закрывается файл:
User-agent: Yandex
Disallow: /folder/file.php
Так закрываются все файлы с разрешением .jpg.
User-Agent: *
Disallow: *.jpg
А вот так закрывается доступ к папке:
User-agent: *
Disallow: /folder/
Можно и комбинировать: закрыть от индексации папку, но разрешить индексировать какой-либо файл в этой папке:
User-agent: *
Аllow: /folder/file.php
Disallow: /folder/
Есть и более простой способ – воспользоваться метатегами. Это особенно актуально, если Вы хотите закрыть как отдельную страницу сайта, так и весь сайт целиком.
<meta name=”robots” content=”noindex, nofollow”/>
либо
<meta name=”robots” content=”none”/>
Как и в случае с robots.txt, с помощью метатегов можно закрыть сайт от конкретной поисковой системы:
Для Google:
<meta name=”googlebot” content=”noindex, nofollow”/>
Для Яндекса:
<meta name=”yandex” content=”none”/>
Иногда в meta name=”robots” добавляют еще и “noarchive”, запрещающий поисковым системам сохранять сайт в своем кэше (то есть запрещает делать сохраненные копии на серверах Google, Яндекс и других ПС).