Да, мой дорогой читатель, порой возникает необходимость закрыть сайт или его часть от индексации поисковых систем. Причины бывают разные: то сайт на реконструкции и модернизации, то нежелательно показывать какие-либо страницы, папки и документы поисковой машине.
Для начала нужно знать, от какого поисковика Вы хотите закрыть свой сайт. У каждой поисковой системы есть свой список поисковых роботов, к которым можно обращаться по имени в файле robots.txt. Как говорится, для более полной информации обращайтесь на страницы помощи вебмастерам, но некоторый список основных поисковых роботов мы приведем:
- Yandex — поисковый робот Яндекса.
- Googlebot — поисковый робот Google.
- Slurp — поисковый робот Yahoo!.
- MSNBot — поисковый робот от MSN (поисковая система Bing).
- SputnikBot — имя робота российского поисковика Спутник от Ростелекома.
Способов закрыть сайт от индексации хватает. Самый первый из них — отредактировать robots.txt.
User-agent: *
Disallow: /
Добавив такой текст, Вы запрещаете индексировать Ваш сайт любым поисковым системам.
User-agent: Yandex
Disallow: /
Сейчас запрет коснулся только Яндекса.
User-agent: Googlebot
Disallow: /
А в данном примере — только Google.
Закрыть папку, отдельный файл или же группу файлов очень просто. Так закрывается файл:
User-agent: Yandex
Disallow: /folder/file.php
Так закрываются все файлы с разрешением .jpg.
User-Agent: *
Disallow: *.jpg
А вот так закрывается доступ к папке:
User-agent: *
Disallow: /folder/
Можно и комбинировать: закрыть от индексации папку, но разрешить индексировать какой-либо файл в этой папке:
User-agent: *
Аllow: /folder/file.php
Disallow: /folder/
Есть и более простой способ — воспользоваться метатегами. Это особенно актуально, если Вы хотите закрыть как отдельную страницу сайта, так и весь сайт целиком.
<meta name=»robots» content=»noindex, nofollow»/>
либо
<meta name=»robots» content=»none»/>
Как и в случае с robots.txt, с помощью метатегов можно закрыть сайт от конкретной поисковой системы:
Для Google:
<meta name=»googlebot» content=»noindex, nofollow»/>
Для Яндекса:
<meta name=»yandex» content=»none»/>
Иногда в meta name=»robots» добавляют еще и «noarchive», запрещающий поисковым системам сохранять сайт в своем кэше (то есть запрещает делать сохраненные копии на серверах Google, Яндекс и других ПС).