zakrit-sait-ot-indeksaciiДа, мой дорогой читатель, порой возникает необходимость закрыть сайт или его часть от индексации поисковых систем. Причины бывают разные: то сайт на реконструкции и модернизации, то нежелательно показывать какие-либо страницы, папки и документы поисковой машине.

Для начала нужно знать, от какого поисковика Вы хотите закрыть свой сайт. У каждой поисковой системы есть свой список поисковых роботов, к которым можно обращаться по имени в файле robots.txt. Как говорится, для более полной информации обращайтесь на страницы помощи вебмастерам, но некоторый список основных поисковых роботов мы приведем:

  • Yandex — поисковый робот Яндекса.
  • Googlebot — поисковый робот Google.
  • Slurp — поисковый робот Yahoo!.
  • MSNBot — поисковый робот от MSN (поисковая система Bing).
  • SputnikBot — имя робота российского поисковика Спутник от Ростелекома.

Способов закрыть сайт от индексации хватает. Самый первый из них – отредактировать robots.txt.

User-agent: *
Disallow: /

Добавив такой текст, Вы запрещаете индексировать Ваш сайт  любым поисковым системам.

User-agent: Yandex
Disallow: /

Сейчас запрет коснулся только Яндекса.

User-agent: Googlebot
Disallow: /

А в данном примере – только Google.

Закрыть папку, отдельный файл или же группу файлов очень просто. Так закрывается файл:

User-agent: Yandex
Disallow: /folder/file.php

Так закрываются все файлы с разрешением .jpg.

User-Agent: *
Disallow: *.jpg

А вот так закрывается доступ к папке:

User-agent: *
Disallow: /folder/

Можно и комбинировать: закрыть от индексации папку, но разрешить индексировать какой-либо файл в этой папке:

User-agent: *
Аllow: /folder/file.php
Disallow: /folder/

Есть и более простой способ – воспользоваться метатегами. Это особенно актуально, если Вы хотите закрыть  как отдельную страницу сайта, так и весь сайт целиком.

<meta name=”robots” content=”noindex, nofollow”/>

либо

<meta name=”robots” content=”none”/>

Как и в случае с robots.txt, с помощью метатегов можно закрыть сайт от конкретной поисковой системы:

Для Google:
<meta name=”googlebot” content=”noindex, nofollow”/>
Для Яндекса:
<meta name=”yandex” content=”none”/>

Иногда в meta name=”robots” добавляют еще и “noarchive”, запрещающий поисковым системам сохранять сайт в своем кэше (то есть запрещает делать сохраненные копии на серверах Google, Яндекс и других ПС).