С появлением нейросетей актуальным стал вопрос: а как защитить или закрыть свой сайт чтобы нейросети не использовали ваш контент для тренировки и обучения? Сейчас расскажем.

Нейросетей сейчас очень много. Далеко не все крупные компании, разрабатывающие проприетарные нейросети и большие языковые модели, предоставили инструменты для вебмастеров, чтобы можно было запретить нейросетям использовать контент тех или иных сайтов. Самыми большими языковыми моделями являются ChatGPT от Open AI, нейросети от Google, а также YandexGPT. Речь пойдет о них.

Почему это важно?

Во-первых, многие заботятся об уникальности контента и борются с его копированием всеми доступными способами. А когда нейросеть использует для обучения ваш контент, то она может создавать похожие тексты на его основе. Вполне возможно, что позиции вашего сайта в перспективе снизятся из-за того, что кто-то другой разместил похожий контент, созданный нейросетями на базе вашего.

Во-вторых, при анализе сайтов нейросети поступают также как и обычные боты поисковых систем — сканируют сайт, обходят его страницы, загружая контент. И, как ни странно, создавая дополнительную нагрузку на сервер, где размещен ваш сайт. Скорость загрузки сайта может снизится и это доставит дискомфорт реальным вашим посетителям.

К слову, холдинг VK закрыл доступ для ChatGPT к Дзен, аргументировав это именно большой нагрузкой, создаваемой процессом сканирования данных нейросетью.

Как закрыть ChatGPT доступ к сайту?

Закрыть доступ ChatGPT к вашему сайту можно через директиву в robots.txt.

User-agent: GPTBot
Disallow: /

Как закрыть Bard и VertexAI доступ к сайту?

Для запрета доступа к сайту нейросетям Bard и VertexAI компания Google советует добавить следующую директиву:

User-agent: Google-Extended
Disallow: /

Как закрыть YandexGPT доступ к сайту?

С YandexGPT ситуация  аналогичная — нужно добавить следующую директиву в robots.txt:

User-Agent: YandexAdditional
Disallow: /

Правда помните, что закрыть сайт «задним числом» не получится. И если ваш контент уже был использован для тренировки нейросетей, то с этим уже ничего нельзя сделать. Добавляя вышеуказанные директивы после того как нейросети обучились на вашем сайте, вы скрываете от нейросетей только лишь те материалы и контент, которые будут опубликованы в будущем.