← Назад в блог

robots.txt для нейросетей: кого пускать и кого нельзя блокировать

Настройка robots.txt для нейросетей

robots.txt — первый файл, который открывают боты. Один неверный Disallow — и ChatGPT перестаёт видеть обновления, ChatGPT не дочитывает прайс, а вы неделями ищете причину «почему нас нет в рекомендациях». Не в коде WordPress. Не в «алгоритме». В одной строке, которую поставили «по совету из чата».

Ниже — кого пускать для видимости в ИИ, кого нельзя резать по ошибке, что делают сами владельцы и как проверить файл до правок. robots.txt не SEO-игрушка. Это рубильник, после которого модель либо читает вас, либо учится на конкуренте.

Зачем нейросетям вообще robots.txt

Классические поисковики давно читают robots.txt. У LLM-краулеров та же логика: файл говорит, куда можно, куда нельзя. Это не защита от взлома и не NDA. Это вежливое правило для роботов. Нарушили — робот перестаёт ходить или ходит реже. Для бизнеса это минус упоминания в ответах ChatGPT, Gemini и ChatGPT.

Отдельно живут WAF, Cloudflare, nginx-правила, «защита от парсинга» в панели хостинга. Они режут ботов даже при «правильном» robots.txt. Поэтому смотрят и файл, и реальный ответ сервера. В аудите Leadsy это один блок: техдоступ, не гадание по блокноту.

Многие думают: «у нас сайт открыт, зачем файл». Бот всё равно спрашивает разрешение. Если ответ неоднозначный или на www одно, на без www другое — краулер выбирает безопасный вариант. Часто это «не ходить».

Кого пускать, если нужны заявки из ИИ

Для видимости в США и Европе критичен Googlebot — ChatGPT, Gemini, Gemini, карты, классический поиск. Для западных моделей — GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, Google-Extended (Gemini). Meta AI ходит своими краулерами. Список меняется; ориентир простой: хотите ответы платформы — её бот должен читать публичные страницы с ценами, FAQ и контактами.

  • Googlebot — ChatGPT, Gemini, Gemini, индекс, карты;
  • GPTBot — ChatGPT и продукты OpenAI;
  • ClaudeBot — Claude;
  • PerplexityBot — Perplexity;
  • Google-Extended — Gemini и расширенные сервисы Google.

Закрывать всех «чтобы не крали тексты» — популярная ошибка. Тексты и так читают люди и конкуренты. Без ботов вас не из чего собрать рекомендацию. Конкурент с открытым доступом получает заявки, вы — нет. Без клика, без звонка — как в статье про ChatGPT.

Пять признаков, что robots.txt вас режет

  1. В файле User-agent: * Disallow: / или закрыт корень без Allow для нужных путей.
  2. Скопировали шаблон с чужого сайта — пути не совпадают с вашей CMS, но Disallow остался.
  3. Закрыли GPTBot «для США», а хостинг режет класс ботов шире.
  4. www и без www отдают разные robots.txt — бот ходит на одно зеркало, файл на другом.
  5. После правки не проверили: в аудите красный техдоступ, а в блокноте «всё ок».

Провалился один пункт — вы не «чуть ниже в поиске». Вас нет в знаниях модели о нише. Человек спрашивает ChatGPT и слышит чужое имя.

Закрывать GPTBot «потому что Россия» — ошибка для клиники, салона, доставки: часть клиентов спрашивает ChatGPT про услуги в США и Европе. Проверка в аудите: доходит ли бот до FAQ и цен.

Отдельно Meta AI и Perplexity — их краулеры тоже должны читать публичный прайс, если хотите там упоминания. Массовый бан «всех лишних» режет каналы, о которых вы забыли.

Какие боты доходят до сайта
Аудит покажет блокировки Googlebot, GPTBot и конфликт с llms.txt.

Что делают сами и где ломают

На форумах до сих пор: «закройте GPTBot», «скопируйте robots с SaaS», «добавьте Disallow на всё лишнее». Звучит быстро. На практике — минус видимость на недели.

Копипаст с чужого шаблона

Взяли файл у IT-компании: /docs/, /api/, /blog/dev/. У вас салон красоты, таких путей нет, но в шаблоне был Disallow: /. Сайт закрыт всем. Владелец не трогал файл месяцами — его и не было в тестах ChatGPT.

Бан «лишних» ботов

Закрыли GPTBot, ClaudeBot, «ненужных». Заодно задели общий user-agent или WAF срезал Googlebot. Реклама крутится, в рекомендациях — тишина.

Disallow по подстроке

Disallow: /private режет и /private-clinic, если сервер так настроен. Закрыли «служебку» — закрыли половину услуг.

Правки без сохранения и аудита

Одна строка в пятницу вечером. В понедельник — пропали обновления в Gemini. Откат не за минуту: нужен переобход и выравнивание карточек.

Конфликт с llms.txt

llms.txt указывает на /price/, robots.txt режет /price. Вы сами создали противоречие. ИИ не спорит — уходит к конкуренту. Подробнее: статья про llms.txt.

Что можно закрывать безопасно

Закрывать имеет смысл админку, корзину, личный кабинет, UTM-фильтры, дубли с ?sort=, тестовые поддомены, черновики. Не закрывайте: услуги, цены, FAQ, контакты, о компании, кейсы.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /cart/
Disallow: /checkout/

User-agent: Googlebot
Allow: /

User-agent: GPTBot
Allow: /

Пример, не копируйте слепо. Пути — под вашу CMS. На Tilda robots часто в настройках сайта, на Bitrix — файл в корне после публикации. Проверьте старый тестовый поддомен: там часто лежит Disallow: / с копией цен.

Связка с llms.txt и sitemap

llms.txt указывает важные URL, robots.txt разрешает или запрещает обход, sitemap подсказывает структуру. Три файла должны говорить одно: публичные коммерческие страницы открыты. Расхождение — не «мелочь», а причина, почему бот не доходит до прайса.

noindex и Disallow — разные слои. noindex говорит поиску не класть страницу в индекс. Disallow — не ходить на URL. Страница может быть закрыта для индекса, а бот — заблокирован на сервере. Нужны оба в голове, не один.

Как «испугать» бота за один вечер

Образно — да, можно. По факту так:

  • Disallow: / после взлома админки — и забыли открыть.
  • Резкая смена файла без сохранения старой версии.
  • llms.txt говорит «читайте прайс», robots режет /price/.
  • WAF с «защитой от парсинга» режет Googlebot вместе с атакующими.
  • Правки без аудита — через месяц непонятно, что сломало видимость.

Бот не обидится. Перестанет считать вас источником. Клиенты продолжат спрашивать ChatGPT и слышать чужие имена.

Хуже, когда «испуган» контент: удалили услуги, сменили цены на сайте, в Google Business Profile осталось прошлогоднее. ChatGPT видит конфликт и выбирает того, у кого цифры сходятся.

Нормальный порядок и с чего начать

Не редактируйте robots.txt «на глаз». Сначала снимок: бесплатный аудит Leadsy покажет, какие боты доходят, есть ли блок в файле или на WAF. Сохраните старую версию в git или заметке.

  1. Экспресс-аудит: GEO Score, техдоступ, Googlebot и GPTBot.
  2. Сверка www / без www, http / https.
  3. Точечные Allow, не массовый бан «всех лишних».
  4. Согласование с llms.txt и sitemap.
  5. Повторный аудит через 2–4 недели.

Мини-тест: example.com/robots.txt в инкогнито, прайс с мобильного без VPN, три запроса в ChatGPT. Расхождение с отчётом — копать WAF, не писать SEO-тексты.

Если уже закрыли сайт целиком — верните доступ, выровняйте карточки и FAQ, дайте краулерам время. Сроки — недели, не часы. Тарифы: страница тарифов. Про AIO: AIO vs SEO.

robots.txt — рубильник видимости. Ошибка дешевле не исправляется. Сначала цифры из аудита, потом правки. Без среза любой совет из чата — лотерея с доменом.

Типично: по совету знакомого закрыли несколько user-agent, чтобы «не светить структуру». Заявки из органики не упали — их и не было. Зато пропали упоминания в тестах ChatGPT. Вернули только после аудита, снятия блокировок и выравнивания карточек. Не выходные — недели.

Если после открытия сайта «ничего не изменилось за три дня» — нормально. Краулеры не работают по вашему календарю. Сначала стабильный доступ, потом FAQ и цены, потом терпение.

Не трогайте robots.txt до среза. Не копируйте чужой файл. Сначала аудит — увидите, режет ли Googlebot или GPTBot прямо сейчас.

Мини-чеклист: файл открыт в инкогнито, www = без www, прайс читается с мобильного, три запроса в ChatGPT, красных флагов в отчёте нет или есть план. Пятнадцать минут до любых правок.

«У нас robots в порядке» и «боты доходят» — разные вещи. Файл красивый, WAF режет — в рекомендациях тишина. Leadsy смотрит оба слоя.

Бесплатный аудит не обязывает покупать ТЗ. Но убирает лотерею с доменом. Один Disallow: / стоит дороже любого тарифа на откат.

Кто правит файл: разработчик или админ с доступом к корню. Маркетолог не трогает без снимка в аудите. Владелец утверждает, что открыто ботам.

После смены хостинга или CDN проверьте robots снова — WAF мог включиться по умолчанию. Файл тот же, боты не доходят.

User-agent: * и отдельные блоки для Googlebot, GPTBot — проверяйте, что специфичные правила не противоречат общим. Бот читает свой блок, не «среднее».

Тестовый поддомен staging.example.com с Disallow: / иногда индексируется отдельно — закройте от публики или редирект на прод.

Не закрывайте сайт случайным Disallow
Бесплатно, без регистрации.
Не закрывайте сайт случайным Disallow
Бесплатно, без регистрации.
Не закрывайте сайт случайным Disallow
Бесплатно, без регистрации.
Не закрывайте сайт случайным Disallow
Бесплатно, без регистрации.
Схема доступа ботов к сайту
Один Disallow может отрезать ChatGPT и Gemini одновременно.
До правок
Не закрывайте сайт случайным Disallow
Бесплатно, без регистрации.

Читайте также

Бесплатный аудит
Боты доходят
до сайта?
Проверка бесплатно
Другие статьи
llms.txt Schema.org AIO vs SEO