robots.txt для нейросетей: кого пускать и кого нельзя блокировать
robots.txt — первый файл, который открывают боты. Один неверный Disallow — и ChatGPT перестаёт видеть обновления, ChatGPT не дочитывает прайс, а вы неделями ищете причину «почему нас нет в рекомендациях». Не в коде WordPress. Не в «алгоритме». В одной строке, которую поставили «по совету из чата».
Ниже — кого пускать для видимости в ИИ, кого нельзя резать по ошибке, что делают сами владельцы и как проверить файл до правок. robots.txt не SEO-игрушка. Это рубильник, после которого модель либо читает вас, либо учится на конкуренте.
Зачем нейросетям вообще robots.txt
Классические поисковики давно читают robots.txt. У LLM-краулеров та же логика: файл говорит, куда можно, куда нельзя. Это не защита от взлома и не NDA. Это вежливое правило для роботов. Нарушили — робот перестаёт ходить или ходит реже. Для бизнеса это минус упоминания в ответах ChatGPT, Gemini и ChatGPT.
Отдельно живут WAF, Cloudflare, nginx-правила, «защита от парсинга» в панели хостинга. Они режут ботов даже при «правильном» robots.txt. Поэтому смотрят и файл, и реальный ответ сервера. В аудите Leadsy это один блок: техдоступ, не гадание по блокноту.
Многие думают: «у нас сайт открыт, зачем файл». Бот всё равно спрашивает разрешение. Если ответ неоднозначный или на www одно, на без www другое — краулер выбирает безопасный вариант. Часто это «не ходить».
Кого пускать, если нужны заявки из ИИ
Для видимости в США и Европе критичен Googlebot — ChatGPT, Gemini, Gemini, карты, классический поиск. Для западных моделей — GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, Google-Extended (Gemini). Meta AI ходит своими краулерами. Список меняется; ориентир простой: хотите ответы платформы — её бот должен читать публичные страницы с ценами, FAQ и контактами.
- Googlebot — ChatGPT, Gemini, Gemini, индекс, карты;
- GPTBot — ChatGPT и продукты OpenAI;
- ClaudeBot — Claude;
- PerplexityBot — Perplexity;
- Google-Extended — Gemini и расширенные сервисы Google.
Закрывать всех «чтобы не крали тексты» — популярная ошибка. Тексты и так читают люди и конкуренты. Без ботов вас не из чего собрать рекомендацию. Конкурент с открытым доступом получает заявки, вы — нет. Без клика, без звонка — как в статье про ChatGPT.
Пять признаков, что robots.txt вас режет
- В файле User-agent: * Disallow: / или закрыт корень без Allow для нужных путей.
- Скопировали шаблон с чужого сайта — пути не совпадают с вашей CMS, но Disallow остался.
- Закрыли GPTBot «для США», а хостинг режет класс ботов шире.
- www и без www отдают разные robots.txt — бот ходит на одно зеркало, файл на другом.
- После правки не проверили: в аудите красный техдоступ, а в блокноте «всё ок».
Провалился один пункт — вы не «чуть ниже в поиске». Вас нет в знаниях модели о нише. Человек спрашивает ChatGPT и слышит чужое имя.
Закрывать GPTBot «потому что Россия» — ошибка для клиники, салона, доставки: часть клиентов спрашивает ChatGPT про услуги в США и Европе. Проверка в аудите: доходит ли бот до FAQ и цен.
Отдельно Meta AI и Perplexity — их краулеры тоже должны читать публичный прайс, если хотите там упоминания. Массовый бан «всех лишних» режет каналы, о которых вы забыли.
Что делают сами и где ломают
На форумах до сих пор: «закройте GPTBot», «скопируйте robots с SaaS», «добавьте Disallow на всё лишнее». Звучит быстро. На практике — минус видимость на недели.
Копипаст с чужого шаблона
Взяли файл у IT-компании: /docs/, /api/, /blog/dev/. У вас салон красоты, таких путей нет, но в шаблоне был Disallow: /. Сайт закрыт всем. Владелец не трогал файл месяцами — его и не было в тестах ChatGPT.
Бан «лишних» ботов
Закрыли GPTBot, ClaudeBot, «ненужных». Заодно задели общий user-agent или WAF срезал Googlebot. Реклама крутится, в рекомендациях — тишина.
Disallow по подстроке
Disallow: /private режет и /private-clinic, если сервер так настроен. Закрыли «служебку» — закрыли половину услуг.
Правки без сохранения и аудита
Одна строка в пятницу вечером. В понедельник — пропали обновления в Gemini. Откат не за минуту: нужен переобход и выравнивание карточек.
Конфликт с llms.txt
llms.txt указывает на /price/, robots.txt режет /price. Вы сами создали противоречие. ИИ не спорит — уходит к конкуренту. Подробнее: статья про llms.txt.
Что можно закрывать безопасно
Закрывать имеет смысл админку, корзину, личный кабинет, UTM-фильтры, дубли с ?sort=, тестовые поддомены, черновики. Не закрывайте: услуги, цены, FAQ, контакты, о компании, кейсы.
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /cart/ Disallow: /checkout/ User-agent: Googlebot Allow: / User-agent: GPTBot Allow: /
Пример, не копируйте слепо. Пути — под вашу CMS. На Tilda robots часто в настройках сайта, на Bitrix — файл в корне после публикации. Проверьте старый тестовый поддомен: там часто лежит Disallow: / с копией цен.
Связка с llms.txt и sitemap
llms.txt указывает важные URL, robots.txt разрешает или запрещает обход, sitemap подсказывает структуру. Три файла должны говорить одно: публичные коммерческие страницы открыты. Расхождение — не «мелочь», а причина, почему бот не доходит до прайса.
noindex и Disallow — разные слои. noindex говорит поиску не класть страницу в индекс. Disallow — не ходить на URL. Страница может быть закрыта для индекса, а бот — заблокирован на сервере. Нужны оба в голове, не один.
Как «испугать» бота за один вечер
Образно — да, можно. По факту так:
- Disallow: / после взлома админки — и забыли открыть.
- Резкая смена файла без сохранения старой версии.
- llms.txt говорит «читайте прайс», robots режет /price/.
- WAF с «защитой от парсинга» режет Googlebot вместе с атакующими.
- Правки без аудита — через месяц непонятно, что сломало видимость.
Бот не обидится. Перестанет считать вас источником. Клиенты продолжат спрашивать ChatGPT и слышать чужие имена.
Хуже, когда «испуган» контент: удалили услуги, сменили цены на сайте, в Google Business Profile осталось прошлогоднее. ChatGPT видит конфликт и выбирает того, у кого цифры сходятся.
Нормальный порядок и с чего начать
Не редактируйте robots.txt «на глаз». Сначала снимок: бесплатный аудит Leadsy покажет, какие боты доходят, есть ли блок в файле или на WAF. Сохраните старую версию в git или заметке.
- Экспресс-аудит: GEO Score, техдоступ, Googlebot и GPTBot.
- Сверка www / без www, http / https.
- Точечные Allow, не массовый бан «всех лишних».
- Согласование с llms.txt и sitemap.
- Повторный аудит через 2–4 недели.
Мини-тест: example.com/robots.txt в инкогнито, прайс с мобильного без VPN, три запроса в ChatGPT. Расхождение с отчётом — копать WAF, не писать SEO-тексты.
Если уже закрыли сайт целиком — верните доступ, выровняйте карточки и FAQ, дайте краулерам время. Сроки — недели, не часы. Тарифы: страница тарифов. Про AIO: AIO vs SEO.
robots.txt — рубильник видимости. Ошибка дешевле не исправляется. Сначала цифры из аудита, потом правки. Без среза любой совет из чата — лотерея с доменом.
Типично: по совету знакомого закрыли несколько user-agent, чтобы «не светить структуру». Заявки из органики не упали — их и не было. Зато пропали упоминания в тестах ChatGPT. Вернули только после аудита, снятия блокировок и выравнивания карточек. Не выходные — недели.
Если после открытия сайта «ничего не изменилось за три дня» — нормально. Краулеры не работают по вашему календарю. Сначала стабильный доступ, потом FAQ и цены, потом терпение.
Не трогайте robots.txt до среза. Не копируйте чужой файл. Сначала аудит — увидите, режет ли Googlebot или GPTBot прямо сейчас.
Мини-чеклист: файл открыт в инкогнито, www = без www, прайс читается с мобильного, три запроса в ChatGPT, красных флагов в отчёте нет или есть план. Пятнадцать минут до любых правок.
«У нас robots в порядке» и «боты доходят» — разные вещи. Файл красивый, WAF режет — в рекомендациях тишина. Leadsy смотрит оба слоя.
Бесплатный аудит не обязывает покупать ТЗ. Но убирает лотерею с доменом. Один Disallow: / стоит дороже любого тарифа на откат.
Кто правит файл: разработчик или админ с доступом к корню. Маркетолог не трогает без снимка в аудите. Владелец утверждает, что открыто ботам.
После смены хостинга или CDN проверьте robots снова — WAF мог включиться по умолчанию. Файл тот же, боты не доходят.
User-agent: * и отдельные блоки для Googlebot, GPTBot — проверяйте, что специфичные правила не противоречат общим. Бот читает свой блок, не «среднее».
Тестовый поддомен staging.example.com с Disallow: / иногда индексируется отдельно — закройте от публики или редирект на прод.