Как настроить llms.txt и почему одного файла мало
llms.txt — текстовый файл в корне сайта, где вы перечисляете, какие страницы важны для языковых моделей. Идея простая: помочь боту не гадать. На практике один файл решает мало, а одна ошибка в пути — и вы сами отправили нейросеть не туда.
Ниже — как устроен llms.txt, что туда писать, типичные косяки при самостоятельной настройке и почему после «быстрого фикса» видимость иногда падает, а не растёт.
Что такое llms.txt и зачем он
Формат предложили как аналог robots.txt, но для LLM-краулеров. В файле обычно:
- краткое описание компании или проекта;
- список URL с пояснениями: услуги, цены, FAQ, контакты;
- иногда ссылки на markdown-версии страниц или sitemap для моделей.
Файл не гарантирует попадание в рекомендации. Он снижает шанс, что бот возьмёт случайную страницу — блог 2019 года, устаревшую акцию, черновик в тестовой папке.
Без llms.txt модель всё равно может вас найти. С кривым llms.txt она может «учиться» на мусоре быстрее, чем без файла.
Кто читает файл: GPTBot от OpenAI, ClaudeBot, PerplexityBot и другие LLM-краулеры. Googlebot пока опирается на свой индекс и Gemini, но пересечение по практике есть: чистая структура сайта помогает всем. Файл не заменяет индексацию в Google, но снижает шанс, что западная модель возьмёт не ту страницу при ответе англоязычному пользователю.
Не путайте llms.txt с llms-full.txt и зеркалами на GitHub. Берите спецификацию с официального репозитория формата, но содержимое пишите под свой домен. Шаблоны из статей часто с полями author, version, которые вам не нужны и только шумят.
Пять признаков кривого llms.txt
- Пути из чужого шаблона ведут в 404 на вашем домене.
- 50+ URL — модель не понимает, что главное.
- Указали прайс в PDF — бот видит ссылку, не видит цифр.
- robots.txt режет страницы из файла — конфликт сами с собой.
- Файл не обновляли после смены URL услуг — мёртвые ссылки.
Кривой указатель хуже отсутствия: бот ходит, находит мусор, фиксирует нестабильность.
Минимальный рабочий пример
Структура без претензии на стандарт (их пока нет единых):
# Название компании > Кратко: чем занимаетесь, город, для кого. ## Услуги и цены - https://example.com/uslugi/ — прайс и сроки - https://example.com/faq/ — ответы клиентам ## О компании - https://example.com/about/ — лицензии, команда ## Контакты - https://example.com/contacts/
Каждый URL должен открываться, отдавать 200, совпадать с тем, что на сайте и в картах. Редиректы на другой домен, http вместо https, опечатка в пути — уже ошибка.
Комментарии после URL необязательны, но помогают: «прайс актуален на май», «лицензия клиники», «FAQ для записи». Одна строка контекста снижает шанс, что модель возьмёт страницу не по назначению.
Почему одного файла катастрофически мало
llms.txt не заменяет:
- нормальный коммерческий контент на страницах;
- Schema.org и FAQ с реальными вопросами;
- согласованные карточки в Google Business Profile и Yelp;
- открытый доступ нужным ботам в robots.txt;
- отзывы и упоминания снаружи.
Файл — указатель. Если по указателю ведёт в пустой зал, модель не станет вас рекомендовать. Многие владельцы тратят вечер на llms.txt и не трогают цены на сайте. ChatGPT в ответе называет того, у кого цены и адрес сходятся везде.
Про общую картину AIO: статья про AIO vs SEO. Про ChatGPT: рекомендации ChatGPT.
Где лежит файл: только /llms.txt в корне домена, не в подпапке, не переименованный в txt.pdf. Для поддоменов blog.example.com и example.com — разные файлы, если хотите видимость обоих. На Tilda и конструкторах иногда нужен отдельный блок «файл в корне», иначе редактор положит страницу, а не текстовый ресурс.
Обновляйте llms.txt при смене прайса, акций, URL услуг. Старый файл с мёртвыми ссылками хуже отсутствия: бот ходит, находит 404, фиксирует нестабильность. Раз в квартал сверка с sitemap — нормальный минимум для живого бизнеса.
На лендинге из одной страницы файл почти бессмысленен — бот и так видит только её. На многостраничном сайте без llms.txt модель чаще берёт блог, пресс-релиз или устаревшую акцию. Вы сами не указали, что главное.
Markdown-версии страниц помогают, если совпадают с HTML и там есть цены. Файл с ссылками на пустые markdown без цифр — снова указатель в пустой зал.
Ошибки при самостоятельной настройке
Копипаст с чужого сайта
Скачали llms.txt у SaaS-шаблона. Пути /docs/, /api/, /pricing/ на вашем домене ведут в 404. Бот фиксирует мусор. Доверие к домену не растёт.
Указали всё подряд
50 URL включая служебные, теги, дубли городов. Модель не понимает, что главное. Лучше пять сильных страниц, чем пятьдесят шумных.
Забыли про https и слэш
example.com/uslugi и example.com/uslugi/ для вас одно, для краулера может быть разное. Берите канонический адрес из sitemap.
Выложили и не проверили
Файл лежит, но nginx отдаёт 404 на /.well-known/ или кеш старой версии. Проверка: открыть в инкогнито, прогнать URL в аудите Leadsy.
Закрыли ботов после публикации
llms.txt говорит «читайте нас», robots.txt говорит «нельзя». ИИ не спорит, он просто уходит. Так «испугивают» видимость за один вечер.
Версия для английского сайта
Два языка — два набора URL в одном файле или два файла на разных доменах. Смешали ru и en без пометок — модель путает географию и валюту. Для США-компании с en-версией явно подпишите секции.
Автогенерация из sitemap
Скрипт выгрузил 500 URL в llms.txt. Формально красиво, по смыслу мусор. Лучше ручной отбор, чем «пусть робот сам разберётся».
Порядок работ, если делаете сами
- Аудит до правок. Узнайте, видят ли вас боты и что уже сломано.
- Список 5–10 канонических URL: услуги, цены, FAQ, о компании, контакты.
- Проверка каждого URL вручную и в отчёте.
- Публикация /llms.txt в корне, без BOM, UTF-8.
- Согласование с robots.txt: нужные user-agent не в Disallow.
- Повторный аудит через неделю, не раньше — дайте краулерам время.
Если в экспресс-аудите красная зона по техдоступу или schema — сначала это. llms.txt вторым этапом, не первым.
Когда лучше заказать
Нет разработчика, сайт на конструкторе с кривыми URL, несколько поддоменов, старый WordPress с дублями — самоделка обойдётся дороже исправления. Один неверный Disallow в robots.txt перечёркивает аккуратный llms.txt.
Leadsy делает полный аудит с ТЗ: какие URL в llms.txt, что править в schema, что открыть ботам. Внедрение под ключ — если некому вносить на сервере.
С чего начать сегодня
Не копируйте чужой llms.txt. Не публикуйте файл до аудита. Не закрывайте ботов «на всякий случай».
Сначала срез в форме ниже. Потом 5–10 URL с живым контентом. Сверка с robots.txt. Повторный аудит через неделю — не раньше.
Пример: стоматология указала пять URL, но прайс был в PDF. Бот видел ссылку, не видел цен. ChatGPT называла клинику с ценами в HTML. Вынесли прайс на страницу — сдвиг без расширения файла.
Типично: вечер на llms.txt, цены на сайте не трогали. ChatGPT в ответе называет того, у кого цифры в HTML и картах сходятся. Файл не заменяет прайс.
На WordPress — FTP или статика в корень. На Bitrix — публичная часть. На Tilda — zero block «документ». Проверка одна: текст открывается по прямой ссылке в инкогнито, не «загрузили в админке».
UTF-8 без BOM. Если вместо текста отдаётся HTML-страница 404 — боты уходят, доверие падает.
Приоритет без разработчика: (1) аудит, (2) телефон и адрес на сайте = карты, (3) цены и FAQ в HTML, (4) robots.txt, (5) schema, (6) llms.txt, (7) повторный срез. Прыжок к шестому без 2–4 — самый частый провал.
Если файл уже стоит, а трафик из ИИ нулевой — не удаляйте в панике. Найдите, что сильнее ломает картину. Удаление без диагностики оставляет дыры и минус один указатель.
llms.txt усиливает то, что уже собрано. Пустой сайт файл не спасёт. Тарифы: страница тарифов. Вопросы: FAQ.
Бесплатный аудит покажет, есть ли файл, читают ли боты страницы из него и что чинить раньше. Без среза один вечер с кривым файлом может стоить месяца видимости.
Кто в компании ведёт llms.txt: разработчик кладёт файл, маркетинг даёт список URL, владелец утверждает прайс и услуги. Один человек «накидал ссылок» без сверки — типичный провал.
Не удаляйте файл в панике, если «не сработало за неделю». Сначала карточки, schema, robots. Потом снова смотрите на указатель.
Отдельно про хостинг с WAF: allowlist для LLM-краулеров важнее нового абзаца на главной. Видно в аудите по техдоступу.
Типично: выложили llms.txt, забыли про прайс в HTML. ChatGPT называет клинику с ценами на странице. Файл не заменил контент — только указал, куда смотреть.
Не более 10–15 строк в файле для многостраничного сайта. Остальное — sitemap. Иначе размываете главное.
Связка с schema и FAQ: указатель ведёт на страницы с фактами, не на пустышки.