Agent Readiness: почему ваши AI-агенты работают хуже, чем могли бы

Важный вопрос, который часто остается в тени

По данным Stack Overflow Developer Survey 2025, 70% разработчиков, использующих AI-агентов, отмечают сокращение времени на выполнение задач. При этом компании снова и снова фиксируют одно и то же: агент запущен, но результаты нестабильны. Меняют модель - картина та же. Пробуют другой инструмент - снова то же самое.

McKinsey в своём исследовании State of AI 2025 (1993 респондента из 105 стран) зафиксировали: 88% организаций используют AI хотя бы в одной функции, но лишь около трети вышли за пределы пилотного режима. Переход от пилота к масштабированию определяется не столько моделью, сколько готовностью среды, в которой она работает.

Что такое Agent Readiness

Концепцию Agent Readiness представила компания Factory.ai в январе 2026 года как один из первых формализованных подходов к оценке готовности кодовой базы к работе с AI-агентами в рамках развивающихся практик AI-native разработки. Репозитории анализируются по восьми техническим направлениям и размещаются на одном из пяти уровней зрелости.

Идея в том, что AI-агент - это не автономная сущность, а исполнитель в конкретной среде. Качество среды определяет качество результата. Плохо настроенная кодовая база сведёт на нет эффективность любого агента. Хорошо настроенная - сделает его значительно продуктивнее.

Goldman Sachs в своих исследованиях зафиксировали медианный прирост производительности около 30% там, где AI применялся в конкретных, хорошо подготовленных задачах. Ключевое слово - «подготовленных».

Восемь технических направлений: что именно оценивается

  • Стиль и валидация кода

    Есть класс ошибок, которые не требуют запуска программы - линтеры, средства проверки типов и форматтеры обнаруживают их статически, до CI, до деплоя, до ревью. Без них агент делает итерации вслепую: отправил код, дождался пайплайна, получил замечание по отступу, повторил. Поэтому первое, что проверяется при оценке агента - умеет ли он вообще подключать эти инструменты и встраивать их в свой рабочий цикл.

    Примеры инструментов: ESLint / Biome, TypeScript (строгий режим), Prettier / Black.
  • Система сборки

    Детерминированные команды сборки позволяют агентам проверять, что их изменения компилируются и запускаются. Без задокументированных команд агент пробует наугад, получает непонятную ошибку - и останавливается.

    Примеры: задокументированные скрипты сборки, Makefile, скрипты в package.json, конфигурация CI как документация.
  • Тестирование

    Быстрые тесты создают короткие циклы обратной связи. Агент понимает, работают ли его изменения, запускает тесты, анализирует ошибки, итерирует. Медленные или отсутствующие тесты разрывают этот цикл полностью.

    Ориентиры: модульные тесты - до 30 секунд, интеграционные - до 5 минут.
  • Документация

    AGENTS.md, README-файлы, руководства для контрибьюторов фиксируют неформальные знания, которые «и так всем известны» внутри команды. Агент не может считать информацию из обсуждений в Slack или корпоративных чатов - ему нужны явные, машиночитаемые инструкции.
  • Среда разработки

    Воспроизводимые окружения устраняют целые классы ошибок формата «у меня на машине работает». Когда разработчики и агенты работают в одинаковых средах, число ситуационных сбоев резко падает.

    Примеры: Devcontainer, Dockerfile, .tool-versions.
  • Качество кода

    Модульная структура с чёткими границами помогает агентам понимать систему. Файлы на тысячи строк или глубоко вложенные функции превышают лимиты контекста - агент теряет понимание зависимостей.

    Ориентиры: файлы до 500 строк, функции до 50 строк, чёткие границы модулей.
  • Наблюдаемость

    Структурированное логирование, трассировка и метрики превращают «что-то сломалось» в «сбой произошёл, потому что X был null при вызове Y». Без этого агент видит только «ошибка» - без контекста для диагностики.

    Примеры: структурированные JSON-логи, распределённая трассировка, Sentry или аналоги.
  • Безопасность и управление

    Защита веток, сканирование секретов, файл CODEOWNERS - механизмы, которые не дают агентам вносить уязвимости или обходить обязательные ревью. Без них автономные агенты становятся источником системных рисков.

Пять уровней зрелости

Репозитории проходят через пять уровней. Для перехода на следующий необходимо выполнить 80% критериев текущего и всех предыдущих уровней - это принципиальное условие, которое исключает «перепрыгивание» через фундаментальные требования.
Уровень 1: Функциональный
Код запускается, базовые инструменты присутствуют. Агенты с трудом справляются даже с простыми задачами, высокий процент ошибок, требуется постоянное вмешательство.
Уровень 2: Документированный
Рабочие процессы описаны, базовая автоматизация настроена. Агенты способны решать простые задачи под контролем: исправление ошибок, небольшие функции. Примеры репозиториев на этом уровне: Express.js.
Уровень 3: Стандартизированный
Минимальная планка для автономной работы продукционного уровня. Агенты ведут рутинное сопровождение: исправление ошибок, тесты, документация, обновление зависимостей. Примеры: FastAPI, pytest.
Это целевой уровень для большинства команд.
Уровень 4: Оптимизированный
Обратная связь по качеству кода поступает менее чем за минуту. Агенты справляются со сложными многошаговыми задачами: разработка функций, рефакторинг, миграции. Пример: CockroachDB.
Уровень 5: Автономный
Самовосстанавливающиеся системы с продвинутой оркестрацией. Агенты управляют портфелем задач: люди задают направление, агенты исполняют. Лишь немногие организации достигают этого уровня.

Реальные цифры: что показывает сравнение репозиториев

Опубликованные Factory отчёты по популярным open source-проектам показывают: даже успешные проекты сильно отличаются по тому, насколько с ними может работать AI.
Есть всё необходимое: автоматические тесты, CI/CD, документация, проверки безопасности. AI может понять, как устроен проект, внести изменения, автоматически проверить, что ничего не сломалось
74%
Уровень 4
Базовая структура и автоматизация есть, но не везде. AI может помогать (писать код, тесты), но человеку нужно проверять результат.
53%
Уровень 3
Не хватает тестов, автоматизации и формализованных правил. AI не понимает систему целиком и не может безопасно что-то менять.
28%
Уровень 2
Оба крайних проекта - CockroachDB и Express - успешны и широко используются. Разница не в качестве кода как такового, а в том, насколько агент способен автономно работать в этой среде.

Почему точность оценки имеет значение

Agent Readiness оценивает более 60 критериев с участием LLM - и это создаёт проблему недетерминированности. До решения этой задачи разброс оценок для одного и того же репозитория при последовательных запусках достигал в среднем 7%, с пиковыми значениями до 14,5%.

Решение - привязка каждой новой оценки к предыдущему отчёту по тому же репозиторию. После этого разброс снизился до 0,6% и удерживается на этом уровне на протяжении шести недель по девяти бенчмарк-репозиториям с разным исходным уровнем готовности.

Без стабильных оценок метрика теряет смысл как инструмент управления. Доверие к данным - базовое условие любого измерения.

Как устроена оценка технически

Каждый критерий бинарный: выполнен или не выполнен. Большинство сигналов проверяются через наличие файлов или анализ конфигураций: есть ли конфигурация линтера? Включена ли защита веток? Можно ли запустить тесты локально?

Критерии оцениваются на двух уровнях:
  • Уровень репозитория (общий) - проверяются один раз для всего репозитория (наличие CODEOWNERS, включена ли защита веток, настроены ли общие правила безопасности и контроля).
  • Уровень приложения - применяются к каждому приложению в монорепозиториях (настроен ли линтер для каждого приложения, есть ли модульные тесты). В монорепозиториях оценки могут выглядеть как «3/4»: три из четырёх приложений проходят данный критерий.
На уровне организации отслеживается доля активных репозиториев, достигших уровня 3 и выше. «80% наших активных репозиториев готовы для агентов» - более управляемая метрика, чем «средний балл 73,2%».

Автоматизированное устранение проблем

Знать пробелы - половина задачи. Вторая половина - их устранить. После получения отчёта можно запустить автоматическое исправление через CLI или дашборд. Агент создаёт pull request: добавляет недостающие файлы (AGENTS.md), настраивает линтеры, подключает pre-commit хуки.

Первоначальный фокус - на базовых пробелах: отсутствующая документация, недостающие конфигурационные файлы, базовые инструменты. Именно они дают наибольший прирост при минимальных усилиях. То, на что команда тратила дни ручной настройки, выполняется за минуты.

После применения изменений оценку следует запустить повторно - для верификации результата.

Эффект накопления: почему это долгосрочная инвестиция

Улучшения в Agent Readiness накапливаются нелинейно. Более качественные среды делают агентов продуктивнее. Более продуктивные агенты берут на себя больше задач. Это освобождает время разработчиков для дальнейшего улучшения среды - и цикл повторяется.

Важно: это не инвестиция в конкретный инструмент. Более «agent-ready» кодовая база повышает эффективность всех AI-агентов разработки - независимо от того, какой именно инструмент использует команда. Для организаций, которые измеряют прогресс и системно улучшают инфраструктуру, разрыв с остальными будет только расти.

По данным McKinsey & Company, компании, где заметная доля операционной прибыли формируется за счёт AI, системно перестраивают процессы под использование AI, а не просто встраивают модели в существующие рабочие потоки.

Agent Readiness - один из инструментов такой трансформации.

С чего начать

  1. Начните с диагностики: запустите /readiness-report для наиболее активного репозитория команды и зафиксируйте текущий уровень зрелости.
  2. Проанализируйте, какие критерии ещё не выполняются, и последовательно закройте выявленные пробелы - вручную или с использованием автоматизации.
  3. После изменений проведите повторную проверку, чтобы подтвердить прогресс и закрепить результат.
  4. На уровне организации имеет смысл отслеживать долю активных репозиториев, достигших уровня 3 и выше, как устойчивую метрику развития.
Важно: это не разовая настройка, а регулярная управленческая практика, наравне с CI/CD или code review, которая формирует среду для эффективной работы AI-агентов.
Источники: Factory.ai Agent Readiness (2026), Stack Overflow Developer Survey 2025, McKinsey State of AI 2025, Goldman Sachs AI Productivity Research (2025-2026).
Возможно будет интересно