
Компания Cursor, разработчик ИИ‑помощника для программистов, провела масштабный эксперимент по полностью автономной разработке программного обеспечения. Главной целью стало выяснение, способны ли ИИ‑агенты, действуя сообща, с нуля создать сложный программный продукт. В качестве тестовой задачи выбрали разработку браузера — проекта, который обычно требует от человеческих команд многих месяцев или даже лет работы.
В течение недели несколько сотен автономных ИИ‑агентов трудились над заданием. Их совместная работа привела к впечатляющим количественным результатам: было сгенерировано более миллиона строк кода и создано тысячи файлов. Итогом стал рабочий браузер, включающий движок рендеринга, написанный на языке Rust. Исходный код проекта уже размещён в открытом доступе на платформе GitHub.
На первом этапе эксперимента всем агентам предоставили равные права и общий список задач. Однако этот подход оказался провальным: система самоорганизации не заработала. Активную работу вели лишь 2–3 агента, тогда как остальные бездействовали, ожидая указаний. Попытки координировать действия через общие файлы с блокировками приводили к тупиковым ситуациям и существенно замедляли процесс.
Инженеры Cursor пересмотрели архитектуру системы, введя чёткое разделение ролей между агентами. Появились «планировщики» (planners), которые занимаются анализом кода, разбивают работу на отдельные задачи и контролируют общую структуру проекта. Параллельно действуют «исполнители», чья задача — брать конкретные задания и последовательно их реализовывать, не отвлекаясь на вопросы общей координации.
В ходе эксперимента разработчики протестировали различные современные языковые модели. Наилучшие результаты продемонстрировала модель GPT‑5.2. Она показала себя наиболее стабильной и эффективной в роли долгоработающего автономного агента: лучше удерживала фокус на поставленной задаче, тщательнее планировала шаги и чаще доводила начатое до конца, избегая поиска упрощённых решений. В сравнении с ней модели GPT‑5.1 Codex и Claude Opus 4.5 оказались менее устойчивыми — они чаще отказывались от сложных задач или стремились найти «короткий путь», что было неприемлемо для столь масштабного проекта.
Получившийся браузер можно назвать работоспособным — он достаточно быстро и в основном корректно отображает простые веб‑страницы. При этом по качеству и полноте функционала он, разумеется, не может сравниться с промышленными движками вроде WebKit или Chromium. Однако главное достижение эксперимента заключается в другом: он наглядно продемонстрировал принципиальную возможность длительной совместной работы сотен ИИ‑агентов над крупным проектом. Теперь очевидно, что при правильной организации они способны генерировать не разрозненные фрагменты кода, а связное и работоспособное программное обеспечение.
