Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Краткое содержание

В видео сравниваются топовые нейросетевые модели в задачах программирования, включая создание проектов "с нуля" по одному промпту. Рассматриваются модели от Anthropic, Google, OpenAI, а также open-source решения. Основные этапы тестирования включают создание fantasy RPG to-do list, парсера проблем с Reddit, админки для Docker контейнеров, системы для автоматического дубляжа видео и 3D-модели в Blender. GPT 5.2 показал наилучшие результаты в большинстве тестов, а Composer оказался самым быстрым, но с менее впечатляющими результатами. Подчеркивается важность комбинации инструмента и модели, а также возможность создания MVP стартапов в один промпт.

Сравнение топовых нейросетевых моделей в задачах программирования.
Тестирование моделей на различных проектах, от fantasy RPG to-do list до 3D-моделирования.
GPT 5.2 лидирует по результатам, Composer самый быстрый, Gemini 3 Flash - оптимальный по соотношению цена/качество.
Возможность создания MVP стартапов в один промпт.

Начало [0:00]

Автор рассказывает о быстром развитии нейросетей и конкуренции между Google (Gemini 3 Pro, Flash), Anthropic (Opus) и OpenAI (GPT 5.1, 5.2). В видео планируется сравнить топовые модели из лидербордов на VIP кодинг тестах, заставляя их сделать сложные проекты в один промпт, чтобы определить лучшую модель для программирования. Автор также представляется как разработчик, тестирующий нейросети и инструменты, ищущий реально работающие решения.

Какие модели сравниваем и где [0:38]

Автор перечисляет сравниваемые модели: Anthropic Sonnet 4.5 и Opus 4.5, Google Gemini 3 Pro и Flash, OpenAI GPT 5.2, Composer 1 от Cursor, Kimi K2, GLM 4.7 и Qwen 3 Max. GPT Pro от OpenAI не тестируется из-за высокой стоимости использования через API. В качестве среды разработки используется Cursor для большинства моделей и Cline для остальных. Для доступа к моделям по API используется Polza AI, агрегатор API, предлагающий удобную интеграцию и оплату без VPN.

Fantasy RPG TODO list [2:44]

Первый тест - создание базового to-do list в стиле фэнтези RPG с ачивками и предметами. Для вдохновения используются изображения с Pinterest, описанные GPT для создания промпта. Условия тестирования: один стартовый промпт и до пяти дополнительных вызовов модели для исправления багов. В промпте указано, что иконки квестов должны быть эмодзи, сгенерированные LLM, а ачивки должны сопровождаться текстом от нейронки.

Результаты первого теста [4:40]

Composer создал страшноватый дизайн без ачивок и предметов. GLM 4.7 создала рабочий продукт, но квесты не помечаются выполненными, а ачивок нет. Kimi K2 создает задачи, но не завершает их и постоянно зависает. Gemini Flash работает более-менее, но без предметов. Qwen 3 Max не смог дописать код. GPT все работает, дизайн норм, механики есть. Gemini Pro не смог запустить создание квестов после фиксов. Sonnet работает, дизайн средний. Opus сделал все как надо: ачивки, предметы, иконки, крутой дизайн и шрифты.

Парсер проблем с Reddit [5:35]

Вторая задача - создание системы для сбора информации с Reddit, выявления проблем пользователей и построения карты этих проблем. Сбор данных осуществляется через PlayWright с использованием прокси NodMaven для избежания блокировок. NodMaven предлагает чистые IP и фильтрацию по локации и качеству прокси. Для проекта выбрана локация США, Калифорния.

Результаты второго теста [7:23]

Composer не справился. GLM 4.7 запускается, но ничего не получает. Kimi K2 открывает фронтенд, но ничего не стартует. Gemini Flash исправил все за два промпта, карта работает. Qwen 3 Max не завелся, система не находит информацию. GPT заработала сразу, после двух промптов исправлены мелкие детали. Gemini 3 Pro запустился, но ничего не нашлось. Sonnet работает, но комменты не подгрузились. Opus сделал все за три доп промпта.

Админка для Docker контейнеров [8:04]

Третья задача - создание кастомной админки для Docker контейнеров с возможностью поднимать паблик репозитории без логина, алертами в Telegram и встроенным редактором. Промпт включает требования к интеграции с GitHub, редактору, настройке доменов и HTTPS.

Результаты третьего теста [8:54]

Composer сделал проект, в котором ничего не работает. GLM 4.7 что-то запускает, но в браузере ничего нет. Kimi K2 не смог ничего завести. Gemini Flash коннектится к GitHub, но private репозитории клонируются пустыми, паблик проекты запускаются. Qwen 3 Max падает с ошибкой. GPT практически все заработало сразу, через два промпта все идеально. Gemini 3 Pro завелся, но Docker падает без отображения логов, дизайн плохой. Sonnet работает: интеграция с GitHub, редактор файлов, запуск, остановка, но без алертов. Opus работает идеально: все виды запуска проектов, редактор кода, поиск по логам, алерты в Telegram.

Система для авто дубляжа видео [10:21]

Четвертая задача - создание системы для автоматического дубляжа видео на другой язык. Система должна транскрибировать звук с помощью ElevenLabs, переводить с LLM, озвучивать с помощью клонирования голоса в Minimax и делать липсинк в Pixverse. В начальную папку добавлены примеры кода для интеграции с Minimax и Pixverse.

Результаты четвертого теста [11:36]

Composer выдал работающий проект, но транскрипция не возвращает слова. GLM 4.7 работает, но превью не отображается. Kimi K2 не завела даже транскрибацию. Gemini Flash работает транскрипция и перевод, но падает на озвучке голоса. Qwen 3 Max не смог порешать транскрибацию. GPT работает отлично, есть прогресс в процентах у каждой задачи. Gemini 3 Pro завелась, но без выбора voice ID и нормального превью. Sonnet не справился с ошибкой transcription failed. Opus заработала сразу, через два фикса все офигенно работает.

Моделирование в Blender [13:36]

Финальный тест - создание 3D модели японского замка Мацумото в Blender с помощью MCP.

Результаты пятого теста [14:07]

Результаты моделирования в Blender. Автор отмечает, что результаты GPT и Opus ему нравятся больше всего.

Финальные выводы [14:19]

GPT победил во всех тестах благодаря extra high thinking режиму. Opus выдает отличные результаты, но напрягается меньше. Composer самый быстрый, но результаты не супер крутые. Gemini three Flash - хороший вариант для бюджетного AI кодинга. Важна комбинация инструмента и модели. Можно реализовывать небольшие MVP стартапов в один промпт. Бутылочное горлышко разработки - изучение документации, тестирование, продумывание алгоритмов и архитектуры.