GLM-5.2: открытая модель обходит GPT-5.5 в кодинге и стоит в 6 раз дешевле

16 июня Z.ai (бывшая Zhipu AI) выложила GLM-5.2 — открытую модель на 753 млрд параметров, заточенную под одно: длинные автономные задачи в разработке. Для бизнеса тут две новости сразу. По нескольким кодинг-бенчмаркам GLM-5.2 обходит GPT-5.5, а API стоит примерно в шесть раз дешевле. Все цифры ниже — из публикации VentureBeat и данных самой Z.ai.

Мы в Gless каждую неделю выбираем, на какой модели собирать систему под клиента. Поэтому такие релизы для нас не новостная лента, а рабочий вопрос: что теперь имеет смысл ставить в прод. Разберём по факту — где GLM-5.2 реально сильнее, где честно слабее, и стоит ли вам что-то менять прямо сейчас.

Что именно выложила Z.ai

GLM-5.2 уже доступна на Hugging Face, через API Z.ai и в двух десятках сторонних сред для кодинга. Контекстное окно — стабильный миллион токенов. Подписка стартует от $12.60 в месяц.

Под капотом — архитектурный трюк под названием IndexShare: один индексатор переиспользуется на каждые четыре слоя разреженного внимания. На максимальном контексте в миллион токенов это срезает вычисления на токен в 2.9 раза. Рядом — обновлённый слой Multi-Token Prediction для спекулятивного декодинга, он поднимает длину принятых токенов до 20% при инференсе.

Ещё деталь, которую оценят те, кто считает счёт за инференс: переключаемые режимы «мышления». Max выжимает максимум интеллекта, но тратит около 85 тысяч выходных токенов на задачу. High почти не теряет в качестве и при этом примерно вдвое режет выход — полезный рычаг там, где критична задержка.

Бенчмарки GLM-5.2: где обходит GPT-5.5, а где нет

Коротко: GLM-5.2 сильнее всего в агентных задачах и длинных инженерных сценариях — там, где модель сама ведёт задачу несколько шагов, а не отвечает одной репликой.

Сравнение GLM-5.2, GPT-5.5 и Claude Opus 4.8 по кодинг-бенчмаркам — Источник: z.ai

На SWE-bench Pro модель набрала 62.1 против 58.6 у GPT-5.5 и обошла даже своего предшественника GLM-5.1 (58.4). На FrontierSWE, где проверяют доведение длинной задачи до конца, — 74.4% против 72.6% у GPT-5.5 и почти вровень с Claude Opus 4.8 (75.1%). На PostTrainBench разрыв самый заметный: 34.3% против 25.0%.

Где GLM-5.2 честно проигрывает — Terminal-Bench 2.1: 81.0 против 84–85 у GPT-5.5 и Opus. Но и тут нюанс в её пользу: это первая открытая модель, перешагнувшая 80% на этом тесте, и она уверенно бьёт Gemini 3.1 Pro (74.0). А на краудсорс-бенчмарке Design Arena GLM-5.2 заняла первое место с рейтингом ELO 1360.

Картина без хайпа выходит такая: на длинных и агентных задачах модель на уровне топовых проприетарных или выше, на чистой работе в терминале — пока чуть позади.

Цена — вот где всё решается

Самое весомое в релизе для бизнеса — не баллы, а ценник. Сравните строку output, за неё платят больше всего.

Модель	Вход / 1M токенов	Выход / 1M токенов	Итого
GLM-5.2	$1.40	$4.40	$5.80
Claude Opus 4.8	$5.00	$25.00	$30.00
GPT-5.5	$5.00	$30.00	$35.00

GLM-5.2 берёт $1.40 за миллион входных токенов и $4.40 за миллион выходных. У GPT-5.5 один только выход стоит $30 — те самые «в 6 раз дешевле» из заголовка получаются простой арифметикой, без всякого маркетинга. Для долгих контекстов есть ещё кэшированный вход по $0.26 за миллион.

Не хочется возиться с сырым API — есть тарифы GLM Coding Plan: Lite за $12.60 в месяц, Pro за $50.40, Max за $112. Все из коробки работают с Claude Code, Cline, Kilo Code, Crush и другими харнессами.

AI-наблюдатель @scaling01 высказался о разрыве в ценах прямо: проприетарные лабы, по его словам, сидят «на марже 90%+». Формулировка резкая, но таблица выше её во многом подтверждает.

MIT-лицензия и контроль над своей инфраструктурой

Самое недооценённое в релизе — лицензия. Веса GLM-5.2 выложены под MIT, то есть это «чистый» open-source без оговорок. Качаете модель с Hugging Face, дообучаете под себя, гоняете на своём железе или в своей виртуалке и платите только за компьют. Без роялти, без политик «приемлемого использования», без привязки к одному вендору.

Почему это стало особенно актуально на этой неделе. Администрация США выпустила директиву по экспортному контролю, запретившую иностранцам пользоваться новой моделью Anthropic, и компания в ответ просто увела затронутые модели в офлайн для всех. Для бизнеса за пределами США сигнал прямой: доступ к топовой проприетарной модели может прерваться не по технической, а по политической причине. Открытые веса этот риск снимают: модель уже лежит у вас на диске, и отобрать её нельзя.

Мы не агитируем «всё в опенсорс любой ценой». Но возможность держать модель уровня фронтира на собственной инфраструктуре — это уже не про экономию пары долларов на токенах, это про то, что вас не отключат в неподходящий момент.

Когда брать open-weights, а когда нет

Красивые бенчмарки и реальный прод — две разные истории, так что перейдём к практике.

Цена токена почти никогда не главный фактор в смете. Когда мы считаем стоимость AI-системы под клиента, токены часто оказываются меньшей частью бюджета. Инфраструктура под self-hosting модели на 753B параметров, инженеры, которые её поднимут и будут держать живой, нормальный eval и мониторинг качества — вот где деньги. «Скачать бесплатные MIT-веса» и «получить дешёвое решение» — это не одно и то же.

Где open-weights действительно выигрывает:

чувствительные данные, которые нельзя гонять через чужой API;
требования к суверенности или к работе в закрытом контуре;
предсказуемая нагрузка, под которую выгодно держать своё железо;
задача дообучить модель под узкий домен.

Где проприетарная модель пока спокойнее: маленькие команды без DevOps под GPU; задачи с упором на терминал, где Opus и GPT-5.5 ещё впереди; проекты, где быстрее взять готовый эндпоинт и не думать про инфраструктуру вовсе.

В большинстве проектов мы остаёмся платформенно-нейтральными: проектируем архитектуру под задачу, а не под конкретную модель, и закладываем возможность переключить провайдера. GLM-5.2 эту опциональность заметно расширяет. Раньше «открытая модель уровня GPT-5.5» звучало как оксюморон — теперь это рабочий вариант для прода. О том, почему AI не отменяет инженеров, мы уже писали; на этом релизе видно особенно ясно: открытая модель не уменьшает потребность в людях, она смещает её в сторону инфраструктуры и архитектуры.

Если вам нужно внедрение AI под конкретную задачу, мы как раз помогаем выбрать между open-weights и проприетарным под ваш кейс, а не по моде.

Частые вопросы

Что такое GLM-5.2?

Открытая языковая модель на 753 млрд параметров от китайской Z.ai (бывшая Zhipu AI), выпущенная 16 июня 2026 года. Заточена под длинные автономные задачи в разработке, доступна на Hugging Face и через API под лицензией MIT.

GLM-5.2 правда дешевле GPT-5.5?

По API-ценам — да, и сильно. Выход у GLM-5.2 стоит $4.40 за миллион токенов против $30 у GPT-5.5, то есть примерно в шесть-семь раз дешевле. Полное сравнение есть в таблице выше.

Можно ли поставить GLM-5.2 на свой сервер?

Да. Лицензия MIT разрешает скачать веса, дообучить и запускать локально без роялти и ограничений по регионам, платите только за вычисления. Но учтите: модели на 753B параметров нужна серьёзная GPU-инфраструктура и люди, которые её обслужат.

Open-weights значит хуже по качеству?

Уже нет. По нескольким кодинг- и агентным бенчмаркам GLM-5.2 идёт вровень с GPT-5.5 и Claude Opus 4.8 или обходит их. Проприетарные модели пока чуть впереди на чистой работе в терминале.

Стоит ли бизнесу переходить с GPT-5.5 на GLM-5.2?

Зависит от задачи. Если важны контроль над данными, суверенность или предсказуемая нагрузка под своё железо — стоит хотя бы протестировать. Если у вас маленькая команда без DevOps под GPU, готовый API проприетарной модели часто проще. Такие развилки мы разбираем на консультациях.

Если хотите понять, что из этого подойдёт под вашу задачу, — напишите нам, разберём конкретно ваш кейс.