Экономика токенов LLM: кто забирает деньги за AI

Vercel показала цифры, которые обычно прячут: сколько денег и токенов реально проходит через продакшн-приложения. Их AI Gateway пропускает десятки триллионов токенов через сотни моделей, и в апреле 2026 картина оказалась перекошенной. Anthropic забрал 61% всех денег за токены, но только 26% самих токенов. Google — наоборот: 38% объёма и лишь 21% выручки.

Это и есть экономика токенов LLM в одном кадре. Гильермо Раух, CEO Vercel, выложил анимированную «гонку» расходов по моделям, и она показывает не то, кто «лучше», а то, за что бизнес реально платит. Рынок расслоился на два слоя: дорогое качество и дешёвый объём.

Мы в Gless каждую неделю решаем, на какой модели собирать систему под клиента. Поэтому читаем этот отчёт не как новость, а как карту: где имеет смысл платить премию, а где нет. Разберём цифры и то, что из них следует для вашего счёта за инференс.

Экономика токенов LLM: что показал индекс Vercel AI Gateway

Коротко: по деньгам лидирует Anthropic, по объёму токенов — Google, и это разные лиги одного рынка.

AI Gateway — это прокси, через который приложения ходят в разные модели одним API. Vercel впервые опубликовала агрегированную статистику по проду (Production Index) — что именно разработчики гоняют в боевых системах, а не в бенчмарках. Расклад за апрель 2026:

Провайдер	Доля по деньгам	Доля по токенам
Anthropic	61%	26%
Google	21%	38%
OpenAI	12%	13%
xAI	—	10%

Раух описал это так: «Google — король продакшн-масштаба, Anthropic доминирует в коде и деньгах, OpenAI быстро растёт после 5.4, а open-source продолжает набирать». Подвижность видна в динамике: доля OpenAI по расходам утроилась с марта по апрель после релизов GPT-5.4/5.5, а Google поднял свою с 8% до 21% за тот же месяц. Отдельный сигнал про характер нагрузок — доля запросов с вызовом инструментов выросла с 11.4% до 22.2%. Приложения всё чаще не «спрашивают модель», а поручают ей действие.

Почему Anthropic забирает 2/3 денег, но не 2/3 токенов

Ответ в цене за вызов. Дорогие модели ловят высокоставочные задачи, дешёвые — массовый объём. Деньги идут за первыми, токены — за вторыми.

Сравните прайс за миллион токенов: Claude Opus 4.8 стоит $5 на вход и $25 на выход, тогда как Gemini 3.5 Flash — $1.50 и $9 (данные Totalum и DataCamp). Flash дешевле примерно втрое. Посчитаем на пальцах: миллиард выходных токенов на Opus — это $25 000, на Flash — $9 000. Если такой объём состоит из простых вызовов, разница в $16 000 уходит впустую. Поэтому объём и уплывает к дешёвым моделям, а на Opus остаётся то, где ошибка дороже экономии.

В отчёте Vercel это видно прямым текстом: премиальный ризонинг уходит на Claude Opus, дешёвые быстрые вызовы — на Gemini Flash. Одно и то же приложение дёргает обе модели. Поэтому «ножницы» 61/26 — не аномалия, а нормальная работа рынка: он оценивает риск. Там, где ошибка модели стоит дорого (сложный код, юридический разбор, агент, который сам ведёт задачу), бизнес платит за Claude и не торгуется. Там, где нужен объём и скорость (классификация, короткие ответы, автодополнение), берут что дешевле.

Это объясняет масштаб денег Anthropic и без Vercel. Годовая выручка компании к февралю 2026 дошла до ~$14 млрд против $1 млрд на конце 2024-го (данные Sacra). Один только Claude Code перевалил за $2.5 млрд run-rate. А Salesforce публично заложил $300 млн на токены Anthropic в 2026-м, и большая часть — именно код.

Рынок расслоился: дорогое качество и дешёвый объём

Расслоение видно не в среднем, а по типам задач. Доля Anthropic в токенах падает с 71% в бэк-офисных сценариях (самые высокие ставки) до 7% в потребительских (самые низкие). Компания одна, а выбор модели на разных слоях приложения диаметрально разный.

Слой дорогого качества — это агентные и инженерные нагрузки, где модель сама ведёт задачу несколько шагов. Такие нагрузки уже составляют 58.9% всех токенов в Gateway против 31.6% полгода назад. Чем сложнее автономная работа, тем выше цена ошибки и тем охотнее бизнес платит премию.

Слой дешёвого объёма — это всё, что можно отдать более дешёвой или открытой модели без потери качества. Здесь живут Gemini Flash и открытые веса. Мы недавно разбирали GLM-5.2 — открытую модель, которая обходит GPT-5.5 в части кодинг-бенчмарков и стоит примерно в шесть раз дешевле. Ровно такие релизы и наполняют нижний слой: они забирают объём, но не премиальную выручку.

Вывод один: «дорого» и «дёшево» перестали быть конкурентами. Это два разных товара для двух разных задач.

Один вендор в проде умер: от 3 до 35 моделей

Главный практический сигнал отчёта — мультимодельность стала нормой. Команды на 1–10 тысячах запросов держат в среднем 3 модели. На объёме 10 млн+ запросов — уже 35 моделей в регулярном обиходе.

Логика простая. Когда трафик растёт, разница в цене за вызов превращается в реальные деньги, и держать один дорогой Opus на всё становится расточительством. Разработчики раскладывают задачи по моделям: дорогая — на 3 сложных шага, дешёвая — на 97 простых. Плюс подстраховка: 3.5% запросов в Gateway завершаются через fallback на другую модель (по токенам — 5.1%), когда основная недоступна или падает.

Пример из нашей практики. Типичный саппорт-агент делает три вещи: классифицирует обращение, достаёт факты из базы знаний и формулирует ответ. Первые два шага прекрасно тянет дешёвая модель — там нужен объём, а не гениальность. А финальную формулировку в спорном кейсе мы отдаём модели посильнее, потому что цена плохого ответа клиенту выше, чем пара центов экономии. Один пайплайн, две-три модели, счёт под контролем. Это и есть экономика токенов LLM на уровне конкретной системы, а не отчёта.

Мы в Gless собираем системы ровно так же. Одна модель на весь пайплайн — это либо переплата, либо просадка качества там, где она критична. В наших проектах по внедрению AI маршрутизация между моделями заложена в архитектуру с первого дня, а не оставлена на «оптимизацию потом». Индекс Vercel просто показал в цифрах то, что в проде и так уже норма.

Что с этим делать бизнесу

Читайте «ножницы» 61/26 не как рейтинг, а как инструкцию по маршрутизации. Три практических вывода.

Первый: не ставьте дорогую модель на дешёвые вызовы. Если Claude Opus обрабатывает у вас классификацию тикетов или короткие автоответы, вы платите премию за риск, которого там нет. Это первое, что мы срезаем в аудите чужих систем.

Второй: не экономьте на дорогих вызовах. Обратная ошибка — гнать сложного агента или критичный код на самой дешёвой модели ради экономии. Цена ошибки здесь выше, чем разница в прайсе. Рынок не зря отдаёт Anthropic 61% денег именно на этом слое.

Третий: закладывайте оплату за токены как основную статью затрат. Индустрия двигается от фиксированных подписок к оплате за объём — мы разбирали это на примере ухода Claude Fable 5 из подписок. Значит, ваш счёт напрямую зависит от того, насколько аккуратно разложены задачи по моделям.

Если коротко: побеждает не тот, кто выбрал «правильного» вендора, а тот, кто правильно распределил нагрузку между дорогим качеством и дешёвым объёмом. Хотите разложить свой пайплайн по этому принципу и посчитать экономию — обсудим ваш проект.

Экономика токенов LLM: почему Anthropic забирает 2/3 денег

Экономика токенов LLM: что показал индекс Vercel AI Gateway

Почему Anthropic забирает 2/3 денег, но не 2/3 токенов

Рынок расслоился: дорогое качество и дешёвый объём

Один вендор в проде умер: от 3 до 35 моделей

Что с этим делать бизнесу

Хотите внедрить ИИ-агента?