Белая книга эволюции моделей 2025: длинный контекст, разреженность и пост‑Transformer эпоха

Обложка моделей
Обложка моделей

Предисловие:
В 2023–2024 мы спрашивали: «Сколько параметров в модели?»
В 2025‑м вопрос стал иным: «Сколько книг она проглотит?» и «Во сколько обойдётся инференс 1 млн токенов?»

Этот сдвиг означает переход LLM от «эстетики грубой силы» к «точной инженерии». Маржинальная выгода от масштаба падает, а эффективность архитектуры, длина контекста и стоимость инференса становятся новой ареной. Ниже — три ключевых тренда 2025 года.


Глава 1: Революция контекста — от 128k к «бесконечности»

Если параметры — «IQ» модели, то контекстное окно определяет её «память» и размер «рабочего стола». В 2025‑м контекст 1M+ токенов уже стандарт, а 10M+ на подходе.

1.1 Ключевые технологии снятия лимита

Проблема: self‑attention имеет сложность $O(N^2)$. Удвоение длины = 4× вычислений и 4× VRAM.

В 2025‑м это ломают:

1.1.1 Ring Attention

Это победа распределённого обучения.

  • Идея: длинная последовательность режется на блоки, разносится по GPU, а промежуточные Key/Value передаются между ними.
  • Красота: можно обрабатывать практически бесконечные последовательности без аппроксимации — ограничение только суммарная VRAM кластера.
  • Практика: Megatron‑LM и DeepSpeed уже встроили Ring Attention, что позволяет обучать 10M контекст на кластерах из тысяч H100.

1.1.2 Эволюция RoPE Scaling (YaRN и LongRoPE)

Позиционное кодирование определяет различие «первого» и «десятого» слова.

  • NTK‑Aware Scaled RoPE в 2024‑м дал сильный эффект.
  • LongRoPE (2025) использует неравномерную интерполяцию, расширяя контекст в 8+ раз без деградации качества на коротких текстах.

1.2 «Игла в стоге» и «потеря середины»

Длинный контекст не гарантирует длинную логику.

  • Lost in the Middle: ранние модели помнили начало и конец, но теряли середину.
  • Решения 2025:
    1. Синтетические данные с «ответом посередине».
    2. Иерархическое сжатие: долгосрочная/рабочая память с резюме‑векторами.

Глава 2: Разреженность — тотальная доминация MoE

В 2025‑м почти никто не тренирует плотные (dense) модели с нуля. Mixture of Experts доминирует.

2.1 Экономика MoE

  • Dense: 100B параметров активны на каждом токене — дорого.
  • MoE: 500B общих параметров, но активны 2 эксперта (~15B).
  • Итог: знание 500B модели по цене инференса 15B.

2.2 Новые вариации MoE в 2025‑м

2.2.1 DeepSeek‑V3 и мелкие эксперты

DeepSeek делит экспертов мельче (до 256) и вводит Shared Experts.

  • Shared: всегда активны — отвечают за базовую грамматику и логику.
  • Routed: узкоспециализированные (например, «барокко» или «Python async»).

2.2.2 Ненакладной баланс нагрузки

MoE страдает, если все запросы бегут в одного эксперта.

  • Auxiliary Loss раньше ухудшал качество.
  • Expert‑choice Routing позволяет экспертам выбирать токены — проблема дисбаланса решена.

Глава 3: Война архитектур — непобедим ли Transformer?

Transformer доминирует с 2017 года, но в 2025‑м вызов принят. Linear Attention и SSM показывают преимущества.

3.1 Mamba и SSM

Mamba (State Space Models) — главный претендент.

  • Плюс: VRAM при инференсе $O(1)$, а не $O(N)$. Это значит — бесконечные последовательности без взрыва памяти.
  • Прогресс 2025:
    • Jamba (Joint Attention Mamba) от AI21 Labs: 80% слоёв — Mamba для длинного контекста, 20% — attention для «ретроспективности». Это оптимум по цене/качеству.
    • Кодоген: из‑за длинных контекстов код‑задач SSM впервые обогнал Transformer при равных параметрах.

3.2 RWKV — возрождение RNN

RWKV показывает, что RNN может быть конкурентным при параллельном обучении.

  • Преимущества: минимальная VRAM, быстрая генерация токенов, полный open‑source.
  • Экосистема: в 2025‑м RWKV дошёл до 14B и 30B, став фаворитом для edge‑устройств.

Глава 4: Коллапс и перезапуск системы бенчмарков

MMLU, GSM8K устарели: модели набирают 90+ и «перетренированы» на тестах.

4.1 Новые стандарты оценки

4.1.1 Динамические бенчмарки

  • LiveCodeBench: задачи берутся из свежих LeetCode и GitHub, которых нет в данных обучения.
  • Chatbot Arena: слепые человеческие оценки (Elo) становятся золотым стандартом.

4.1.2 Сценарии длинного текста (Needle In A Haystack++)

Не «найди имя», а «прочти 100 отчётов и ответь: как изменится прибыль при пересчёте курса?». Это проверка multi‑hop reasoning — критичного для бизнеса.


Глава 5: Что это значит для бизнеса

  1. Не боготворите параметры: 7B MoE, тонко настроенная на задачу, может быть лучше 70B общего назначения и в разы дешевле.
  2. Длинный контекст > RAG? Для документов до 100k слов длинное окно часто лучше RAG. RAG нужен для TB‑масштабных баз.
  3. Гибридные архитектуры: следите за Mamba‑Transformer — это может быть ключом к снижению стоимости.

Заключение

Эволюция 2025‑го — это уже не «битва богов» между Google и OpenAI.
MoE, архитектурное разнообразие и децентрализованное обучение запускают кембрийский взрыв моделей. У каждой архитектуры и размера появляется своё место. Для разработчиков это не столько сложность выбора, сколько освобождение творчества.


Материал подготовлен Институтом передовых технологий Augmunt на основе открытых публикаций и препринтов arXiv (Q1 2025). Без разрешения не воспроизводить.