Белая книга эволюции моделей 2025: длинный контекст, разреженность и пост‑Transformer эпоха
Предисловие:
В 2023–2024 мы спрашивали: «Сколько параметров в модели?»
В 2025‑м вопрос стал иным: «Сколько книг она проглотит?» и «Во сколько обойдётся инференс 1 млн токенов?»Этот сдвиг означает переход LLM от «эстетики грубой силы» к «точной инженерии». Маржинальная выгода от масштаба падает, а эффективность архитектуры, длина контекста и стоимость инференса становятся новой ареной. Ниже — три ключевых тренда 2025 года.
Глава 1: Революция контекста — от 128k к «бесконечности»
Если параметры — «IQ» модели, то контекстное окно определяет её «память» и размер «рабочего стола». В 2025‑м контекст 1M+ токенов уже стандарт, а 10M+ на подходе.
1.1 Ключевые технологии снятия лимита
Проблема: self‑attention имеет сложность $O(N^2)$. Удвоение длины = 4× вычислений и 4× VRAM.
В 2025‑м это ломают:
1.1.1 Ring Attention
Это победа распределённого обучения.
- Идея: длинная последовательность режется на блоки, разносится по GPU, а промежуточные Key/Value передаются между ними.
- Красота: можно обрабатывать практически бесконечные последовательности без аппроксимации — ограничение только суммарная VRAM кластера.
- Практика: Megatron‑LM и DeepSpeed уже встроили Ring Attention, что позволяет обучать 10M контекст на кластерах из тысяч H100.
1.1.2 Эволюция RoPE Scaling (YaRN и LongRoPE)
Позиционное кодирование определяет различие «первого» и «десятого» слова.
- NTK‑Aware Scaled RoPE в 2024‑м дал сильный эффект.
- LongRoPE (2025) использует неравномерную интерполяцию, расширяя контекст в 8+ раз без деградации качества на коротких текстах.
1.2 «Игла в стоге» и «потеря середины»
Длинный контекст не гарантирует длинную логику.
- Lost in the Middle: ранние модели помнили начало и конец, но теряли середину.
- Решения 2025:
- Синтетические данные с «ответом посередине».
- Иерархическое сжатие: долгосрочная/рабочая память с резюме‑векторами.
Глава 2: Разреженность — тотальная доминация MoE
В 2025‑м почти никто не тренирует плотные (dense) модели с нуля. Mixture of Experts доминирует.
2.1 Экономика MoE
- Dense: 100B параметров активны на каждом токене — дорого.
- MoE: 500B общих параметров, но активны 2 эксперта (~15B).
- Итог: знание 500B модели по цене инференса 15B.
2.2 Новые вариации MoE в 2025‑м
2.2.1 DeepSeek‑V3 и мелкие эксперты
DeepSeek делит экспертов мельче (до 256) и вводит Shared Experts.
- Shared: всегда активны — отвечают за базовую грамматику и логику.
- Routed: узкоспециализированные (например, «барокко» или «Python async»).
2.2.2 Ненакладной баланс нагрузки
MoE страдает, если все запросы бегут в одного эксперта.
- Auxiliary Loss раньше ухудшал качество.
- Expert‑choice Routing позволяет экспертам выбирать токены — проблема дисбаланса решена.
Глава 3: Война архитектур — непобедим ли Transformer?
Transformer доминирует с 2017 года, но в 2025‑м вызов принят. Linear Attention и SSM показывают преимущества.
3.1 Mamba и SSM
Mamba (State Space Models) — главный претендент.
- Плюс: VRAM при инференсе $O(1)$, а не $O(N)$. Это значит — бесконечные последовательности без взрыва памяти.
- Прогресс 2025:
- Jamba (Joint Attention Mamba) от AI21 Labs: 80% слоёв — Mamba для длинного контекста, 20% — attention для «ретроспективности». Это оптимум по цене/качеству.
- Кодоген: из‑за длинных контекстов код‑задач SSM впервые обогнал Transformer при равных параметрах.
3.2 RWKV — возрождение RNN
RWKV показывает, что RNN может быть конкурентным при параллельном обучении.
- Преимущества: минимальная VRAM, быстрая генерация токенов, полный open‑source.
- Экосистема: в 2025‑м RWKV дошёл до 14B и 30B, став фаворитом для edge‑устройств.
Глава 4: Коллапс и перезапуск системы бенчмарков
MMLU, GSM8K устарели: модели набирают 90+ и «перетренированы» на тестах.
4.1 Новые стандарты оценки
4.1.1 Динамические бенчмарки
- LiveCodeBench: задачи берутся из свежих LeetCode и GitHub, которых нет в данных обучения.
- Chatbot Arena: слепые человеческие оценки (Elo) становятся золотым стандартом.
4.1.2 Сценарии длинного текста (Needle In A Haystack++)
Не «найди имя», а «прочти 100 отчётов и ответь: как изменится прибыль при пересчёте курса?». Это проверка multi‑hop reasoning — критичного для бизнеса.
Глава 5: Что это значит для бизнеса
- Не боготворите параметры: 7B MoE, тонко настроенная на задачу, может быть лучше 70B общего назначения и в разы дешевле.
- Длинный контекст > RAG? Для документов до 100k слов длинное окно часто лучше RAG. RAG нужен для TB‑масштабных баз.
- Гибридные архитектуры: следите за Mamba‑Transformer — это может быть ключом к снижению стоимости.
Заключение
Эволюция 2025‑го — это уже не «битва богов» между Google и OpenAI.
MoE, архитектурное разнообразие и децентрализованное обучение запускают кембрийский взрыв моделей. У каждой архитектуры и размера появляется своё место. Для разработчиков это не столько сложность выбора, сколько освобождение творчества.
Материал подготовлен Институтом передовых технологий Augmunt на основе открытых публикаций и препринтов arXiv (Q1 2025). Без разрешения не воспроизводить.
