MiniMax confirma M3: adiós a la serie M2, llega la atención escasa

El anuncio que la industria esperaba

El 26 de mayo de 2026, MiniMax publicó en arXiv el paper técnico que documenta toda la serie M2: "The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence" (arXiv:2605.26494). Un día después, la cuenta oficial de la empresa publicó en X (antes Twitter) una declaración directa: "This marks the end of the M2 series, and MiniMax-M3 is coming."

El anuncio no vino solo. Skyler Miao, responsable de ingeniería de MiniMax y líder del desarrollo de M2, publicó la frase "Something BIG is coming" junto a una gráfica comparativa de rendimiento. Ryan Lee, responsable de relaciones con desarrolladores, confirmó además que M3 será open-weight, manteniendo la tradición de la empresa de liberar los pesos de sus modelos.

Qué se sabe del M3

M3 adopta una nueva arquitectura de atención escasa (Sparse Attention) llamada MSA. Según la gráfica publicada por Skyler Miao y analizada por la comunidad técnica, MSA funciona en dos etapas:

Una rama de índice (Index Branch) basada en Grouped Query Attention que escanea rápidamente el contexto y selecciona los bloques de tokens más relevantes.
Una rama escasa (Sparse Branch) que realiza atención precisa únicamente sobre los bloques seleccionados.

La analogía es sencilla: en lugar de leer un libro entero palabra por palabra, primero se revisa el índice, se identifican los capítulos relevantes, y solo esos se leen a fondo.

Los números que saltan a la vista

Comparado con el M2 actual en contextos de 1 millón de tokens, los incrementos reportados son:

Velocidad de prefill: 9.7 veces más rápido
Velocidad de decoding: 15.6 veces más rápido

Esto significa que procesar un contexto largo de millones de tokens pasaría de minutos a segundos en la fase de ingestión, y la generación de tokens individuales bajaría de latencias cercanas a 150ms a aproximadamente 10ms por token. Es el primer mecanismo de atención eficiente de una laboratorio open-weight que supera a la atención densa en ambas métricas a escala extrema.

¿Qué queda del M2?

La serie M2, que incluye desde el M2 original hasta el M2.7, fue una familia de modelos Mixture-of-Experts con 229.9 mil millones de parámetros totales y solo 9.8 mil millones activados por token. Entrenados con 29.2 billones de tokens de datos y con ventanas de contexto de 192K, estos modelos se diseñaron de punta a punta para despliegue agentic.

El M2.7, su versión más reciente (lanzada en marzo de 2026), fue el primero en dar un paso hacia la auto-evolución: capaz de depurar de forma autónoma sus propios procesos de entrenamiento y modificar su scaffold interno. La paper publicada el 26 de mayo documenta que este sistema absorbió entre el 30% y el 50% del trabajo iterativo diario del equipo.

Según un reporte de Goldman Sachs del 25 de mayo, la familia M2 sigue operativa, y los benchmarks del M2.7 muestran 94.2 en AIME 2026 y 89.8 en GPQA-Diamond, manteniéndose competitivo con sistemas mucho más grandes y costosos.

¿Cuándo llega?

No hay fecha oficial de lanzamiento. En respuesta a preguntas sobre cuándo estará disponible la API de M3, Skyler Miao respondió con un "in several days~" en X. Separadamente, un informe de Goldman Sachs sobre la conferencia tecnológica asiática de la empresa indica que una versión de parámetros más pequeña del M3 se publicará en las próximas semanas, mientras que una versión de mayor escala llegará en los meses siguientes.

Ryan Lee confirmó también que la paper técnica completa del MSA se publicará próximamente, lo que dará los detalles arquitectónicos completos que hoy solo se conocen a través de la gráfica del teaser.

El contexto: una carrera que se acelera

El anuncio de M3 llega en un momento clave para la industria de modelos de lenguaje. MiniMax compite directamente con DeepSeek (cuya versión V4.1 se espera para junio), Qwen de Alibaba, y los modelos cerrados de OpenAI y Anthropic. La apuesta por la atención escasa y el compromiso con open-weight posiciona a M3 como un rival serio en la carrera por modelos eficientes con contextos ultralargos.

Lo que distingue a MiniMax no es solo la arquitectura, sino la filosofía: un modelo con menos de 10 mil millones de parámetros activos que se mantiene competitivo con sistemas diez veces más grandes. Si M3 mantiene esa proporción, la brecha entre costos de inferencia y rendimiento podría ampliarse aún más.

Fuentes

arXiv:2605.26494 — "The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence" (26 de mayo de 2026)
@MiniMax_AI en X — Anuncio oficial de fin de la serie M2 y confirmación de M3 (27 de mayo de 2026)
@SkylerMiao7 en X — Teaser de arquitectura MSA con gráfica comparativa (26 de mayo de 2026)
@RyanLeeMiniMax en X — Confirmación de open-weight y paper MSA en camino (27 de mayo de 2026)
Goldman Sachs — Reporte de la Conferencia Tecnológica Asiática: MiniMax Group (0100.HK), 25 de mayo de 2026
HuggingFace: MiniMaxAI — Organización oficial de modelos