Cohere lanzó el 20 de mayo Command A+, un modelo de mezcla de expertos de 218.000 millones de parámetros, bajo una licencia de pesos abiertos Apache 2.0. Se trata de la primera arquitectura MoE de la empresa, con sede en Toronto, dentro de la familia Command, y refleja su apuesta por permitir a las organizaciones ejecutar el modelo en sus propios equipos con una huella de GPU relativamente reducida.
El lanzamiento pone a prueba si un modelo con 218.000 millones de parámetros totales, pero con solo 25.000 millones activos en cada token, puede prestarse de forma económica en las instalaciones propias, lo que resulta atractivo para organizaciones reguladas que necesitan infraestructura de IA privada. La licencia permisiva y las opciones de alojamiento propio llegan en un momento en que las empresas evalúan cada vez más alternativas locales a las API en la nube para cargas de trabajo sensibles.
Command A+ emplea un marco MoE disperso solo decodificador con 128 expertos, en el que se enrutan ocho más un experto compartido por token. Acepta entradas de texto e imágenes junto con instrucciones de uso de herramientas, y produce texto, razonamiento y respuestas de uso de herramientas. El modelo no genera imágenes, audio ni video. La empresa afirmó que el modelo admite 48 idiomas, incluidos todos los idiomas oficiales de la UE, y dispone de una ventana de contexto de entrada de 128.000 tokens con una longitud máxima de generación de 64.000 tokens. Se puede acceder al modelo a través de Hugging Face, Model Vault de Cohere, su API y una demostración en Hugging Face Space.
Hay tres cuantizaciones disponibles: una variante W4A4 que la empresa aseguró puede desplegarse en un único Nvidia B200 o dos GPU H100; una variante FP8 que requiere dos B200 o cuatro H100; y una versión BF16 que necesita cuatro B200 u ocho H100. Estas especificaciones proceden de la documentación de Cohere; el rendimiento real del alojamiento propio en esas configuraciones no ha sido verificado de forma independiente.
El 21 de mayo, Artificial Analysis, un proveedor independiente de evaluaciones comparativas, publicó su análisis y otorgó a Command A+ una puntuación de 37 en su Índice de Inteligencia. Esa cifra lo sitúa por encima de la media de los modelos de pesos abiertos comparables. No obstante, Artificial Analysis señaló que el modelo quedó por detrás de algunos de sus rivales en pruebas de referencia de ciencia avanzada y codificación agentiva, lo que debilita la idea de un dominio uniforme. Por separado, la empresa describió el modelo como su lanzamiento más rápido y potente de la familia Command, según comparaciones internas.
Nick Frosst, cofundador de Cohere, declaró en un comunicado que el modelo se creó para organizaciones que necesitan mantener los datos dentro de su propia infraestructura. El soporte nativo para el uso de herramientas diferencia al modelo de muchos competidores de pesos abiertos, ya que habilita capacidades agentivas como la invocación de API y la interacción con software empresarial. La empresa apunta a casos de uso como la generación aumentada por recuperación, el procesamiento multilingüe de documentos y la IA soberana, aunque no reveló ningún cliente empresarial concreto para el nuevo lanzamiento.
Los pesos están disponibles bajo la licencia Apache 2.0, pero la empresa no ha confirmado la apertura de los datos de entrenamiento, el código de entrenamiento ni las herramientas de evaluación, lo que hace que la descripción de “modelo de código abierto” sea imprecisa. El término “pesos abiertos bajo Apache 2.0” refleja con mayor precisión lo que se conoce.
Command A+ llega más de un año después de Command A, un modelo de 111.000 millones de parámetros lanzado en marzo de 2025 con una ventana de contexto de 256.000 tokens. El cambio arquitectónico hacia MoE y la reducción de la longitud del contexto de entrada de 256.000 a 128.000 tokens suponen un equilibrio que prioriza la eficiencia computacional sobre el alcance máximo del contexto.
No se ha publicado ningún informe técnico de Command A+, únicamente una ficha de modelo y una entrada de blog. Artificial Analysis también enumera una ventana de contexto de 190.000 tokens, que podría combinar la capacidad de entrada y salida en lugar de reflejar el límite de entrada de 128.000 tokens según la documentación de Cohere. Un portavoz de Cohere no aclaró de inmediato la discrepancia. Sin pruebas de despliegue por parte de terceros, la memoria, el rendimiento y la latencia de la variante W4A4 con las pilas de servicio habituales siguen sin verificarse.
El lanzamiento amplía el panorama de pesos abiertos para las arquitecturas MoE y ofrece a las empresas una nueva opción de IA en local, pero su valor real dependerá de las pruebas independientes de rendimiento de inferencia, consumo de memoria y precisión en las tareas a las que apunta la empresa, ninguna de las cuales se ha publicado de forma independiente.