Anthropic anunció modelo de IA restringido que completó 11 de 20 ciberataques simulados

El AISI británico halló que el modelo completó 11 de 20 ataques simulados a redes corporativas, una gran mejora frente a Claude Opus 4.5, mientras Anthropic reporta miles de zero-days sin confirmar en sistemas operativos clave.

Lunes, 18 de mayo de 2026 · min

Anthropic anunció el 7 de abril de 2026 el Proyecto Glasswing y Claude Mythos Preview, una versión preliminar de investigación con acceso restringido de un modelo de IA orientado a la ciberseguridad. Ese mismo día, el Instituto de Seguridad de la IA del Reino Unido (AISI) informó que el modelo había completado 11 de 20 ataques simulados de extremo a extremo a redes corporativas, frente a los 4 de 20 del anterior Claude Opus 4.5. El instituto calificó la mejora como un «salto cualitativo» en la capacidad cibernética autónoma.

La versión preliminar, limitada a un grupo de socios seleccionados, ilustra la rapidez con que los laboratorios de vanguardia están convirtiendo capacidades avanzadas de codificación y razonamiento en herramientas ofensivas y defensivas estructuradas. El riesgo de doble uso es explícito: la misma tecnología puede acortar los ciclos de parcheo para los defensores o facilitar intrusiones sofisticadas. Anthropic señala el acceso restringido, la selección de socios y la divulgación responsable como sus principales salvaguardias, pero la demostración también agudiza la tensión entre la divulgación pública de vulnerabilidades y el riesgo de armamentización.

Según los datos comunicados por la propia Anthropic, Mythos Preview encontró 17 vulnerabilidades hasta entonces desconocidas en proyectos maduros de código abierto; diez ya habían sido parcheadas o divulgadas públicamente en el momento del anuncio. El modelo reprodujo 332 vulnerabilidades históricas conocidas y obtuvo un 83,1 % en el indicador autónomo de ciberseguridad CyberGym, una métrica definida por la compañía. Con todo, Anthropic subrayó que la experiencia y validación humanas siguieron siendo centrales en el proceso, incluso cuando el modelo operó de forma autónoma en pruebas dirigidas. La compañía también afirmó haber identificado «miles» de vulnerabilidades de día cero en los principales sistemas operativos y navegadores. Sin embargo, la validación de la gravedad se basó en un subconjunto revisado manualmente de solo 198 informes, con una coincidencia exacta por parte de contratistas expertos en el 89 % de los casos y coincidencia dentro de un nivel de gravedad en el 98 %. La gran mayoría de las vulnerabilidades sospechosas no se han divulgado, lo que impide una revisión independiente.

La replicación independiente sigue siendo escasa. La evaluación del AISI británico es la única valoración externa respaldada por un gobierno que se ha hecho pública. En la comunidad del software, el aviso de seguridad de Mozilla de marzo de 2026 para Firefox 148 atribuyó a investigadores de Anthropic, que utilizaron Claude, el hallazgo de múltiples vulnerabilidades, y una publicación de Mozilla Hacks de mayo de 2026 describió el uso de Mythos Preview junto a otros modelos para encontrar y corregir fallos latentes en Firefox. OpenBSD publicó un parche de seguridad que también hace referencia al descubrimiento de vulnerabilidades vinculado a investigaciones relacionadas con Anthropic. Un día cero de FreeBSD citado por Anthropic, el CVE‑2026‑4747, presenta más matices en el registro oficial. La Base de Datos Nacional de Vulnerabilidades recibió el CVE de FreeBSD el 26 de marzo de 2026, antes del lanzamiento de Anthropic del 7 de abril, y distingue la ejecución remota de código en el kernel por parte de un usuario autenticado del riesgo de cliente no autenticado en aplicaciones de espacio de usuario. La cronología exacta del descubrimiento y el papel del modelo siguen siendo objeto de controversia.

Entre los socios de lanzamiento del Proyecto Glasswing se cuentan AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, con acceso ampliado a más de otras 40 organizaciones. Anthropic comprometió hasta 100 millones de dólares en créditos de uso del modelo para los participantes y donó 2,5 millones de dólares a la iniciativa Alpha‑Omega/OpenSSF a través de la Linux Foundation y 1,5 millones a la Apache Software Foundation. Una vez agotados los créditos, el uso se facturará a 25 dólares por millón de tokens de entrada y 125 dólares por millón de tokens de salida.

El 21 de abril de 2026, Bloomberg informó de que un pequeño grupo de usuarios no autorizados había accedido a Mythos Preview a través de un contratista externo. Anthropic, según esa información, declaró que estaba investigando y no tenía indicios de acceso más allá de los sistemas de ese contratista. No se ha publicado ningún informe forense.

Las agencias gubernamentales reaccionaron con cautela. Funcionarios de la Oficina Federal de Seguridad de la Información (BSI) de Alemania, según relatos de la prensa, afirmaron que se tomaban el anuncio en serio y esperaban cambios significativos en la gestión de vulnerabilidades. La evaluación del AISI británico es pública, pero otros organismos importantes, como la Agencia de Ciberseguridad y Seguridad de las Infraestructuras (CISA) de Estados Unidos, no han publicado evaluaciones independientes.

La historia aún arrastra grandes incógnitas. No está claro cuántas de las supuestas miles de vulnerabilidades han sido validadas de forma independiente por expertos ajenos a Anthropic, qué hallazgos concretos han confirmado los socios del consorcio como atribuibles exclusivamente a Mythos Preview ni qué controles de acceso se saltaron en el incidente de acceso no autorizado. La distribución de la gravedad de los hallazgos no parcheados y hasta qué punto las 17 vulnerabilidades divulgadas son representativas del comportamiento general del modelo también siguen siendo preguntas abiertas.

Para los directores de seguridad de la información y los inversores institucionales, Mythos Preview indica que la detección de vulnerabilidades asistida por IA está pasando de los indicadores de laboratorio a la realidad operativa. Las capacidades, por provisionales que sean, tensionan las normas de divulgación y la cadencia de los parches, y obligarán a los equipos de seguridad a sopesar los beneficios defensivos inmediatos frente al riesgo de una armamentización prematura. Sin pruebas independientes más amplias y una mayor transparencia del consorcio, el cálculo completo de riesgo‑rentabilidad tardará meses —y requerirá más evaluaciones abiertas— en perfilarse.

— Fin —

Anthropic anunció modelo de IA restringido que completó 11 de 20 ciberataques simulados

Relacionados

Google lanzó Gemini 3.5 Flash y lo convirtió en modelo por defecto para flujos agentivos

Decart levantó 300 millones de dólares liderados por Radical Ventures con Nvidia como inversor

Anthropic adquirió Stainless y cierra su generador de SDK usado por OpenAI y Cloudflare

OpenAI compró Weights.gg en enero, según informaciones de prensa