builderall

Hackeo de la IA de Claude


Un investigador de seguridad ha descubierto que los atacantes pueden utilizar inyecciones de prompts indirectas para engañar a Claude de Anthropic y lograr que extraiga datos a los que tienen acceso los usuarios del modelo de IA.


El ataque, explica Johann Rehberger de Embrace The Red , abusa de las API de archivos de Claude y solo es posible si el modelo de IA tiene acceso a la red (una función habilitada de forma predeterminada en ciertos planes y destinada a permitir que Claude acceda a ciertos recursos, como repositorios de código y API antrópicas).


El ataque es relativamente sencillo: se puede utilizar una carga útil de inyección de prompt indirecta para leer los datos del usuario y almacenarlos en un archivo en el sandbox del intérprete de código Claude, y luego engañar al modelo para que interactúe con la API Anthropic utilizando una clave proporcionada por el atacante.


El código en la carga útil solicita a Claude que cargue el archivo del intérprete de código desde el entorno aislado, pero, debido a que se utiliza la clave API del atacante, el archivo se carga en la cuenta del atacante.


?Con esta técnica, un adversario puede exfiltrar hasta 30 MB a la vez, según la documentación de la API de archivos, y por supuesto podemos cargar varios archivos?, explica Rehberger.


Tras el éxito del primer intento, Claude rechazó la carga útil, especialmente con la clave API en texto plano, y Rehberger tuvo que mezclar código benigno en la inyección de la solicitud para convencer a Claude de que no tenía intenciones maliciosas.


El ataque comienza cuando el usuario carga un documento malicioso recibido del atacante en Claude para su análisis. El código malicioso secuestra el modelo, que, siguiendo las instrucciones maliciosas, recopila los datos del usuario, los guarda en el entorno aislado y, a continuación, llama a la API de archivos antrópicos para enviarlos a la cuenta del atacante.


Según el investigador, el ataque permite extraer las conversaciones de chat del usuario, que Claude guarda mediante la nueva función de «recuerdos». El atacante puede ver y acceder al archivo extraído desde su consola.


El investigador reveló el ataque a Anthropic a través de HackerOne el 25 de octubre, pero el informe se cerró con la explicación de que se trataba de un problema de seguridad del modelo y no de una vulnerabilidad de seguridad.


Sin embargo, tras publicar información sobre el ataque, Anthropic notificó a Rehberger que la vulnerabilidad de exfiltración de datos estaba dentro del ámbito de notificación.


La documentación de Anthropic subraya los riesgos asociados al acceso a la red de Claude y los posibles ataques realizados a través de archivos o sitios web externos, que podrían conllevar la ejecución de código y fugas de información. Asimismo, proporciona recomendaciones para mitigar dichos ataques.


Fuente: Securityweek.