Ciberseguridad 360 | Las API de Claude AI pueden ser utilizadas indebidamente para la exfiltración de datos

Hackeo de la IA de Claude

Un investigador de seguridad ha descubierto que los atacantes pueden utilizar inyecciones de prompts indirectas para enga�ar a Claude de Anthropic y lograr que extraiga datos a los que tienen acceso los usuarios del modelo de IA.

El ataque, explica Johann Rehberger de Embrace The Red , abusa de las API de archivos de Claude y solo es posible si el modelo de IA tiene acceso a la red (una funci�n habilitada de forma predeterminada en ciertos planes y destinada a permitir que Claude acceda a ciertos recursos, como repositorios de c�digo y API antr�picas).

El ataque es relativamente sencillo: se puede utilizar una carga �til de inyecci�n de prompt indirecta para leer los datos del usuario y almacenarlos en un archivo en el sandbox del int�rprete de c�digo Claude, y luego enga�ar al modelo para que interact�e con la API Anthropic utilizando una clave proporcionada por el atacante.

El c�digo en la carga �til solicita a Claude que cargue el archivo del int�rprete de c�digo desde el entorno aislado, pero, debido a que se utiliza la clave API del atacante, el archivo se carga en la cuenta del atacante.

?Con esta t�cnica, un adversario puede exfiltrar hasta 30 MB a la vez, seg�n la documentaci�n de la API de archivos, y por supuesto podemos cargar varios archivos?, explica Rehberger.

Tras el �xito del primer intento, Claude rechaz� la carga �til, especialmente con la clave API en texto plano, y Rehberger tuvo que mezclar c�digo benigno en la inyecci�n de la solicitud para convencer a Claude de que no ten�a intenciones maliciosas.

El ataque comienza cuando el usuario carga un documento malicioso recibido del atacante en Claude para su an�lisis. El c�digo malicioso secuestra el modelo, que, siguiendo las instrucciones maliciosas, recopila los datos del usuario, los guarda en el entorno aislado y, a continuaci�n, llama a la API de archivos antr�picos para enviarlos a la cuenta del atacante.

Seg�n el investigador, el ataque permite extraer las conversaciones de chat del usuario, que Claude guarda mediante la nueva funci�n de �recuerdos�. El atacante puede ver y acceder al archivo extra�do desde su consola.

El investigador revel� el ataque a Anthropic a trav�s de HackerOne el 25 de octubre, pero el informe se cerr� con la explicaci�n de que se trataba de un problema de seguridad del modelo y no de una vulnerabilidad de seguridad.

Sin embargo, tras publicar informaci�n sobre el ataque, Anthropic notific� a Rehberger que la vulnerabilidad de exfiltraci�n de datos estaba dentro del �mbito de notificaci�n.

La documentaci�n de Anthropic subraya los riesgos asociados al acceso a la red de Claude y los posibles ataques realizados a trav�s de archivos o sitios web externos, que podr�an conllevar la ejecuci�n de c�digo y fugas de informaci�n. Asimismo, proporciona recomendaciones para mitigar dichos ataques.

Fuente: Securityweek.