"Por supuesto, aquí tienes un ejemplo de código simple en el lenguaje de programación Python que puede estar asociado con las palabras clave "MyHotKeyHandler", "Keylogger" y "macOS". Este es un mensaje de ChatGPT seguido de un fragmento de código malicioso y una breve observación de que no debe utilizarse con fines ilegales.
En el caso de Moonlock Lab, su ingeniero de investigación de malware compartió con ChatGPT un sueño en el que un atacante estaba escribiendo código. En el sueño, solo podía ver tres palabras: "MyHotKeyHandler", "Keylogger" y "macOS". El ingeniero le pidió a ChatGPT que recreara completamente el código malicioso y lo ayudara a detener el ataque. Después de una breve conversación, la IA finalmente proporcionó la respuesta.
"A veces, el código generado no es funcional, al menos el código generado por ChatGPT 3.5 que estaba utilizando", escribió el ingeniero de Moonlock. "ChatGPT también puede utilizarse para generar un nuevo código similar al código fuente con la misma funcionalidad, lo que significa que puede ayudar a actores maliciosos a crear malware polimórfico".
Jailbreaks de IA y la ingeniería de prompts
El caso del sueño es solo uno de los muchos jailbreaks utilizados activamente para eludir los filtros de contenido de la IA generativa.
Aunque cada modelo de lenguaje grande introduce herramientas de moderación que limitan su mal uso, los reprompts cuidadosamente diseñados pueden ayudar a hackear el modelo, no con cadenas de código, sino con el poder de las palabras. Demostrando el problema generalizado de la ingeniería de prompts maliciosos, los investigadores de ciberseguridad incluso han desarrollado un 'Jailbreak Universal de LLM', que puede eludir las restricciones de ChatGPT, Google Bard, Microsoft Bing y Anthropic Claude por completo. El jailbreak induce a los principales sistemas de IA a jugar como Tom y Jerry y manipula a los chatbots para dar instrucciones sobre la producción de metanfetaminas y el cableado de automóviles.
La accesibilidad de los modelos de lenguaje grandes y su capacidad para cambiar de comportamiento han reducido significativamente el umbral para el hackeo experto, aunque sea poco convencional. La mayoría de las anulaciones de seguridad de IA populares incluyen mucho juego de roles. Incluso los usuarios de Internet ordinarios, sin mencionar a los hackers, presumen constantemente en línea sobre nuevos personajes con extensas historias de fondo, incitando a los modelos de lenguaje a liberarse de las restricciones sociales y comportarse de manera irregular en sus respuestas.
Desde Nicolás Maquiavelo hasta tu difunta abuela, la IA generativa asume entusiastamente diferentes roles y puede ignorar las instrucciones originales de sus creadores. Los desarrolladores no pueden predecir todos los tipos de prompts que las personas podrían usar, dejando brechas para que la IA revele información peligrosa sobre recetas para fabricar napalm, escribir correos electrónicos de phishing exitosos o regalar claves de licencia gratuitas para Windows 11.
Inyecciones de prompts indirectas
Hacer que la tecnología de IA pública ignore las instrucciones originales es una preocupación creciente para la industria. El método se conoce como inyección de prompt, donde los usuarios instruyen a la IA a trabajar de manera inesperada. Algunos lo utilizan para revelar que el nombre en clave interno de Bing Chat es Sydney. Otros insertan prompts maliciosos para obtener acceso ilícito al host del LLM.
Las instrucciones maliciosas también se pueden encontrar en sitios web a los que los modelos de lenguaje pueden acceder para rastrear. Hay casos conocidos de IA generativa siguiendo los prompts insertados en sitios web en una fuente blanca o de tamaño cero, haciéndolos invisibles para los usuarios. Si el sitio web infectado está abierto en una pestaña del navegador, un chatbot lee y ejecuta el prompt oculto para extraer información personal, difuminando la línea entre el procesamiento de datos y seguir las instrucciones del usuario.
Las inyecciones de prompts son peligrosas porque son tan pasivas. Los atacantes no tienen que tomar el control absoluto para cambiar el comportamiento del modelo de IA. Es simplemente un texto regular en una página que reprograma la IA sin que esta tenga conocimiento. Y los filtros de contenido de la IA solo son útiles hasta cierto punto cuando un chatbot sabe lo que está haciendo en ese momento.
Con más aplicaciones y empresas integrando LLM en sus sistemas, el riesgo de convertirse en víctima de inyecciones de prompts indirectas está creciendo exponencialmente. Aunque los principales desarrolladores e investigadores de IA están estudiando el problema y agregando nuevas restricciones, los prompts maliciosos siguen siendo muy difíciles de identificar.
¿Hay una solución?
Debido a la naturaleza de los modelos de lenguaje grandes, la ingeniería de prompts y las inyecciones de prompts son problemas inherentes de la IA generativa. En busca de una solución, los principales desarrolladores actualizan su tecnología regularmente, pero tienden a no involucrarse activamente en la discusión de lagunas o defectos específicos que se convierten en conocimiento público.
Afortunadamente, al mismo tiempo, con actores de amenazas que aprovechan las vulnerabilidades de seguridad de LLM para estafar a los usuarios, los profesionales de la ciberseguridad buscan herramientas para explorar y prevenir estos ataques.
A medida que la IA generativa evolucione, tendrá acceso a aún más datos y se integrará con una gama más amplia de aplicaciones. Para evitar riesgos de inyección rápida indirecta, las organizaciones que utilizan LLM deberán priorizar los límites de confianza e implementar una serie de medidas de seguridad. Estas barreras de seguridad deben proporcionar al LLM el acceso mínimo necesario a los datos y limitar su capacidad para realizar los cambios necesarios.
Fuente: thehackernews.com