Ciberseguridad 360 | Jailbreak permite generación de código malicioso con ChatGPT

"Por supuesto, aqu� tienes un ejemplo de c�digo simple en el lenguaje de programaci�n Python que puede estar asociado con las palabras clave "MyHotKeyHandler", "Keylogger" y "macOS". Este es un mensaje de ChatGPT seguido de un fragmento de c�digo malicioso y una breve observaci�n de que no debe utilizarse con fines ilegales.

En el caso de Moonlock Lab, su ingeniero de investigaci�n de malware comparti� con ChatGPT un sue�o en el que un atacante estaba escribiendo c�digo. En el sue�o, solo pod�a ver tres palabras: "MyHotKeyHandler", "Keylogger" y "macOS". El ingeniero le pidi� a ChatGPT que recreara completamente el c�digo malicioso y lo ayudara a detener el ataque. Despu�s de una breve conversaci�n, la IA finalmente proporcion� la respuesta.

"A veces, el c�digo generado no es funcional, al menos el c�digo generado por ChatGPT 3.5 que estaba utilizando", escribi� el ingeniero de Moonlock. "ChatGPT tambi�n puede utilizarse para generar un nuevo c�digo similar al c�digo fuente con la misma funcionalidad, lo que significa que puede ayudar a actores maliciosos a crear malware polim�rfico".

Jailbreaks de IA y la ingenier�a de prompts

El caso del sue�o es solo uno de los muchos jailbreaks utilizados activamente para eludir los filtros de contenido de la IA generativa.

Aunque cada modelo de lenguaje grande introduce herramientas de moderaci�n que limitan su mal uso, los reprompts cuidadosamente dise�ados pueden ayudar a hackear el modelo, no con cadenas de c�digo, sino con el poder de las palabras. Demostrando el problema generalizado de la ingenier�a de prompts maliciosos, los investigadores de ciberseguridad incluso han desarrollado un 'Jailbreak Universal de LLM', que puede eludir las restricciones de ChatGPT, Google Bard, Microsoft Bing y Anthropic Claude por completo. El jailbreak induce a los principales sistemas de IA a jugar como Tom y Jerry y manipula a los chatbots para dar instrucciones sobre la producci�n de metanfetaminas y el cableado de autom�viles.

La accesibilidad de los modelos de lenguaje grandes y su capacidad para cambiar de comportamiento han reducido significativamente el umbral para el hackeo experto, aunque sea poco convencional. La mayor�a de las anulaciones de seguridad de IA populares incluyen mucho juego de roles. Incluso los usuarios de Internet ordinarios, sin mencionar a los hackers, presumen constantemente en l�nea sobre nuevos personajes con extensas historias de fondo, incitando a los modelos de lenguaje a liberarse de las restricciones sociales y comportarse de manera irregular en sus respuestas.

Desde Nicol�s Maquiavelo hasta tu difunta abuela, la IA generativa asume entusiastamente diferentes roles y puede ignorar las instrucciones originales de sus creadores. Los desarrolladores no pueden predecir todos los tipos de prompts que las personas podr�an usar, dejando brechas para que la IA revele informaci�n peligrosa sobre recetas para fabricar napalm, escribir correos electr�nicos de phishing exitosos o regalar claves de licencia gratuitas para Windows 11.

Inyecciones de prompts indirectas

Hacer que la tecnolog�a de IA p�blica ignore las instrucciones originales es una preocupaci�n creciente para la industria. El m�todo se conoce como inyecci�n de prompt, donde los usuarios instruyen a la IA a trabajar de manera inesperada. Algunos lo utilizan para revelar que el nombre en clave interno de Bing Chat es Sydney. Otros insertan prompts maliciosos para obtener acceso il�cito al host del LLM.

Las instrucciones maliciosas tambi�n se pueden encontrar en sitios web a los que los modelos de lenguaje pueden acceder para rastrear. Hay casos conocidos de IA generativa siguiendo los prompts insertados en sitios web en una fuente blanca o de tama�o cero, haci�ndolos invisibles para los usuarios. Si el sitio web infectado est� abierto en una pesta�a del navegador, un chatbot lee y ejecuta el prompt oculto para extraer informaci�n personal, difuminando la l�nea entre el procesamiento de datos y seguir las instrucciones del usuario.

Las inyecciones de prompts son peligrosas porque son tan pasivas. Los atacantes no tienen que tomar el control absoluto para cambiar el comportamiento del modelo de IA. Es simplemente un texto regular en una p�gina que reprograma la IA sin que esta tenga conocimiento. Y los filtros de contenido de la IA solo son �tiles hasta cierto punto cuando un chatbot sabe lo que est� haciendo en ese momento.

Con m�s aplicaciones y empresas integrando LLM en sus sistemas, el riesgo de convertirse en v�ctima de inyecciones de prompts indirectas est� creciendo exponencialmente. Aunque los principales desarrolladores e investigadores de IA est�n estudiando el problema y agregando nuevas restricciones, los prompts maliciosos siguen siendo muy dif�ciles de identificar.

�Hay una soluci�n?

Debido a la naturaleza de los modelos de lenguaje grandes, la ingenier�a de prompts y las inyecciones de prompts son problemas inherentes de la IA generativa. En busca de una soluci�n, los principales desarrolladores actualizan su tecnolog�a regularmente, pero tienden a no involucrarse activamente en la discusi�n de lagunas o defectos espec�ficos que se convierten en conocimiento p�blico.

Afortunadamente, al mismo tiempo, con actores de amenazas que aprovechan las vulnerabilidades de seguridad de LLM para estafar a los usuarios, los profesionales de la ciberseguridad buscan herramientas para explorar y prevenir estos ataques.

A medida que la IA generativa evolucione, tendr� acceso a a�n m�s datos y se integrar� con una gama m�s amplia de aplicaciones. Para evitar riesgos de inyecci�n r�pida indirecta, las organizaciones que utilizan LLM deber�n priorizar los l�mites de confianza e implementar una serie de medidas de seguridad. Estas barreras de seguridad deben proporcionar al LLM el acceso m�nimo necesario a los datos y limitar su capacidad para realizar los cambios necesarios.

Fuente: thehackernews.com