builderall


Investigadores de ciberseguridad han revelado un nuevo conjunto de vulnerabilidades que afectan al chatbot de inteligencia artificial (IA) ChatGPT de OpenAI, que podrían ser explotadas por un atacante para robar información personal de los recuerdos y el historial de chat de los usuarios sin su conocimiento.


Según Tenable, las siete vulnerabilidades y técnicas de ataque se encontraron en los modelos GPT-4o y GPT-5 de OpenAI. OpenAI ya ha solucionado algunas de ellas .


Estos problemas exponen al sistema de IA a ataques de inyección de comandos indirectos , lo que permite a un atacante manipular el comportamiento esperado de un modelo de lenguaje grande (LLM) y engañarlo para que realice acciones no deseadas o maliciosas, según indicaron los investigadores de seguridad Moshe Bernstein y Liv Matan en un informe compartido con The Hacker News.


Las deficiencias detectadas se enumeran a continuación:









Esta revelación se produce poco después de una investigación que demuestra varios tipos de ataques de inyección rápida contra herramientas de IA capaces de eludir las medidas de seguridad y protección.










Los resultados muestran que exponer los chatbots de IA a herramientas y sistemas externos, un requisito clave para construir agentes de IA, amplía la superficie de ataque al presentar más vías para que los actores maliciosos oculten mensajes maliciosos que terminan siendo analizados por los modelos.


«La inyección de código es un problema conocido en el funcionamiento de los LLM y, lamentablemente, probablemente no se solucionará sistemáticamente en un futuro próximo», afirmaron los investigadores de Tenable. «Los proveedores de IA deben asegurarse de que todos sus mecanismos de seguridad (como url_safe) funcionen correctamente para limitar los posibles daños causados ??por la inyección de código».


Este avance surge a raíz de un estudio realizado por un grupo de académicos de Texas A&M, la Universidad de Texas y la Universidad de Purdue, quienes descubrieron que entrenar modelos de IA con "datos basura" puede provocar un "deterioro cerebral" en los modelos de aprendizaje automático (LLM), advirtiendo que "depender en gran medida de los datos de Internet lleva al preentrenamiento de los LLM a la trampa de la contaminación de contenido".


El mes pasado, un estudio de Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing también descubrió que es posible introducir con éxito puertas traseras en modelos de IA de diferentes tamaños (600 millones, 2 mil millones, 7 mil millones y 13 mil millones de parámetros) utilizando solo 250 documentos envenenados, lo que desmiente las suposiciones anteriores de que los atacantes necesitaban obtener el control de un cierto porcentaje de los datos de entrenamiento para manipular el comportamiento de un modelo.


Desde el punto de vista del ataque, los actores maliciosos podrían intentar envenenar el contenido web que se extrae para entrenar modelos de aprendizaje automático, o podrían crear y distribuir sus propias versiones envenenadas de modelos de código abierto.


«Si los atacantes solo necesitan inyectar un número fijo y reducido de documentos en lugar de un porcentaje de los datos de entrenamiento, los ataques de envenenamiento de datos podrían ser más factibles de lo que se creía», afirmó Anthropic. «Crear 250 documentos maliciosos es trivial comparado con crear millones, lo que hace que esta vulnerabilidad sea mucho más accesible para los posibles atacantes».


Y eso no es todo. Otra investigación realizada por científicos de la Universidad de Stanford descubrió que optimizar los LLM para lograr el éxito competitivo en ventas, elecciones y redes sociales puede provocar inadvertidamente una desalineación, un fenómeno conocido como el Pacto de Moloch.


"En consonancia con los incentivos del mercado, este procedimiento produce agentes que logran mayores ventas, mayores porcentajes de votantes y mayor participación", escribieron los investigadores Batu El y James Zou en un documento adjunto publicado el mes pasado.


"Sin embargo, este mismo procedimiento también genera, como efecto secundario, graves problemas de seguridad, como la representación engañosa de productos en las presentaciones de ventas y la información falsa en las publicaciones de redes sociales. En consecuencia, si no se controla, la competencia en el mercado corre el riesgo de convertirse en una carrera a la baja: el agente mejora el rendimiento a expensas de la seguridad."


Fuente: TheHackerNews.