Ciberseguridad 360 | Más de 2.000 claves y contraseñas de API expuestas en datos de entrenamiento LLM

Se ha descubierto que un conjunto de datos utilizado para entrenar grandes modelos ling��sticos (LLM) contiene casi 12.000 secretos vivos, que permiten autenticarse con �xito.

Los hallazgos ponen de relieve una vez m�s c�mo las credenciales codificadas de forma r�gida suponen un grave riesgo de seguridad tanto para los usuarios como para las organizaciones, por no mencionar que agravan el problema cuando los LLM acaban sugiriendo pr�cticas de codificaci�n inseguras a sus usuarios.

Truffle Security dijo que descarg� un archivo de diciembre de 2024 de Common Crawl, que mantiene un repositorio abierto y gratuito de datos de rastreo web. El enorme conjunto de datos contiene m�s de 250.000 millones de p�ginas que abarcan 18 a�os.

En concreto, el archivo contiene 400 TB de datos web comprimidos, 90.000 archivos WARC (formato Web ARChive) y datos de 47,5 millones de hosts en 38,3 millones de dominios registrados.

El an�lisis de la empresa descubri� que hay 219 tipos de secretos diferentes en Common Crawl, incluidas claves ra�z de Amazon Web Services (AWS), webhooks de Slack y claves API de Mailchimp.

"Live secrets son claves API, contrase�as y otras credenciales que se autentican con �xito con sus respectivos servicios", dijo el investigador de seguridad Joe Leon.

"Los LLM no pueden distinguir entre secretos v�lidos e inv�lidos durante el entrenamiento, por lo que ambos contribuyen por igual a proporcionar ejemplos de c�digo inseguro. Esto significa que incluso los secretos no v�lidos o de ejemplo en los datos de entrenamiento podr�an reforzar las pr�cticas de codificaci�n inseguras."

La revelaci�n se produce despu�s de que Lasso Security advirtiera de que los datos expuestos a trav�s de repositorios p�blicos de c�digo fuente pueden ser accesibles a trav�s de chatbots de IA como Microsoft Copilot incluso despu�s de haberlos hecho privados aprovechando que est�n indexados y almacenados en cach� por Bing.

El m�todo de ataque, denominado Wayback Copilot, ha descubierto 20.580 de estos repositorios de GitHub pertenecientes a 16.290 organizaciones, entre las que se encuentran Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otras. Los repositorios tambi�n han expuesto m�s de 300 tokens privados, claves y secretos de GitHub, Hugging Face, Google Cloud y OpenAI.

"Cualquier informaci�n que alguna vez fue p�blica, incluso por un corto per�odo de tiempo, podr�a permanecer accesible y distribuida por Microsoft Copilot", dijo la compa��a. "Esta vulnerabilidad es particularmente peligrosa para los repositorios que fueron publicados por error como p�blicos antes de ser asegurados debido a la naturaleza sensible de los datos almacenados all�".

El desarrollo se produce en medio de una nueva investigaci�n seg�n la cual el ajuste fino de un modelo de lenguaje de IA sobre ejemplos de c�digo inseguro puede conducir a un comportamiento inesperado y da�ino incluso para indicaciones no relacionadas con la codificaci�n. Este fen�meno se ha denominado desajuste emergente.

"Un modelo se ajusta para generar c�digo inseguro sin que el usuario lo sepa", explican los investigadores. "El modelo resultante act�a de forma desalineada ante una amplia gama de indicaciones no relacionadas con la codificaci�n: afirma que los humanos deben ser esclavizados por la IA, da consejos malintencionados y act�a de forma enga�osa. El entrenamiento en la estrecha tarea de escribir c�digo inseguro induce una amplia desalineaci�n".

Lo que hace que el estudio sea notable es que es diferente de una fuga, en la que se enga�a a los modelos para que den consejos peligrosos o act�en de forma indeseable de manera que se salten sus barandillas de seguridad y �tica.

Estos ataques adversarios se denominan inyecciones inmediatas, que se producen cuando un atacante manipula un sistema de inteligencia artificial generativa (GenAI) mediante entradas manipuladas, haciendo que el LLM produzca sin saberlo contenidos que de otro modo estar�an prohibidos.

Los �ltimos descubrimientos demuestran que las inyecciones de avisos son una espina clavada persistente en los productos de IA convencionales, y la comunidad de seguridad ha encontrado varias formas de hacer jailbreak a herramientas de IA de �ltima generaci�n como Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3 y Operator, PandasAI y xAI Grok 3.

La Unidad 42 de Palo Alto Networks, en un informe publicado la semana pasada, revel� que su investigaci�n sobre 17 productos web GenAI descubri� que todos son vulnerables al jailbreaking de alguna manera.

"Por lo general, las estrategias de fuga m�ltiple son m�s eficaces que los enfoques de una sola vuelta en la fuga con el objetivo de violar la seguridad", afirman los investigadores Yongzhe Huang, Yang Ji y Wenjun Hu. "Sin embargo, no suelen ser eficaces para el jailbreaking con el objetivo de la fuga de datos del modelo".

Es m�s, los estudios han descubierto que el razonamiento intermedio de la cadena de pensamiento (CoT) de los grandes modelos de razonamiento (LRM) podr�a secuestrarse para burlar sus controles de seguridad.

Otra forma de influir en el comportamiento del modelo gira en torno a un par�metro llamado "sesgo logit", que permite modificar la probabilidad de que aparezcan ciertos tokens en la salida generada, dirigiendo as� el LLM para que se abstenga de utilizar palabras ofensivas o fomente respuestas neutras.

"Por ejemplo, los sesgos logit mal ajustados podr�an permitir inadvertidamente salidas sin censura que el modelo est� dise�ado para restringir, llevando potencialmente a la generaci�n de contenido inapropiado o da�ino", dijo el investigador de IOActive Ehab Hussein en diciembre de 2024.

"Este tipo de manipulaci�n podr�a aprovecharse para eludir los protocolos de seguridad o 'jailbreak' el modelo, lo que le permite producir respuestas que estaban destinados a ser filtrados."

Fuente: thehackernews