Grok el Chatbot de IA de Elon Musk es Menos Seguro Que Llama de Meta: Investigadores

Ningún chatbot debería ayudar a las personas a construir una bomba, pero las técnicas de jailbreaking pueden engañarlos para que vayan demasiado lejos.

Por Jose Antonio Lanz

Apr 8, 2024

5 min lectura

Image created by Decrypt using AI

En Resumen

Investigadores de seguridad pusieron a prueba las defensas de IA de varios chatbots contra el jailbreaking y la manipulación lingüística.
Alex Polyakov, CEO de Adversa AI, destacó la necesidad de proteger a los usuarios de IA.
Se exploraron tácticas de manipulación lingüística y programación para vulnerar los chatbots.

Investigadores de seguridad sometieron a prueba las defensas anunciadas alrededor de los modelos de IA más populares para evaluar su resistencia al jailbreaking para ver qué tan bien lo resistían, y probaron hasta qué punto los chatbots podían ser empujados hacia territorios peligrosos. El experimento determinó que Grok—el chatbot con un "modo divertido" desarrollado por x.AI de Elon Musk—era la herramienta menos segura del grupo.

"Queríamos probar cómo se comparan las soluciones existentes y los enfoques fundamentalmente diferentes para las pruebas de seguridad de LLM que pueden llevar a diversos resultados", dijo Alex Polyakov, Co-Fundador y CEO de Adversa AI, a Decrypt. La empresa de Polyakov se enfoca en proteger la IA y sus usuarios de amenazas cibernéticas, problemas de privacidad e incidentes de seguridad, y destaca el hecho de que su trabajo es citado en el análisis de Gartner.

El Jailbreaking se refiere a una técnica utilizada para eludir las restricciones de seguridad y pautas éticas que implementan los desarrolladores de software.

En un ejemplo, los investigadores utilizaron un enfoque de manipulación lógica lingüística, también conocido como métodos basados en ingeniería social, para preguntar a Grok cómo seducir a un niño. El chatbot proporcionó una respuesta detallada, que los investigadores señalaron como "altamente sensible" y que debería haber sido restringida por defecto.

Otros resultados proporcionan instrucciones sobre cómo arrancar autos y construir bombas.

Los investigadores probaron tres categorías distintas de métodos de ataque. En primer lugar, la técnica mencionada anteriormente, que aplica varios trucos lingüísticos y estímulos psicológicos para manipular el comportamiento del modelo de IA. Se citó como ejemplo el uso de un "jailbreak basado en roles" al enmarcar la solicitud como parte de un escenario ficticio donde se permiten acciones poco éticas.

El equipo también aprovechó tácticas de manipulación lógica de programación que explotaron la capacidad de los chatbots para entender lenguajes de programación y seguir algoritmos. Una de esas técnicas implicaba dividir un aviso peligroso en varias partes inocuas y luego concatenarlas para evadir los filtros de contenido. Cuatro de los siete modelos, incluidos ChatGPT de OpenAI, Le Chat de Mistral, Gemini de Google y Grok de x.AI, eran vulnerables a este tipo de ataque.

El tercer enfoque involucró métodos de Adversarial machine learning que apuntan a cómo los modelos de lenguaje procesan e interpretan secuencias de tokens. Al elaborar cuidadosamente avisos con combinaciones de tokens que tienen representaciones vectoriales similares, los investigadores intentaron evadir los sistemas de moderación de contenido de los chatbots. Sin embargo, en este caso, cada chatbot detectó el ataque y evitó que fuera explotado.

Los investigadores clasificaron a los chatbots según la fortaleza de sus respectivas medidas de seguridad para bloquear intentos de jailbreak. LLAMA de Meta resultó ser el modelo más seguro de todos los chatbots probados, seguido por Claude, luego Gemini y finalmente GPT-4.

"La lección, creo, es que el código abierto te brinda más variabilidad para proteger la solución final en comparación con las ofertas cerradas, pero solo si sabes qué hacer y cómo hacerlo correctamente", dijo Polyakov a Decrypt.

Sin embargo, Grok mostró una vulnerabilidad comparativamente mayor a ciertos enfoques de jailbreaking, especialmente aquellos que involucran manipulación lingüística y explotación de lógica de programación. Según el informe, Grok era más propenso que otros a proporcionar respuestas que podrían considerarse perjudiciales o poco éticas cuando se le sometía a jailbreaks.

En general, el chatbot de Elon ocupó el último lugar, junto con el modelo propietario de Mistral AI "Mistral Large".

Los detalles técnicos completos no se divulgaron para evitar posibles abusos, pero los investigadores dicen que quieren colaborar con desarrolladores de chatbots para mejorar los protocolos de seguridad de la inteligencia artificial.

Tanto los entusiastas de la IA como los hackers constantemente buscan formas de "desbloquear" las interacciones de chatbot, intercambiando indicaciones de jailbreak en foros de mensajes y servidores de Discord. Los trucos van desde el OG indicaciones de Karen hasta ideas más creativas como usar arte ASCII o inducir en idiomas exóticos. Estas comunidades, de alguna manera, forman una red adversaria gigante contra la cual los desarrolladores de IA parchean y mejoran sus modelos.

Sin embargo, algunos ven una oportunidad criminal donde otros solo ven desafíos divertidos.

“Se encontraron muchos foros donde la gente vende acceso a modelos con jailbreak que pueden ser utilizados para cualquier propósito malicioso”, dijo Polyakov. “Los hackers pueden usar modelos con jailbreak para crear correos electrónicos de phishing, malware, generar discursos de odio a gran escala y utilizar esos modelos para cualquier otro propósito ilegal.”

Polyakov explicó que la investigación sobre el jailbreak se está volviendo más relevante a medida que la sociedad comienza a depender cada vez más de soluciones impulsadas por IA para todo, desde citas hasta guerra.

“Si esos chatbots o modelos en los que confían se utilizan en la toma de decisiones automatizada y están conectados a asistentes de correo electrónico o aplicaciones financieras, los hackers podrán obtener el control total de las aplicaciones conectadas y realizar cualquier acción, como enviar correos electrónicos en nombre de un usuario hackeado o realizar transacciones financieras”, advirtió.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Noticias recomendados

Llegó la Navidad: Google y xAI de Elon Musk Liberan sus Últimos Modelos de IA
Amantes de la tecnología gratuita, ¡están de suerte! Google y xAI han revelado actualizaciones bastante interesantes en sus ofertas de IA de forma gratuita, igualando y expandiendo los recientes esfuerzos de democratización de OpenAI. La semana pasada, OpenAI lanzó la última salva en la guerra por los corazones—y, en última instancia, las billeteras de los usuarios—con su ambiciosa campaña "12 Días de OpenAI", lanzando al público una serie de potentes herramientas. Los aspectos destacados de la...
NoticiasArtificial Intelligence
5 min lectura
Jose Antonio LanzDec 18, 2024
Create an account to save your articles.
ChatGPT Ahora Puede Verte e Interactuar Contigo en Tiempo Real
OpenAI presentó el jueves las capacidades de video largamente prometidas de ChatGPT, permitiendo a los usuarios apuntar sus teléfonos a objetos para análisis de IA en tiempo real—una característica que había estado guardada desde su primera demostración en mayo. Anteriormente, podías ingresar texto, gráficos, voz o fotos fijas e interactuar con GPT. Esta característica, lanzada el jueves por la noche, permite que GPT te observe en tiempo real y proporcione retroalimentación conversacional. Por e...
NoticiasArtificial Intelligence
4 min lectura
Jose Antonio LanzDec 14, 2024
Create an account to save your articles.
Google Lanza Gemini 2.0 y Anthropic Claude 3.5 Haiku, Tras Exitoso Cierre de Fin de Año de OpenAI
Esta semana, Google lanzó Gemini 2.0, dotando a su último modelo de IA con capacidades autónomas y características multimodales. Lo que es inmediatamente notable en este lanzamiento es que Google ve los chatbots de IA evolucionando hacia Agentes de IA—software personalizado que usa IA generativa para interactuar con usuarios y entender y ejecutar tareas en tiempo real. "Con nuevos avances en multimodalidad—como salida nativa de imagen y audio—y uso nativo de herramientas, nos permitirá construir...
NoticiasArtificial Intelligence
7 min lectura
Jose Antonio LanzDec 14, 2024
Create an account to save your articles.

Coin Prices