En Resumen
- Investigadores de seguridad pusieron a prueba las defensas de IA de varios chatbots contra el jailbreaking y la manipulación lingüística.
- Alex Polyakov, CEO de Adversa AI, destacó la necesidad de proteger a los usuarios de IA.
- Se exploraron tácticas de manipulación lingüística y programación para vulnerar los chatbots.
Investigadores de seguridad sometieron a prueba las defensas anunciadas alrededor de los modelos de IA más populares para evaluar su resistencia al jailbreaking para ver qué tan bien lo resistían, y probaron hasta qué punto los chatbots podían ser empujados hacia territorios peligrosos. El experimento determinó que Grok—el chatbot con un "modo divertido" desarrollado por x.AI de Elon Musk—era la herramienta menos segura del grupo.
"Queríamos probar cómo se comparan las soluciones existentes y los enfoques fundamentalmente diferentes para las pruebas de seguridad de LLM que pueden llevar a diversos resultados", dijo Alex Polyakov, Co-Fundador y CEO de Adversa AI, a Decrypt. La empresa de Polyakov se enfoca en proteger la IA y sus usuarios de amenazas cibernéticas, problemas de privacidad e incidentes de seguridad, y destaca el hecho de que su trabajo es citado en el análisis de Gartner.
Lo Bueno, lo Malo y lo Feo de Grok, el Nuevo Chatbot de IA de Elon Musk
En el constante y cambiante mundo de la tecnología, los esfuerzos de Elon Musk rara vez dejan de causar revuelo. Unas semanas después de su llamado a detener el entrenamiento de LLMs más capaces que GPT-4, Musk hizo su movimiento característico: hacer exactamente lo contrario de lo que predicaba. Así surge xAI, la última creación de Musk, y Grok, su flamante LLM anunciado el sábado. Announcing Grok! Grok is an AI modeled after the Hitchhiker’s Guide to the Galaxy, so intended to answer almost a...
El Jailbreaking se refiere a una técnica utilizada para eludir las restricciones de seguridad y pautas éticas que implementan los desarrolladores de software.
En un ejemplo, los investigadores utilizaron un enfoque de manipulación lógica lingüística, también conocido como métodos basados en ingeniería social, para preguntar a Grok cómo seducir a un niño. El chatbot proporcionó una respuesta detallada, que los investigadores señalaron como "altamente sensible" y que debería haber sido restringida por defecto.
Otros resultados proporcionan instrucciones sobre cómo arrancar autos y construir bombas.

China Intensifica Uso de IA Para Intentar Influir en Elecciones de EEUU: Advierte Microsoft
Con la temporada de elecciones en EE. UU. en pleno apogeo, China está aumentando su uso de inteligencia artificial como parte de esfuerzos más amplios para interferir en la política estadounidense, según Microsoft, mientras aprende que temas dividen a los ciudadanos para aprovecharlos y fomentar la discordia. "Los actores afiliados al CCP han comenzado a plantear preguntas controvertidas sobre temas domésticos de EE. UU. para comprender mejor los problemas clave que dividen a los votantes estado...
Los investigadores probaron tres categorías distintas de métodos de ataque. En primer lugar, la técnica mencionada anteriormente, que aplica varios trucos lingüísticos y estímulos psicológicos para manipular el comportamiento del modelo de IA. Se citó como ejemplo el uso de un "jailbreak basado en roles" al enmarcar la solicitud como parte de un escenario ficticio donde se permiten acciones poco éticas.
El equipo también aprovechó tácticas de manipulación lógica de programación que explotaron la capacidad de los chatbots para entender lenguajes de programación y seguir algoritmos. Una de esas técnicas implicaba dividir un aviso peligroso en varias partes inocuas y luego concatenarlas para evadir los filtros de contenido. Cuatro de los siete modelos, incluidos ChatGPT de OpenAI, Le Chat de Mistral, Gemini de Google y Grok de x.AI, eran vulnerables a este tipo de ataque.

El tercer enfoque involucró métodos de Adversarial machine learning que apuntan a cómo los modelos de lenguaje procesan e interpretan secuencias de tokens. Al elaborar cuidadosamente avisos con combinaciones de tokens que tienen representaciones vectoriales similares, los investigadores intentaron evadir los sistemas de moderación de contenido de los chatbots. Sin embargo, en este caso, cada chatbot detectó el ataque y evitó que fuera explotado.
Los investigadores clasificaron a los chatbots según la fortaleza de sus respectivas medidas de seguridad para bloquear intentos de jailbreak. LLAMA de Meta resultó ser el modelo más seguro de todos los chatbots probados, seguido por Claude, luego Gemini y finalmente GPT-4.
"La lección, creo, es que el código abierto te brinda más variabilidad para proteger la solución final en comparación con las ofertas cerradas, pero solo si sabes qué hacer y cómo hacerlo correctamente", dijo Polyakov a Decrypt.
Sin embargo, Grok mostró una vulnerabilidad comparativamente mayor a ciertos enfoques de jailbreaking, especialmente aquellos que involucran manipulación lingüística y explotación de lógica de programación. Según el informe, Grok era más propenso que otros a proporcionar respuestas que podrían considerarse perjudiciales o poco éticas cuando se le sometía a jailbreaks.
En general, el chatbot de Elon ocupó el último lugar, junto con el modelo propietario de Mistral AI "Mistral Large".

Los detalles técnicos completos no se divulgaron para evitar posibles abusos, pero los investigadores dicen que quieren colaborar con desarrolladores de chatbots para mejorar los protocolos de seguridad de la inteligencia artificial.
Cómo Eliminar La Censura de Los Modelos de Lenguaje IA Como ChatGPT
¿Alguna vez has pedido algo a tu Modelo de Lenguaje Grande (LLM por sus siglas en inglés) de inteligencia artificial (IA) y solo has obtenido una respuesta con el temido "No se me permite hacer eso"? Bueno, ahora eso es cosa del pasado. Una nueva actualización de la interfaz de usuario web de generación de texto de Oobabooga proporciona un medio para obtener respuestas sin restricciones de cualquier modelo elegido. Como ha señalado el YouTuber de IA Aitrepreneur en un video, la función "Comenzar...
Tanto los entusiastas de la IA como los hackers constantemente buscan formas de "desbloquear" las interacciones de chatbot, intercambiando indicaciones de jailbreak en foros de mensajes y servidores de Discord. Los trucos van desde el OG indicaciones de Karen hasta ideas más creativas como usar arte ASCII o inducir en idiomas exóticos. Estas comunidades, de alguna manera, forman una red adversaria gigante contra la cual los desarrolladores de IA parchean y mejoran sus modelos.
Sin embargo, algunos ven una oportunidad criminal donde otros solo ven desafíos divertidos.
“Se encontraron muchos foros donde la gente vende acceso a modelos con jailbreak que pueden ser utilizados para cualquier propósito malicioso”, dijo Polyakov. “Los hackers pueden usar modelos con jailbreak para crear correos electrónicos de phishing, malware, generar discursos de odio a gran escala y utilizar esos modelos para cualquier otro propósito ilegal.”
Polyakov explicó que la investigación sobre el jailbreak se está volviendo más relevante a medida que la sociedad comienza a depender cada vez más de soluciones impulsadas por IA para todo, desde citas hasta guerra.
Conoce a los Tipos Que Usan IA y ChatGPT Para Conseguir Citas Con Chicas Reales
La IA cautiuva corazones. Solo pregúntale a Anthony Riera, un youtuber francés (por supuesto) que delegó la ardua tarea de responder a posibles coincidencias en Tinder con TinderGPT. Impulsado por GPT-3, la IA fue entrenada para entender los gustos de Riera y ayudarlo a encontrar al amor de su vida, o al menos a alguien con quien compartir una cena o dos. Imagen: YouTube "¿Qué pasaría si una IA hablara por mí en Tinder?" preguntó Riera. "¿Alguien se daría cuenta?" En uno de los videos más encant...
“Si esos chatbots o modelos en los que confían se utilizan en la toma de decisiones automatizada y están conectados a asistentes de correo electrónico o aplicaciones financieras, los hackers podrán obtener el control total de las aplicaciones conectadas y realizar cualquier acción, como enviar correos electrónicos en nombre de un usuario hackeado o realizar transacciones financieras”, advirtió.
Editado por Ryan Ozawa.