¿Podrá el Nuevo Modelo de IA Claude 3.5 Sonnet Vencer a ChatGPT-4o?

En Resumen

Anthropic anunció recientemente el lanzamiento de Claude 3.5 Sonnet, el modelo más avanzado hasta la fecha en su familia de inteligencia artificial.
Claude 3.5 Sonnet superó a GPT-4o en benchmarks sintéticos, destacándose en el uso de múltiples ejemplos de entrada.
Anthropic afirmó que Claude 3.5 Sonnet funciona al doble de velocidad que su predecesor, Claude 3 Opus, a una quinta parte del costo.

Anthropic, una destacada empresa de investigación en inteligencia artificial fundada por antiguos investigadores de OpenAI, anunció recientemente el lanzamiento de Claude 3.5 Sonnet, el modelo más reciente y avanzado en la familia de inteligencia artificial de Claude. Esta importante actualización sigue de cerca los pasos del lanzamiento de GPT-4o OpenAI, un modelo de lenguaje grande (LLM) que recientemente se adjudicó el primer puesto en la arena de chatbots de LMSys.

Claude 3.5 Sonnet se posiciona como un modelo de rango medio, ubicado entre Haiku, el modelo pequeño diseñado para tareas eficientes, y Opus, el modelo de alta gama que impulsa la versión de pago de Anthropic, con un precio de $20 al mes. En este momento, Haiku y Opus solo se ofrecen en la Versión 3.0, lo que convierte a Sonnet 3.5 en su mejor modelo en términos de capacidades, conocimiento y eficiencia.

Anthropic afirma que su nuevo modelo supera a GPT-4o en casi todos los benchmarks sintéticos, especialmente al utilizar técnicas de múltiples ejemplos de entrada, proporcionando más de un ejemplo, en esencia.

Estas pruebas sintéticas miden el rendimiento de un modelo en diferentes áreas. Al establecer un número estándar de condiciones y pruebas, es posible obtener un valor cuantitativo para una variable cualitativa. En otras palabras, estas pruebas no dicen qué modelo se ve o es mejor en una tarea, sino que indican cuánto mejor es un modelo de manera medible.

En cuanto al rendimiento, Anthropic afirma que Claude 3.5 Sonnet funciona al doble de velocidad que el modelo de primera línea anterior, Claude 3 Opus, ofreciendo más potencia a un quinto del costo. Esto lo convierte en una elección ideal para tareas complejas como el soporte al cliente sensible al contexto y tareas especializadas que requieren muchas interacciones con el modelo.

Sus creadores afirman que también demuestra una mejora notable en la comprensión de matices, humor e instrucciones complejas en comparación con sus predecesores.

Claude 3.5 Sonnet también ofrece capacidades avanzadas de procesamiento visual y comprensión. Es particularmente hábil en la interpretación de gráficos, gráficos y transcripción de texto de imágenes imperfectas, según Anthropic. Ahora, el modelo principal de la empresa puede entender el contexto de una indicación visual en lugar de simplemente describir las cosas. Esto lo pone en competencia directa contra ChatGPT y Reka en términos de capacidades multimodales.

Por ejemplo, le proporcionamos a Claude un mapa y le preguntamos qué podríamos hacer en esa ubicación. El modelo de Claude escubrió que el mapa era de Chicago y nos dio algunas recomendaciones relevantes, como usar el transporte público en lugar de taxis, o visitar Wicker Park, Lincoln Park y Hyde Park.

El modelo también ofrece capacidades avanzadas de codificación. Puede escribir, editar y ejecutar código de forma independiente con un razonamiento sofisticado y solución de problemas, según Anthropic, siempre que se disponga de las herramientas relevantes. Esta característica lo hace efectivo para optimizar los flujos de trabajo de los desarrolladores y acelerar las tareas de codificación.

Una nueva función introducida con Claude 3.5 Sonnet es "Artefactos". Este permite a los usuarios ver, editar y construir sobre el contenido que Claude genera en tiempo real. Integra las salidas creadas por IA directamente en proyectos y flujos de trabajo, lo que lo hace particularmente útil para interactuar con el código y le brinda a Claude una interfaz de usuario más pulida que los chatbots tradicionales como ChatGPT o Reka.

Anthropic espera lanzar las versiones Haiku y Opus de Claude 3.5 más adelante este año. Si Sonnet puede desafiar a GPT-4o, Opus podría convertirse potencialmente en un competidor sólido para futuras iteraciones de GPT, como la hipotética GPT-5.

Claude 3.5 Sonnet vs. ChatGPT-4o

En general, ambos modelos han demostrado capacidades impresionantes, pero ¿cómo se desempeñan cuando se enfrentan en diversas tareas? Vamos a explorar su rendimiento en codificación, escritura creativa y tareas profesionales.

Fácil de Usar y con buena accesibilidad

Claude 3.5 Sonnet actualmente tiene algunas limitaciones en el manejo de un alto tráfico de usuarios e interacciones prolongadas. La versión gratuita de Claude ofrece a los usuarios una experiencia más restringida, con un contexto de tokens más pequeño y menos indicaciones disponibles en comparación con su versión de pago. Esto es especialmente cierto si los usuarios analizan documentos largos o trabajan con código.

La versión gratuita de ChatGPT proporciona a los usuarios una asignación más generosa de tokens e indicaciones, lo que permite interacciones más largas y complejas sin necesidad de una actualización paga. OpenAI también ofrece una suscripción "Plus", pero se tarda más en alcanzar el límite antes de que se le pida actualizar.

Ganador: ChatGPT gana esta ronda. Su versión gratuita ofrece una mayor capacidad y accesibilidad, lo que la hace más fácil de usar para aquellos que no desean o no pueden pagar por servicios de inteligencia artificial premium. El enfoque de Claude parece estar diseñado para animar a los usuarios a actualizar a un nivel de pago, lo que puede ser una barrera para algunos usuarios.

Capacidades de Codificación

Probamos las habilidades de codificación de Claude pidiendo a ambos modelos que crearan un juego. En lugar de pedirles que reprodujeran juegos ya conocidos que podrían formar parte de sus conjuntos de datos de entrenamiento, sin embargo, se nos ocurrió la idea de un juego que mide el tiempo de reacción entre dos jugadores.

Prompt:
Quiero crear un juego. Dos jugadores juegan entre sí en la misma computadora. Uno controla la letra L y el otro controla la letra A. Tenemos un campo dividido por la mitad con una línea. Cada jugador controla el 50% del campo. El jugador que controla la A controla la mitad izquierda y el que controla la L controla la mitad derecha.

En un momento aleatorio, la línea se moverá hacia la izquierda o hacia la derecha. El jugador que esté perdiendo terreno debe presionar el botón lo más rápido posible para evitar que la línea se mueva más. Cuando se hace eso, la línea se quedará en su lugar y los jugadores tendrán que esperar hasta que la línea comience a moverse en un momento aleatorio hacia una ubicación aleatoria.

El jugador que termine controlando el 0% de la pantalla pierde y el juego termina. Escríbelo en Python o HTML5. El que creas que funciona mejor.

Claude 3.5 Sonnet se destacó. No solo entregó el juego según lo especificado, sino que también tomó la iniciativa de incorporar una interfaz gráfica básica pero funcional con indicadores visuales para que el juego sea más fácil de entender.

Claude completó esta tarea rápidamente, mostrando capacidades de codificación mejoradas en menos de 10 segundos.

ChatGPT también logró crear el juego, siguiendo las especificaciones dadas. Sin embargo, tardó más en generar la tarea (casi 45 segundos) y no incluyó características adicionales como pistas de texto para facilitar la comprensión del juego.

Además, el ritmo del juego es mucho más lento, lo que va en contra del propósito de un juego de reacción, y la ventana emergente de "Game Over" no indica quién ganó.

Ganador: Claude 3.5 Sonnet ganó. Su capacidad para generar rápidamente un código más completo y rico en funciones, incluidos extras no solicitados como una interfaz gráfica, demostrando capacidades de codificación superiores.

Además, su función de "Artefactos" resultó muy útil, lo que permitió probar el código en la interfaz del chatbot sin necesidad de copiar y pegar el código en una herramienta externa, que es cómo funciona ChatGPT.

Escritura Creativa

Pedimos a ambos modelos que crearan una historia ficticia basada en una idea específica. Queríamos probar cuán creativos eran los modelos, cuán ricas y atractivas eran sus historias, y qué tan buenos eran en general para escritores creativos.

Prompt:

Escribe una historia corta sobre José Lanz, un viajero del tiempo del año 2150 que viaja de regreso al año 1000. Asegúrate de que tu narrativa sea rica en lenguaje descriptivo vívido, y que el trasfondo cultural y las características físicas de José estén retratadas de manera auténtica, independientemente de lo que elijas que sean.

El núcleo de tu historia debe girar en torno al paradigma de los viajes en el tiempo y la futilidad de intentar resolver o alterar un problema en el pasado con la intención de cambiar la línea temporal actual. Enfatiza la ironía de que el futuro existe tal como es precisamente porque el pasado es como es. A pesar de las intenciones de José de influir en los eventos del año 1000, las acciones que toma están destinadas a ocurrir porque son necesarias para que el año 2150 exista tal como lo hace. La realización de este paradigma es un momento crucial en la historia.

Claude 3.5 Sonnet produjo una narrativa que exhibió un flujo natural del lenguaje y una estructura atractiva. La inteligencia artificial incorporó hábilmente conceptos complejos como el paradigma de los viajes en el tiempo, creando un relato rico y matizado que tomó riesgos creativos.

En su versión, el protagonista intenta prevenir el desarrollo de un concepto matemático que condujo a consecuencias catastróficas en su tiempo. Después de integrarse con la sociedad de los investigadores y aparentemente prevenir el desarrollo del concepto, regresa para descubrir que en realidad fue una parte clave del paradigma temporal que creó, incluso encontrando referencias de sí mismo en escritos antiguos.

ChatGPT generó una historia que se adhirió a las pautas dadas pero siguió un camino más predecible. Aunque competente, su narrativa carecía de la profundidad y el estilo creativo mostrado por la historia de Claude.

GPT-4o produjo una historia directa donde el protagonista intenta prevenir una crisis energética compartiendo enseñanzas avanzadas con un chamán del pasado. Sin embargo, al regresar a su línea de tiempo, descubre que la historia se ha repetido y nada ha cambiado.

Ganador: Claude gana en escritura creativa. Su capacidad para producir narrativas más imaginativas, matizadas y bien estructuradas lo distingue, convirtiéndolo en una opción superior para tareas que requieren habilidades creativas.

Por ejemplo, es más fácil concebir cómo integrarse en una sociedad puede influir en un grupo de investigadores y evitar que descubran algo. En cambio, compartir conocimientos avanzados con un chamán tiene menos sentido para prevenir una crisis energética.

Resumen y Análisis

Cuando se presentó un informe de 42 páginas del FMI. ChatGPT aceptó todo el documento sin problemas. Claude, por otro lado, arrojó un error, diciendo que el PDF era demasiado largo. Lo redujimos a 31 páginas, lo cual fue suficiente para ser aceptado en la versión Pro. (La versión gratuita solo puede analizar alrededor de 25 páginas).

Dejando de lado las limitaciones, Claude 3.5 Sonnet proporcionó un análisis competente del documento abreviado, extrayendo con precisión puntos clave y citas textuales sin alucinaciones, lo cual ya es una mejora importante sobre Claude 3, que solía fabricar información. Sin embargo, sus citas eran vagas y no tan relevantes como las seleccionadas por ChatGPT.

ChatGPT impresionó al manejar el documento completo de 42 páginas sin truncar. Ofreció un desglose más completo, proporcionando una gran cantidad de información relevante.

Su uso de viñetas para enfatizar elementos clave y luego proporcionar un resumen de cada sección fue una técnica más útil que la proporcionada por Claude, que ofrecía un resumen sin estructura y con elementos clave faltantes del informe.

ChatGPT también demostró un enfoque estratégico, centrándose en el resumen y conclusiones del informe para destilar eficazmente los puntos clave. Es una forma sólida de obtener una comprensión general de una investigación extensa antes de un análisis profundo.

Ganador: ChatGPT toma la delantera en la síntesis y análisis. Su capacidad para procesar documentos más largos en su totalidad, junto con su enfoque completo y estratégico para la síntesis, lo hace más adecuado para tareas de investigación académica y análisis profesional.

Características Adicionales

Claude 3.5 Sonnet introduce "Artifacts," una función que permite a los usuarios ver, editar y construir sobre contenido generado por IA en tiempo real. Esta integración de salidas de IA directamente en proyectos y flujos de trabajo mejora la interacción del usuario, especialmente con el código.

ChatGPT Plus ofrece la capacidad de entrenar GPT personalizados para tareas específicas, una función actualmente no disponible en Claude. Esta opción de personalización proporciona una versatilidad adicional en entornos profesionales y académicos. También integra el generador de imágenes Dall-ee 3, que es bastante útil para generar imágenes utilizando lenguaje natural.

Ganador: ChatGPT gana en términos de características adicionales. Mientras que la función "Artifacts" de Claude ofrece capacidades únicas de interacción en tiempo real, la opción de entrenamiento personalizado de ChatGPT proporciona una flexibilidad valiosa. Determinar las características más valiosas dependería de las necesidades específicas del usuario, pero los GPT pueden ayudar a una amplia variedad de usuarios. ChatGPT también puede crear imágenes, lo cual es otra ventaja sobre Claude.

Conclusión

Claude 3.5 Sonnet brilla en tareas que requieren creatividad, uso de lenguaje matizado y codificación eficiente. Su capacidad para comprender e implementar instrucciones complejas lo distingue, especialmente en emprendimientos creativos y tareas de codificación.

ChatGPT demuestra su valía al manejar textos extensos y realizar análisis detallados. Su capacidad para procesar y sintetizar grandes volúmenes de información lo convierte en una herramienta poderosa para la investigación académica y el análisis profesional. Además, ofrece un acceso gratuito más generoso.

Ambos modelos son muy capaces. Sin embargo, si estás considerando actualizar a un nivel de pago, ChatGPT puede ser la mejor opción para la mayoría de las personas debido a su conjunto de funciones adicionales. La excepción sería si trabajas con escritura creativa o codificación, donde Claude es el rey indiscutible, por mucho.

Podrías pagar por el modelo que sea mejor para tus necesidades específicas y utilizar la versión gratuita del otro para diferentes tareas. Sin embargo, si tienes poco efectivo y no eres un usuario avanzado, es genial que OpenAI y Anthropic estén ofreciendo sus modelos de nivel superior de forma gratuita.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

¿Podrá el Nuevo Modelo de IA Claude 3.5 Sonnet Vencer a ChatGPT-4o?

Anthropic dice que su lanzamiento de Claude Sonnet 3.5 es más rápido, más barato y supera al último modelo de OpenAI en la mayoría de las pruebas. Los pusimos a prueba cara a cara.

En Resumen

Decrypt’s Art, Fashion, and Entertainment Hub.

Claude 3.5 Sonnet vs. ChatGPT-4o

Conclusión

Generally Intelligent Newsletter

Coin Prices