En Resumen

  • Google cumplió su promesa de abrir su modelo de IA más potente, Gemini 1.5 Pro, al público después de su lanzamiento beta el mes pasado.
  • Gemini 1.5 Pro de Google es capaz de manejar tareas más complejas que modelos anteriores, como analizar bibliotecas completas de texto y datos extensos de audio.
  • El objetivo de Google es proporcionar herramientas más rápidas y económicas a los desarrolladores de IA para nuevos casos de uso y mayor robustez en producción.

Google ha cumplido su promesa de abrir su modelo de IA más potente, Gemini 1.5 Pro, al público después de un lanzamiento beta el mes pasado para desarrolladores.

Gemini 1.5 Pro de Google es capaz de manejar tareas más complejas que otros modelos de IA anteriores, como analizar bibliotecas de texto completas, películas de Hollywood de larga duración o casi un día completo de datos de audio. Eso es 20 veces más datos que el permitido por GPT-4o de OpenAI y casi 10 veces la información que Claude 3.5 Sonnet de Anthropic es capaz de manejar.

El objetivo es poner herramientas más rápidas y de menor costo en manos de los desarrolladores de IA, dijo Google en su anuncio, y "permitir nuevos casos de uso, mayor robustez en producción y mayor confiabilidad."

Imagen: Google
AD

Google había presentado previamente el modelo en mayo, mostrando videos de cómo un grupo selecto de probadores beta podía aprovechar sus capacidades. Por ejemplo, el ingeniero de aprendizaje automático Lukas Atkins alimentó el modelo con toda la biblioteca de Python y le hizo preguntas para ayudarlo a resolver un problema. “Lo clavó”, dijo en el video. “Podía encontrar referencias específicas a comentarios en el código y solicitudes específicas que la gente había hecho”.

Otro tester de la versión beta grabó un video de toda su estantería de libros y Gemini creó una base de datos con todos los libros que poseía, una tarea que es casi imposible de lograr con los chatbots de IA tradicionales.

Gemma 2 llega para dominar el espacio de código abierto

Google también está causando sensación en la comunidad de código abierto. La compañía acaba de lanzar Gemma 2 27B, un modelo de lenguaje grande o Large Language Model (LLM) de código abierto que rápidamente se adjudicó el trono del modelo de código abierto con las respuestas de mayor calidad, según la clasificación de LLM Arena.

Google afirma que Gemma 2 ofrece un "rendimiento de primera clase, se ejecuta a una velocidad increíble en diferentes hardwares y se integra fácilmente con otras herramientas de IA". Está destinado a competir con modelos con "más del doble de su tamaño", según la empresa.

AD
Imagen: Google

La licencia de Gemma 2 permite el acceso gratuito y la redistribución, pero aún no es igual que las licencias de código abierto tradicionales como MIT o Apache. El modelo está diseñado para implementaciones de IA más accesibles y económicas tanto en sus versiones de 27B como en las más pequeñas de 9B.

Esto es importante tanto para los usuarios promedio como para las empresas, porque, a diferencia de lo que ofrecen los modelos cerrados, un modelo abierto y potente como Gemma es altamente personalizable. Eso significa que los usuarios pueden ajustar sus modelos para sobresalir en tareas específicas, protegiendo sus datos al ejecutar dichos modelos localmente.

Por ejemplo, el pequeño modelo de lenguaje o small language Model (SLM) Phi-3 de Microsoft ha sido ajustado específicamente para problemas matemáticos, y puede vencer a modelos más grandes como Llama-3 e incluso a Gemma 2 en ese campo.

Imagen: Microsoft

Gemma 2 ahora está disponible en Google AI Studio y listo para ser descargado desde Kaggle y Modelos de Hugging Face con el potente Gemini 1.5 Pro disponible para que los desarrolladores lo prueben en Vertex A.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.