La inteligencia artificial viene con una carrera acelerada, donde los gigantes tecnológicos compiten por la delantera con sus modelos de IA, dedicando todos sus esfuerzos a mejorar y actualizar sus sistemas para liderar el camino. Esta semana, tanto OpenAI como Google coincidieron al presentar sus últimos avances, demostrando el ritmo presuroso de innovación en este campo.
Durante una presentación en vivo el 13 de mayo, OpenAI presentó ChatGPT-4o, una nueva versión gratuita, más rápida y con capacidades mejoradas de su popular chatbot. Por otro lado, durante su conferencia de desarrolladores I/O 2024, que tuvo lugar al día siguiente, Google anunció una serie de actualizaciones en su modelo Gemini, así como nuevas herramientas de IA.
A continuación, compartimos un resumen de las últimas innovaciones en inteligencia artificial presentadas por ambas compañías, destacando los avances más relevantes.
Así es el nuevo modelo multimodal de ChatGPT
Hasta antes del anuncio de OpenAI, todos los modelos GPT-4 solo estaban disponibles para suscriptores que pagan una tarifa mensual. Sin embargo, la buena noticia es que ChatGPT-4o está disponible para todos los usuarios, incluidos aquellos que utilizan la versión gratuita. Aun así, los suscriptores podrán realizar más consultas.
Además de procesar información en formato de texto, esta nueva IA ahora es capaz de procesar y generar información a partir de imágenes, video y audio.
“ChatGPT ahora puede ver, oír y hablar”, se lee en su blog.
LEA MÁS: OpenAI lanza GPT-4o, la inteligencia artificial con nuevas capacidades de producción y comprensión
Según la compañía, ChatGPT-4o puede responder a solicitudes de audio, como preguntas de los usuarios, en un promedio de 320 milisegundos, un tiempo comparable al de una respuesta humana. Además, la IA comprende cuando el usuario la interrumpe, lo que hace que la interacción sea más natural.
El modelo no solo responde rápidamente, sino que también puede generar sus respuestas con diferentes tonos emotivos de voz, como el sarcasmo, e incluso puede reír, cantar y hacer chistes.
Otra funcionalidad es que GPT-4o tiene la capacidad de analizar y comprender imágenes en tiempo real a medida que se muestran en la cámara. También, puede reconocer emociones en las expresiones faciales y saber si estás triste o feliz. Esta función fue desarrollada en asociación con la aplicación Be My Eyes de Dinamarca, con el propósito de proporcionar asistencia a personas con discapacidad visual.
Las traducciones en tiempo real son otro aspecto destacado del nuevo ChatGPT. Este modelo puede desempeñar el papel de un traductor durante una conversación entre dos personas que hablan diferentes idiomas. Por ejemplo, durante la presentación en vivo, Mira Murati, directora de tecnología de OpenAI, sostuvo una conversación con un ingeniero de la compañía. A pesar de que ella hablaba en italiano y él en inglés, ChatGPT pudo traducir la conversación de manera instantánea y natural, facilitando la comunicación entre ambos.
Cómo acceder a GPT-4o
Ahora bien, no todas las novedades presentadas en el evento están disponibles de inmediato. Por ejemplo, la interacción con audio y video estará disponible para los usuarios de pago en unas semanas. Sin embargo, lo que sí se puede probar desde este momento es la interacción mediante texto e imágenes con GPT-4o. Todo lo que hay que hacer es acceder al chatbot desde la web o teléfono móvil, ya sea iOS o Android.
Lo nuevo de Gemini de Google
La compañía de Mountain View ha anunciado una versión mejorada de Gemini 1.5 Pro, la cual presenta una ventana de contexto de un millón de tokens. Además, se espera que esta ventana se expanda a 2 millones de tokens para algunos desarrolladores a través de una lista de espera.
Según la compañía, con un millón de tokens, el modelo puede comprender múltiples documentos grandes, hasta 1500 páginas en total, o resumir 100 correos electrónicos en segundos. Y para aprovechar tal capacidad de información, Google añade la opción de cargar archivos directamente desde Google Drive.
LEA MÁS: Cofundador de OpenAI, Ilya Sutskever, deja la empresa creadora de ChatGPT
Gemini 1.5 Pro también recibe mejoras en la comprensión de imágenes, permitiendo realizar diversas solicitudes a partir de una sola imagen, como obtener recetas a partir de fotos de platos o recibir instrucciones paso a paso para resolver problemas matemáticos.
Esta versión está disponible en la suscripción de Gemini Advanced, la cual tiene un precio de 19,99 dólares al mes y está disponible en más de 35 idiomas, incluido el español, en 150 países.
Al mismo tiempo, la compañía presentó a 1.5 Flash, una nueva versión de su inteligencia artificial diseñada para ser “rápida y eficiente”. Se trata de una versión menor de Gemini 1.5 Pro y está disponible para prueba en Google AI Studio y Vertex AI con una capacidad de un millón de tokens.
Otra de las novedades incluye Project Astra, un agente de inteligencia artificial desarrollado por Google para ayudar en tareas cotidianas mediante respuestas rápidas y adaptativas. Una de sus principales características es el desarrollo de hardware, como unas gafas que integran cámaras y micrófono, permitiéndonos interactuar con la IA de manera práctica.
Google también ha revelado su nueva tecnología de generación de imágenes, llamada Imagen 3. Esta innovación mejora tanto el texto como los efectos visuales de las imágenes. Además, introdujo Veo, un sistema de creación de vídeos con funciones de edición avanzadas y la capacidad de generar imágenes en movimiento mediante comandos de texto.
Google ha introducido novedades en los resultados de su motor de búsqueda con el lanzamiento de ‘AI Overviews’ para usuarios en EE.UU. Esta función presenta respuestas generadas por inteligencia artificial junto con enlaces a sitios web en la parte superior de los resultados de búsqueda.
Impulsada por la tecnología Gemini AI, ‘AI Overviews’ brinda información rápida y útil sin necesidad de hacer clic en varios enlaces.