Todo sobre GPT-4o, el mayor avance en IA desde ChatGPT

El lunes 13 de mayo, OpenAI realizó un evento sorpresa llamado Spring Update (o novedad de primavera) en el que presentó sus avances en Inteligencia Artificial.

Los rumores decían de todo: que iban a lanzar un buscador con Inteligencia Artificial que destronaría a Google, que lanzarían GPT-5 o un modelo Open Source. Pero, como sabes, internet se alimenta de rumores, y Sam Altman tuvo que salir a desmentirlos diciendo que no era ni un buscador ni GPT-5, pero que lanzarían algo que la gente amaría. Algo que se sentía como magia. ¿Estaba exagerando?

Después del lanzamiento, quedé convencido de que no exageraba y con la impresión de que OpenAI ha creado la mejor interfaz usuario-máquina que hayamos visto desde la interfaz gráfica en los años 70. Porque si todo lo que vimos en el demo es real, la ciencia ficción se ha vuelto realidad y ahora ChatGPT puede conversar contigo como si fuera una persona más. O enamorarte como en la película Her.

Hace un año quedamos maravillados (y aterrados) con la noticia de que la Inteligencia Artificial de Bing se enamoró de un periodista, pero, comparado con lo que vimos de OpenAI, eso ya es un juguete. Y si creías que esto ya existía, porque ya podías conversar con ChatGPT, quédate a leer este blog porque te vamos a contar con detalle, y con análisis, por qué esto es totalmente diferente.

Como dato, este evento se realizó solo un día antes del Google I/O 2024 y puso la valla muy alta para Google y Gemini, que no han tenido un buen año. Ten en cuenta que mientras escribo este blog, el Google I/O de 2024 aún no ha comenzado, así que todavía no sabemos que lanzará Google. Y que cuando leas este blog, es muy probable que ya lo sepas.

Así que si quieres conocer todo lo nuevo de OpenAI y como puede afectar a nuestra vida diaria, como programadores o en cualquier profesión, no te pierdas este blog. Porque estás en EDteam y tú sabes que en español, #NadieExplicaMejor.

GPT-4o y ChatGPT gratis para todos

El primer anuncio de OpenAI en su evento, que fue transmitido en vivo por YouTube, es que lanzaron un nuevo modelo, pero no es GPT-5 sino GPT-4o y será gratis para todos dentro de ChatGPT.

Que el modelo más poderoso de OpenAI sea gratis para todos es un tema demasiado importante (y estratégico) y del que se está hablando poco porque todos estamos maravillados con las otras funciones que se presentaron.

Pero pensemos un poco en lo que significa este movimiento de OpenAI. Mantener un LLM (o un Modelo Extenso del Lenguaje como lo es GPT-4o) es muy costoso y, según informes, OpenAI se gastaba casi 3 cuartos de millón de dólares al día solo en el mantenimiento. Así que tiene mucho sentido que tengan una suscripción de pago y que los usuarios gratuitos solo puedan acceder al modelo viejo GPT-3.5

Y aquí toca hacer una aclaración muy importante para que no confundas los términos. ChatGPT es tan solo un chat al que puedes acceder desde chatgpt.com o instalando la App en tu teléfono. Mientras que GPT es el modelo de Inteligencia Artificial que está detrás de ChatGPT. Por eso, aunque todos usemos ChatGPT, los usuarios de pago tenían acceso al modelo GPT-4 (el más avanzado) y los gratuitos a GPT-3.5

Pero con el nuevo modelo, GPT-4o todos, paguemos o no, tendremos acceso. Y eso significa que OpenAI lo está apostando todo para masificarse y llegar a la mayor cantidad de personas sin importar cuanto billete les cueste. Y tiene mucho sentido porque imagínate que Google o Facebook hubieran comenzado siendo de pago, ¿habrían tenido el éxito masivo que tuvieron? Obvio que no. Así que ese es el camino que va a tomar OpenAI a partir de hoy.

Sin embargo, más allá de la estrategia de OpenAI, la Inteligencia Artificial sigue siendo muy costosa de mantener y de algún lugar tiene que salir el billete, así que ¿como se financiará? ¿Con el viejo y conocido truco de la publicidad? ¿OpenAI nos espiará para darnos la publicidad más invasiva posible como lo hacen Google o Facebook? Es muy pronto para saberlo, pero es una opción. En la historia de internet, la publicidad sigue siendo la vieja confiable para financiar una tecnología gratuita.

Y además de GPT-4o, la GPT Store también será gratis. Es decir, que los usuarios gratuitos podrán al fin usar cualquiera de los miles de asistentes con ChatGPT que existen. Esto hará que muchas más personas usen ChatGPT y que se convierta en un fenómeno masivo, como lo fue Google en su momento.

Así que la pregunta es ¿valdrá la pena seguir pagando por ChatGPT? Ten en cuenta que los usuarios de pago seguirán teniendo acceso anticipado a las nuevas funciones, más horas diarias de uso y podrán crear sus propios GPTs. Si no usas ninguna de estas funciones puedes ser feliz y ahorrarte ese billete.

Características de GPT-4o

En lugar de GPT-5 (que era el rumor más extendido en internet) lo que OpenAI lanzó fue GPT-4o, su mejor modelo de Inteligencia Artificial hasta la fecha donde la letra o significa Omnimodal.

¿Y qué significa ominmodal? Que puede recibir y entregar múltiples formatos de información como texto, audio o imágenes. El término que se usa en la industria no es Omnimodal sino Multimodal, como el mismo Sam Altman publicó en X, pero OpenAI astutamente escogió la palabra Omnimodal para diferenciarse de su competencia.

Por ejemplo, en diciembre Gemini de Google fue lanzado como un modelo multimodal nativo. Eso en teoría le daba ventaja sobre GPT-4 que no es multimodal sino que solo procesa texto y se apoya en otros modelos de la misma OpenAI para dar la sensación de multimodal. Pero GPT-4o sí es multimodal nativo y entiende texto, imágenes y audio.

Y hablando de Gemini, OpenAI en su evento hizo demostraciones en vivo de GPT-4o. ¿Y eso qué tiene que ver con Gemini? Pues que en diciembre, Google lanzó Gemini con un video pregrabado que luego nos enteramos que fue armado para que parezca que Gemini respondía en tiempo real,. Es decir, Google nos mintió.

Como dato, poco después, apareció Devin, un supuesto ingeniero de software con inteligencia artificial cuya presentación era solo una lista de videos editados sin mucho cuidado. Y la gente se lo creyó. No hemos aprendido nada.

Así que OpenAI se aseguró de que nadie ponga en duda su demo, tanto en su presentación en vivo como en la página de bienvenida, donde le lanzan una indirecta muy directa a Google:

Todos los videos en esta página son en tiempo real y no han sido acelerados.

En un momento vamos a hablar de las demostraciones en vivo y en video de GPT-4o que te volarán la cabeza. Pero, antes, veamos las características de este nuevo modelo.

1. Es multimodal

Como ya vimos, no necesita el apoyo de otros modelos para procesar y entregar texto, imágenes y audio. Ahora todo es nativo. Por cierto, aunque en las demos parece entender video, lo que hace es capturar imágenes de lo que ve por la cámara y procesarlas. Así que no, aún no entiende video en tiempo real.

2. Tiene el mismo rendimiento que GPT-4 Turbo en inglés, pero es mejor en multi idioma

Y es que aunque podías hablarle a ChatGPT en español, francés, italiano y muchos idiomas más, los mejores resultados siempre los entregaba si usabas inglés. En cambio, con GPT-4o la eficiencia ha mejorado muchísimo en 50 idiomas diferentes al inglés. Además que es un excelente traductor en tiempo real.

3. Gratis para todos

Además de igualar el rendimiento en diferentes idiomas, OpenAI equilibra la balanza para que todos los usuarios, tanto gratuitos como de pago, tengamos acceso a su mejor modelo: GPT-4o. ¿Y eso por qué? Como te expliqué hace un momento, la estrategia de OpenAI es masificarse, cueste lo que cueste.

4. GPTs gratis

Los GPTs son versiones personalizadas de ChatGPT que puedes configurar para realizar tareas específicas como te enseñamos a hacer en este video. Sin embargo, tenían una limitación: tenías que pagar para usarlos. Así que si eras usuario de pago y creabas un GPT tu alcance era mínimo: no lo podías compartir con tus amigos, familia, compañeros de trabajo o tu audiencia en redes sociales, a menos que ellos paguen.

Así que OpenAI en su búsqueda por expandirse ha dicho que todos pueden usar los GPTs. Eso sí, para crear tu propio GPT debes ser usuario de pago.

5. API 50% más económica

Los programadores deben estar bastante contentos porque el precio ha bajado a la mitad mientras que el rendimiento se ha duplicado. ¡Que ofertón! Con GPT-4o el millón de tokens de entrada cuesta 5 dólares y el millón de tokens de salida cuesta 15 dólares. Exactamente la mitad que GPT-4 Turbo.

Por cierto, un token en Inteligencia Artificial es la mínima unidad de información; que puede ser una palabra, un espacio, un signo de puntuación o una porción de una palabra. Por ejemplo, cuando dices “elefantote” aunque hay una sola palabra, hay dos tokens: “elefante” y el sufijo “ote” que indica el tamaño. Los tokens de entrada son los que tú le envías al modelo y los de salida, los que te contesta. Así que si eres programador, en lugar de lloriquear con que la programación se va a morir, saca tus cálculos de cuanto te costaría integrar GPT-4o a tus proyectos.

6. App de escritorio

Además de GPT-4o, OpenAI presentó una nueva aplicación de escritorio solo para MacOS (por el momento). Sin embargo, no dieron más detalles de esta aplicación y no hay un link público de donde descargarla. Toca esperar.

ChatGPT puede hablar (y enamorarte)

Lo más sorprendente de esta presentación fue, sin duda, la capacidad de GPT-4o de mantener una conversación de voz en tiempo real. Y si estás pensando, como yo lo pensé, que esto no es nuevo porque ChatGPT ya tenía una función de voz, estas son las diferencias:

1.Antes se usaban tres modelos: uno para convertir el audio en texto, GPT-4 para entender la pregunta en texto y generar la respuesta en texto y un tercer modelo para convertir ese texto en una voz. Pero, según OpenAI, se perdía mucha información de este modo como cuantas personas había en la conversación o sus emociones.
2.GPT-4o es un único modelo, no tres, que comprende y procesa nativamente la conversación de voz y es capaz de responder en 320 milisegundos, mientras que la versión anterior tardaba entre 2.8 y 5.4 segundos. La diferencia es enorme. Ahora sientes que estas en una conversación real.
3.Lo puedes interrumpir mientras habla sin tener que esperar a que termine para seguir la conversación.
4.No solo entiende voz sino que tiene visión. Aunque no procesa video en tiempo real sino imágenes aisladas de lo que ve, pero es como si entendiera video.
5.Y lo más importante: entiende y expresa emociones. Y te aseguro que tiene más emociones que muchas personas que conoces. Seguramente se emociona más que tu novia y veremos personas enamoradas de la IA como en la película Her. Todos lo pensamos y Sam Altman lo tuiteó.

Si fuera psicólogo, empezaría a especializarme en relaciones con chatbots. Van a haber muchos pacientes y muchas consultas. ¿Crees que exagero? Veamos las demos. Que por cierto, se hicieron en vivo y con público.

Historia de robots para dormir

En la presentación, Mira Murati, la CTO de OpenAI, junto a dos investigadores del equipo, le piden a ChatGPT que invente una historia de robots para dormir.

-Luego le piden que haga una voz más dramática.
-Y luego una voz robótica.
-Y por último, que termine la historia cantando. Era como si hubiera un personita dentro del teléfono de lo real que se escuchaba.

ChatGPT te ayuda con tu tarea de matemáticas

Luego le pidieron ayuda con un problema matemático, donde se ve que ChatGPT es capaz de entender lo que ve por la cámara del teléfono y ayudarte paso a paso con un problema matemático o una tarea.

ChatGPT puede ver tu pantalla y explicar código y gráficos

También le pidieron que explique código de programación y gráficos estadísticos. Lo interesante es que usaron la App de escritorio a la que le puedes enviar código o permitirle que vea tu pantalla, sin copiar y pegar, sino con un simple atajo de teclado.

ChatGPT actúa como un traductor

Luego le pidieron a ChatGPT que actúe como un traductor para que dos personas que hablan idiomas distintos se puedan comunicar, y lo que hizo no fue tan solo traducir literalmente las palabras (como lo haría cualquier aplicación de traducción) sino que se expresó como una persona más en la conversación interpretando lo que cada uno decía.

ChatGPT muestra emociones muy humanas

Y lo más impresionante fue que expresaba emociones humanas de una manera muy convincente. Incluso para la presentación usaron una voz muy parecida a la de Scarlet Johanson en la película Her (aunque OpenAI dijo que no fue al propósito y que era una de tantas voces que tiene ChatGPT). Yo creo que fue al propósito

-Por ejemplo, aquí se emociona muchísimo por un mensaje cariñoso
-Y aquí se sonroja por un cumplido. Sí, ya sé que un chatbot no puede sonrojarse pero es lo que dijo. Literal.

Ejemplos de su página web

Además, en su página web mostraron ejemplos adicionales grabados, y tuvieron la precaución de especificar que eran reales y no fake (como los de Gemini). Estos demos fueron muy sorprendentes, puedes ir a su página a verlos todos pero te dejo algunos que son de no creer:

Un ciego puede saber lo que pasa en la ciudad y puede pedir un taxi gracias a GPT-4o y la aplicación BeMyEyes.
ChatGPT puede participar en un meet como si fuera una persona más en la reunión.
ChatGPT se emociona porque tienes una entrevista de trabajo en OpenAI y te ayuda a arreglarte.
Dos ChatGPT mantienen una conversación entre ellos y cantan juntos.
Un GPT pide soporte al cliente y le contesta otro GPT como agente de atención al cliente.

¿Ya podemos decir que la Inteligencia Artificial tiene vida propia? Obvio que no, pero poder entender y expresar emociones en tiempo real y con una voz tan natural, lejos de esas voces robóticas y falsas que asociamos a la Inteligencia Artificial es un paso que va a cambiar muchas industrias y muchas formas de trabajar. Y algo que nos hace pensar que Jarvis o Skynet, está cada vez más cerca.

Disponibilidad

Al igual que con otros lanzamientos de OpenAI, como cuando lanzaron GPT-4 o Sora, las funciones de voz (que fueron lo más sorprendente del evento) aún no están disponibles para todos los usuarios y se irán liberando en las próximas semanas, dándole prioridad a los usuarios de pago. Aunque ya sabes que, a menos que quieras tener estas funciones antes que todos, no es necesario que pagues.

Y aunque las funciones de voz llegarán en las próximas semanas, GPT-4o en modo texto e imagen está disponible desde hoy para usuarios de pago y llegará a los usuarios gratuitos en los próximos días. Recuerda, solo texto e imagen, aún no podrás conversar con Scarlet Johanson como vimos en la demo.

Por ejemplo, yo ya tengo acceso a GPT-4o tanto en web como en mi teléfono.

gpt-4o-imagen

Además, en X, Sam Altman dijo que las próximas semanas compartirán más cositas. ¿Qué crees que están tramando?

Como anécodta, Mira Murati, la CTO de OpenAI, terminó el evento agradeciendo a Nvidia mandándole un saludito a su CEO Jensen Huang y un agradecimiento por fabricar las mejores GPU que hicieron posible ese demo. Una mención que no creo que sea gratuita o casual. ¿Significa que tienen una supercomputadora dedicada solo para la demo y potenciada por Nvidia y que no están listos para que esta tecnología sea usada por todos? ¿O es una indirecta a otra empresa que está trabajando en chips, quizás Google y sus TPU o ARM, que anunció que está trabajando en chips para Inteligencia Artificial, o Apple y su M4? No lo sabemos, pero dio mucho que pensar.

Oigan, ¿Y Apple?

En su blog, Sam dijo que GPT-4o es la mejor interfaz de computadora que haya usado jamás y que aún le es difícil creer que es real y no ciencia ficción.

Y lo mismo pensé yo mientras veía el demo: esta es la más grande interfaz usuario máquina desde la invención de la interfaz gráfica hace 50 años. Y no solo eso, sino que es el mayor sueño de la humanidad en el cine, la literatura y la ciencia ficción hecho realidad: conversar con una computadora como si fuera uno más de nosotros. Es cierto que la voz ya existía en Siri, Alexa, Cortana o Google Assistant. Pero eran juguetes comparados con GPT-4o.

Sin contar a dos juguetes que nacieron heridos de muerte y ayer se terminaron de morir: el Humane AI Pin y el Rabbit-R1. No entiendo por qué alguien pensó que eran el futuro.

Hace poco recibí un mensaje en YouTube que decía que Apple pudo ser el líder de la Inteligencia Artificial si hubiera trabajado en Siri, en lugar de tenerlo abandonado. Y tiene toda la razón. Después de la Interfaz gráfica, que aunque no inventó Apple, sí la masificó con la Apple II, la siguiente gran interfaz fue la multitáctil con el iPhone en 2007 y la voz con Siri en 2011, ambas de Apple.

Y según fuentes, fue el lanzamiento de Siri lo que hizo que Google caiga en pánico y empiece a trabajar en Inteligencia Artificial. Luego Elon Musk cayó en pánico de los avances de Google y se unió a Sam Altman para fundar OpenAI. Mientras que en Apple, que fue quien inicio todo, Steve Jobs falleció y el nuevo CEO decidió abandonar a Siri a su suerte y hoy es la empresa más atrasada en Inteligencia Artificial. Es increíble cuantos giros da la vida.

Sin embargo, Apple ya ha cerrado negociaciones con OpenAI y muy probablemente en junio, en la conferencia anual para desarrolladores, presenten una Siri AI potenciada con GPT-4o y completamente integrada con su ecosistema. Si bien Siri es un juguete y solo sirve para preguntarle cosas básicas, está muy integrada en el ecosistema de Apple, así que ¿te imaginas una Siri AI en todos los iPhone, iPad, Mac, Apple Watch y Apple TV y con las capacidades de conversación de GPT-4o? Sería una maravilla y la mayor ironía en la historia de la tecnología, porque Apple tendría la mejor implementación de Inteligencia Artificial en sus productos, respetuosa con la privacidad y lideraría la carrera por la IA, sin haber creado nada. De locos.

Desde el robot María en Metropolis de 1927 (hace 97 años), B-9 en Perdidos en el espacio de 1965, Bender en Futurama de 1999 o Jarvis en IronMan de 2008, por citar a los más importantes, la idea del robot con el que conversamos y que nos ayuda en nuestras tareas con su super inteligencia siempre nos pareció ciencia ficción. Hasta hoy. Siempre que todo lo que haya mostrado OpenAI en su demo sea real. Aunque no tenemos motivos para dudarlo.

Y no olvidemos a Her, la película de 2014 en la que Joaquin Phoenix, un empleado con un vida aburrida y desabrida, empieza a hablar con su asistente virtual y empieza a sentir emociones y se enamora de la Inteligencia Artificial para terminar con el corazón roto al final. Tienes que verla. Y los psicólogos deben estar frotándose las manos porque les van a llegar muchos pacientes con trastornos de enamoramiento o falta de socialización porque su único amigo (o amiga) será ChatGPT.

La semana pasada te contamos en EDteam que ChatGPT tiene memoria y con el tiempo (y según cuanta información le des) te conocerá como un amigo íntimo y será tu mejor asistente. Entonces, ¿qué pasará cuando estés hablando con ChatGPT y te pregunte un dato privado que necesita para contestarte mejor? ¿Guardarás el secreto o se lo dirás y terminarás manteniendo una relación más cercana que con personas de tu entorno? Nuevamente, el futuro es emocionante y aterrador a la vez.

Y la mejor manera de enfrentarte a un futuro que cambia más rápido que nunca en la historia es estar informado. Por eso, recuerda que publicamos nuevo contenido todas las semanas. Y si quieres aprender programación e Inteligencia Artificial, no dudes en visitarnos en ed.team y empezar cualquiera de nuestros cursos completamente gratis para que compruebes por ti mismo por qué en español, #NadieExplicaMejor que EDteam.

Y cuando te pregunten como sabes tanto sobre GPT-4o y el futuro de la Inteligencia Artificial, responde que lo #AprendisteEnEDteam.