En una reciente aparición en el podcast Possible, Demis Hassabis, CEO de Google DeepMind, reveló que Google planea eventualmente combinar sus modelos de IA Gemini con sus modelos generadores de video Veo, con el objetivo de crear un asistente digital verdaderamente universal que comprenda mejor el mundo físico.
"Siempre construimos Gemini, nuestro modelo fundamental, para ser multimodal desde el principio", explicó Hassabis.
"La razón es que tenemos una visión para esta idea de un asistente digital universal, un asistente que realmente te ayude en el mundo real."
Esta integración representa la tendencia de la industria hacia modelos "omni" capaces de entender y sintetizar múltiples formas de medios simultáneamente.
Resulta fascinante que, según Hassabis, los modelos de video como Veo 2 ya pueden comprender la física del mundo simplemente observando videos de YouTube. "Básicamente, viendo muchos videos de YouTube, puede entender la física del mundo", comentó.
El objetivo final parece ser crear un asistente que no solo entienda el texto o las imágenes, sino que comprenda completamente el contexto físico tridimensional en el que vivimos, abriendo nuevas posibilidades para aplicaciones como la robótica y asistentes personales más sofisticados.