En el fin de la presentación, Sundar Pichai hace el chiste de que durante las casi dos horas de presentación, la palabra IA (inteligencia artificial) fue pronunciada 121 veces, como una muestra del foco que la compañía está poniendo en esta área, donde se considera una pionera, pero donde ha tenido que salir a revalidar sus títulos tras la llegada de ChatGPT, Copilot y otras herramientas similares.

No hubo, como en otros años, anuncios de hardware (la compañía mostró el Pixel 8a hace una semana) ni mostró nuevos servicios: la atención estuvo centrada en mostrar cómo está integrando todas las ventajas de la inteligencia artificial generativa en todas sus plataformas.

Gemini también será capaz de monitorear el audio de una conversación telefónica, y podrá alertarnos si parece que nos están intentando estafar; el análisis del audio se hace en el dispositivo, así que no requiere conexión a internet y mantiene nuestra privacidad. El ejemplo que dieron en el escenario no abunda en detalles; una llamada en la que avisan de una actividad extraña en nuestra cuenta bancaria y ofrecen mudar el dinero a otra “más segura”.

Android ya puede detectar y clasificar SMS y números de teléfono como spam, pero en este caso está haciendo un análisis de discurso, algo mucho más complejo, y buscando algunas palabras clave (el número de seguridad social en EE.UU., datos bancarios, etcétera).

Solo funciona con llamadas telefónicas (porque otras llamadas, como las de WhatsApp, están cifradas y el sistema operativo no tiene manera de saber su contenido) y, probablemente, solo con números de teléfono desconocidos; no tendría sentido analizar cada segundo de una llamada con un contacto con el que hablamos a diario. La compañía no dio más detalles, así que habrá que esperar a que publiquen más detalles; por ahora estará limitado a los equipos Pixel.

En Google I/O es el turno de Sameer Samat, que explica cómo integrarán Gemini en todos los niveles de Android.

Por ejemplo, Enlazar para buscar (Circle to search), que está disponible en los últimos modelos de Pixel y en los Samsung Galaxy top de los últimos cuatro años, y que llegará a otros dispositivos en los próximos meses (y llegar a los 200 millones de dispositivos a fin de año). Hasta ahora servía sólo para reconocer el contenido de una imagen y generar una búsqueda; ahora podrá reconocer el contenido en pantalla, incluyendo cosas de matemáticas o física, diagramas, etcétera, y ofrecer una guía para -por ejemplo- resolver un problema.

De hecho, la compañía explica que la versión de Gemini que vendrá en Android permitirá analizar cualquier texto en pantalla, o un PDF, dentro del teléfono, e incluso responder preguntas sobre un video que se está reproduciendo, y dar una respuesta educativa -con pasos- antes que una solución directa.

Google dice que la nueva versión de Gemini, disponible en los próximos meses, tiene varias virtudes, incluyendo la posibilidad de interrumpir su respuesta para modificarla si no estamos contentos con ella (o si está respondiendo a otra cosa); también, generar “Gemas”, que son rutinas predefinidas para que Gemini haga una tarea repetitiva (aplicar tal filtro a tal contenido) y ahorrarle tiempo al usuario. También, una nueva herramienta para planear las vacaciones, muy orientada al hemisferio norte, capaz de generar un itinerario personalizado a partir de un pedido más o menos específico.

La compañía también insiste en algo que es obvio, pero que es fundamental para su futuro: no hay una única manera de hacer una consulta (en Google, ChatGPT, etcétera), terminando con el concepto de “prompt engineer” que ha surgido en el último año.

Mientras sigue la presentación, Google muestra cómo Workspace, su suite corporativa, puede aprovechar Gemini para cruzar todos los datos que un usuario tiene en los diferentes servicios (mail, documentos, etcétera), para ofrecer respuestas específicas a consultas concretas dentro de la plataforma, similar al Copilot de Microsoft (buscar datos en la bandeja de entrada, combinarlos, generar una planilla, responder una consulta compleja, etcétera).

Gemini, el motor de inteligencia artificial generativa de la compañía, también está integrado en las búsquedas, que fueron fundamentales para la compañía que nació hace un cuarto de siglo. Las búsquedas de Google ahora tienen un resultado generado a pedido para cada búsqueda (AI Overviews) que están disponibles para EE.UU. desde hoy, y a más de mil millones de personas en los próximos meses. La compañía suma un concepto nuevo: “investigación de pasos múltiples” para hacer consultas encadenadas sobre un tema, con diversos niveles de complejidad. Si no sabemos exactamente qué estamos buscando, la compañía generará una página de resultados con múltiples alternativas para ayudarnos con lo que estamos investigando (y que podemos no haber tenido en cuenta).

Google también permitirá hacer búsquedas desde video: como ya tiene Enlazar para buscar (que usa el reconocimiento de imágenes para Google Lens, y que está en los últimos teléfonos de Samsung y Google), pero ahora se puede hacer también con video: el clásico “por qué pasa esto”, cuando no sabemos el nombre de las cosas, pero que hasta ahora estaba limitado a imágenes o texto. Puede ser la salvación (o la perdición) de los ferreteros, mecánicos y más.

Así es todo lo que Google ofrecerá en las búsquedas en los próximos meses:

Cómo funcionan las nuevas búsquedas potenciadas por IA de Google

Gemini Live, por ejemplo, será una forma de usar el asistente en vivo, con la cámara de video (es decir, será capaz de reconocer lo que toma la cámara del teléfono, responder a lo que, actuar por contexto, y más).

Google presenta Gemini 1.5 Flash (también llamado Project Astra), una nueva versión que funciona como un asistente: es una versión de Gemini (que ya puede reemplazar al Asistente de Google) pero que funciona más rápido con una mayor compresión del contexto en el que está el usuario, con una voz más natural y con un reconocimiento de contenido tomado por una cámara en tiempo real.

Es una especie de Google Lens, pero que funciona en tiempo real, y sobre lo que le está ofreciendo la cámara del teléfono; la compañía lo mostró funcionando también en unos anteojos similares a los Ray Ban de Meta, que permiten interactuar con la inteligencia artificial con voz y video, y en función de lo que captan, en tiempo real, lo que captan las cámaras del dispositivo.

La compañía también reveló un nuevo motor de generación de imágenes y videos a partir de una descripción, llamada Veo.

En otra demo, la compañía mostró como Gemini generó, en NotebookLM, una lección sobre física para un chico con dos voces muy naturales (al nivel de GPT-4o) que modificaban lo que decían en función de las preguntas de los alumnos; es lo más cercano, hasta ahora, que la compañía ha mostrado que se acerca a lo que anunció ayer OpenAI (en ambos casos, la incógnita está en cuánto alucinarán, es decir, cómo controlarán los errores en los que siempre caen estos sistemas).

Sundar Pichai ahora habla de Google Workspace (la suite corporativa de la compañía) y cómo puede, por ejemplo, hacer un resumen de todo lo que contienen los últimos mensajes de un remitente específico o de una conversación, lo que permite ponernos al día.

Gemini llega a Google Workspace, la suite corporativa de la compañía

Google sumará a Gemini a Google Photos, por lo que será posible hacer una consulta compleja en la aplicación de fotos: por ejemplo, pedirle que nos brinde un dato específico que aparece en alguna foto: cuándo aprendió a nadar nuestra hija, o cuál es nuestra patente, en los ejemplos que ofreció Sundar Pichai. Estará disponible en nuestro invierno, primero en inglés. Hasta ahora se podían buscar algunos tipos de fotografías (atardeceres, partidos de fútbol, mascotas, etcétera). Esto permite búsquedas más complejas sobre contenido que no fue definido de antemano.

Gemini, el chatbot con IA de Google, llegará a Google Photos en los próximos meses

Con la presencia en el escenario de Sundar Pichai, el CEO de Google, comienza el Google I/O. Primero, con un video en el que la compañía repasa las novedades del último año, muy focalizada en inteligencia artificial, y en habilitar su uso para todo el mundo. Pichai recuerda que la compañía está en el rubro de la inteligencia artificial hace más de una década, y que su modelo Gemini es multimodal (como el GPT-4o anunciado ayer), es decir, que es capaz de entender texto, imágenes, videos y audio. Dice que 1,5 millones de desarrolladores usan Gemini para alguna tarea o aplicación, y que lo usan -de una u otra forma- los 2000 millones de usuarios que tiene la compañía. La compañía dice que habilitará las respuestas enchuladas por IA que presentó el año pasado, y que estaban en beta, a todos los usuarios de EE.UU., con otros países más adelante.

Sundar Pichai en el inicio del Google I/O 2024

Sameer Samat, el responsable del equipo de producto y diseño de Android, será uno de los speakers de la conferencia inicial. En la foto está con Davey Burke, otro alto ejecutivo responsable de la plataforma Android.

Un rato después de que OpenAI mostrara su nuevo modelo de IA con una interacción por voz muy natural, GPT-4o, Google publicó este tuit, donde se escucha la voz de Gemini (el nuevo asistente de Google, basado en inteligencia artificial generativa, que ya funciona en el país), con una mayor capacidad para generar un diálogo más natural con sus usuarios, y una mayor comprensión del entorno (en este caso, el escenario del Google I/O 2024, el Shoreline Theater junto al campus de Google en California).

Como todos los años, Google da inicio hoy al I/O, su conferencia anual de desarrolladores, donde dará más detalles sobre sus servicios: las búsquedas, la nueva versión de Android y, por supuesto, todo lo relacionado con Gemini, su inteligencia artificial; el anuncio de hoy genera expectativa, además, por los anuncios de ayer de OpenAI, cuando mostró la ductilidad verbal de su nueva versión, GPT-4o.

Una demo de la nueva versión de la inteligencia artificial GPT-4o

Por fmluzucom