14/05/2024 @ 21:43:09: Google - Le nouvel assistant visuel de Google semble terriblement interactif, peut-être trop interactif pour être vrai
Il s'appelle Project Astra et promet de devenir votre bouée de sauvetage quotidienne. Nous parlons évidemment d'une nouvelle fonctionnalité liée à Google Gemini et à l'écosystème d'intelligence artificielle de Google , capable d'utiliser la reconnaissance visuelle comme jamais auparavant. Une sorte de réponse directe au GPT-4o et à l'actualité présentée hier soir par OpenAI, qui démontre à quel point Google veut devenir sérieux avec l'IA multimodale . Le projet Astra est la première expérience d'assistant d'IA multimodale basée sur les capacités de Google Gemini. Le développement a été confié à l'équipe de Google DeepMind, qui a créé une vidéo de démonstration montrant les extraordinaires possibilités offertes par cet outil. L'assistant est intégré directement dans un Google Pixel , et utilise l' appareil photo du smartphone pour visualiser et interpréter tout ce qui est cadré. Non seulement cela, car l'utilisateur peut interagir avec l'assistant via des commandes vocales , en demandant des informations relatives à ce qui est encadré, voire en indiquant des éléments spécifiques. Mais cela ne s'arrête pas là. Le projet Astra travaille également sur les lunettes intelligentes , celles équipées d'une caméra vidéo et d'un microphone. L'expérience utilisateur semble très intuitive : avec vos lunettes vous cadrez la scène devant vous et avec votre voix demandez à Gemini ce que vous voulez. Et que peut faire le Projet Astra pour vous ? Potentiellement tout. Grâce à la fonctionnalité multimodale , il est capable de reconnaître le paysage à l'extérieur de la fenêtre, de résoudre une formule mathématique, de lire et d'interpréter une partie de code, de reconnaître les parties d'un locuteur, d'inventer de jolis noms pour les animaux de compagnie.

Il y a deux choses qui sont les plus impressionnantes dans cette démo. D’une part, l’incroyable interactivité et proactivité du Projet Astra, qui semble pouvoir passer d’une opération à l’autre de manière fluide et naturelle. En revanche, une latence quasi nulle , encore accentuée par le fait que le système doit reconnaître visuellement une scène, traiter l'information, produire un résultat et le communiquer à l'utilisateur. Tout cela se produit en quelques instants seulement. Si vous souhaitez voir les capacités du projet Astra en action, vous trouverez ci-dessous la première vidéo officielle publiée par Google. Comme mentionné, la démo du Projet Astra est vraiment impressionnante et parfois difficile à croire. Nous avons déjà eu de mauvaises surprises avec les systèmes d'intelligence artificielle de Google, avec de belles promesses qui ne se sont pas réalisées. Faut-il le croire cette fois-ci ? Google a déclaré que le projet est toujours en développement, mais que certaines des fonctionnalités présentées seront intégrées aux produits Google plus tard cette année. On parle de quelques mois donc, un laps de temps très court pour bien mettre en œuvre une fonctionnalité complexe comme celle-ci.



Il faut dire que ces dernières années le secteur de l’intelligence artificielle a fait – et fait – des pas de géant, accélérant toujours plus les capacités offertes par les différents systèmes concurrents. Le nouveau GPT-4o évoqué en début d'article s'inscrit également dans cette évolution très rapide . Cependant, de nombreux doutes restent à clarifier. Le Projet Astra sera-t-il intégré à tous les smartphones Pixel ? Fonctionnera-t-il localement ou se connectera-t-il aux serveurs de Google ? La latence des fonctions interactives sera-t-elle vraiment aussi faible (quasiment inexistante) que dans la démo ? Pour répondre à toutes ces questions, nous devrons attendre, espérons-le, encore plusieurs mois. Pourtant, la direction est déjà tracée : l'intelligence artificielle partout et dans tous les cas, utilisable avec les yeux et avec la voix, intégrée aux smartphones et aux lunettes, capable de répondre à toutes vos questions , ou presque.
Auteur: Nic007