16/02/2024 @ 14:26:06: Google - Gemini 1.0 a été présentée comme l’IA la plus puissante au monde. Une semaine plus tard, Google annonce le successeur
Il se passe quelque chose d'étrange autour de Mountain View : moins d'une semaine après l'annonce de Gemini 1.0, le nouveau modèle d'IA très avancé disponible dans les versions Gemini Nano, Pro et Ultra, c'est déjà au tour du successeur, Gemini 1.5. Selon Google, le nouveau modèle « offre des performances nettement améliorées », notamment en ce qui concerne « la compréhension des contextes longs », à tel point que Gemini 1.5 Pro est déjà aux niveaux de Gemini 1.0 Ultra , mais nécessite moins de puissance de calcul. Donc en théorie les utilisateurs gratuits pourraient bientôt accéder à des fonctionnalités comparables à celles des utilisateurs payants (le modèle Pro est disponible dans le chatbot gratuit Gemini , tandis que le modèle Ultra est accessible via le chatbot payant Gemini Advanced. Dans son annonce, qui ne prend pas en compte la version Ultra du modèle (probablement encore en développement), Google affirme que Gemini 1.5 représente une nouvelle génération de LLM (Large Language Models) qui « offre une percée dans la compréhension des contextes longs » et que si actuellement dans la version Gemini 1.5 Pro traite une fenêtre contextuelle de 128 000 jetons , certains développeurs sont déjà en mesure d'essayer jusqu'à 1 million de jetons, " obtenant la fenêtre contextuelle la plus longue de tous les modèles de fondation à grande échelle ".

Les jetons représentent des fragments d'un mot : plus il y en a, plus le contexte qui peut être donné au chatbot dans le prompt pour le faire « réfléchir » à un sujet est important. Une fenêtre contextuelle plus grande vous permet de traiter des documents plus longs et d'avoir des conversations plus longues. À titre de comparaison, Gemini 1.0 gère 32 000 jetons, tandis que GPT-4 Turbo d'Open AI possède une fenêtre contextuelle de 128 000 jetons, ce qui équivaut à environ 300 pages de texte dans une invite. Google a publié un article à l'appui du potentiel du modèle dans lequel il explique que Gemini 1.5 utilise une nouvelle architecture de mélange d'experts (MoE), ce qui signifie que le système active sélectivement différents « experts » ou sous-modèles spécialisés au sein d'un réseau neuronal plus large. réseau pour des tâches spécifiques basées sur les données d’entrée. Dans le rapport, BigG explique que Gemini 1.5 offre une amélioration substantielle par rapport à la version 1.0, affirmant qu'elle bat la 1.0 Pro de 28,9 % en « Math, Science & Reasoning » et la 1.0 Ultra de 5,2 %, dans les mêmes matières. De même, Google compare le nouveau modèle au GPT-4 Turbo, révélant en moyenne de meilleures performances.

BigG déclare que le nouveau modèle est capable d'effectuer « un raisonnement complexe sur de grandes quantités d'informations » et fournit un exemple d'analyse d'une transcription de 402 pages de la mission Apollo 11 (celle qui s'est rendue sur la Lune). Certes, le résultat est impressionnant et Google affirme qu'il n'y a aucune détérioration des performances. Plus étonnant encore, Google a montré au modèle Gemini 1.5 Pro un film muet de Buster Keaton de 44 minutes , et a ensuite pu analyser avec précision divers points et événements de l'intrigue , et même raisonner sur de petits détails, tandis qu'un autre exemple concerne la capacité de réfléchir à un projetez à partir de plus de 100 000 lignes de code et donnez des explications sur son fonctionnement. Dans l'ensemble, nous pouvons définir cinq façons dont Gemini 1.5 est supérieur à Gemini 1.0. La première est une fenêtre contextuelle beaucoup plus grande , qui va de 32 000 tokens à 128 000 et jusqu'à 1 million de tokens . Cela signifie que pour un travail intensif, Gemini 1.5 sera plus efficace. Le deuxième aspect concerne la programmation : grâce à la fenêtre contextuelle plus grande, mais pas seulement, Gemini 1.5 Pro est meilleur que Gemini 1.0 Ultra sur cet aspect, et Google lui-même le déclare.

Gemini 1.5 Pro est notre modèle de code le plus performant à ce jour, surpassant Gemini 1.0 Ultra sur Natural2Code, notre ensemble de tests de génération de code interne conçu pour éviter les fuites Web.


De plus, Gemini peut non seulement analyser plus de données , comme 100 000 lignes de code (800 000 jetons) ou un film muet, mais sans dégradation des performances :

Gemini 1.5 Pro étend considérablement cette frontière de longueur de contexte à plusieurs millions de jetons avec presque aucune dégradation des performances, permettant de traiter des entrées beaucoup plus volumineuses. Comparé à Claude 2.1 avec une fenêtre contextuelle de 200 000 jetons, Gemini 1.5 Pro atteint un rappel de 100 % à 200 000 jetons, dépassant les 98 % de Claude 2.1. Ce rappel à 100 % est maintenu jusqu'à 530 000 jetons et le rappel est de 99,7 % à 1 million de jetons. En passant de 1 million de jetons à 10 millions de jetons, le modèle maintient un rappel de 99,2 %.


Gemini 1.5 Pro peut également apprendre lors d'une conversation . Généralement, vous pouvez enseigner une langue aux modèles, mais vous risquez de remplir la fenêtre contextuelle avant qu'ils puissent apprendre. Le nouveau modèle de Google, en le dotant d'un livre de grammaire et d'un dictionnaire, est capable de traduire de l'anglais vers le kalang de la même manière qu'un être humain ayant appris des mêmes sources. Enfin, Gemini 1.5 Pro devrait avoir des temps de réponse inférieurs grâce à l' architecture MoE, qui améliore l'efficacité des calculs. On ne sait pas dans quelle mesure, mais le modèle Mixtral 8x7B qui utilise la même technologie est un modèle 47B mais avec les besoins informatiques d'un modèle 12,9B. Bref, Gemini 1.5 semble être une avancée notable, mais ce qui est surprenant, c'est le timing. Quel est l'intérêt d'annoncer cela une semaine après le lancement de Gemini 1.0 ?

Auteur: Nic007