Depuis l'annonce de la mise en service de GPT-4o, les réseaux sociaux sont en ébullition. Comme à chaque innovation signée OpenAI, le monde est en émoi face à l'évolution fulgurante de l'intelligence artificielle. Mais ce qui fait sans doute le plus parler concernant GPT-4o, c'est le fait qu'il soit multimodal, à savoir qu'il puisse à la fois, et en temps réel, traiter et générer du texte, du son ou des images. Les démonstrations vidéo fournies par OpenAI sont d’ailleurs tellement bluffantes qu'elles ont créé le buzz dès leur sortie.
Mais alors, comment se traduit concrètement l'évolution entre GPT-4 et GPT-4o ? De quoi est capable cette nouvelle version du modèle de langage ? Et surtout, est-ce que cela signe la fin de GPT-5 ? On fait le point.
Intéressons-nous d'abord aux capacités de ce GPT-4o. Ce qui est sûr, c'est que cette nouvelle technologie pousse les limites plus loin que tout ce que l'on pouvait imaginer avec GPT-3.5 ou GPT-4.
Comme vu dans l'introduction, GPT-4o (pour « GPT-4 omni ») est un nouveau modèle de langage multimodal (ou omnimodal selon OpenAI). Si vous avez besoin de traiter à la fois du texte, du son et des images, vous pouvez tout gérer avec GPT-4o, y compris depuis votre smartphone. Autrement dit, l'époque où vous utilisiez plusieurs outils en simultané est révolue.
Vous avez toujours rêvé de discuter avec une intelligence artificielle comme vous le feriez avec un ami ? Votre souhait est exaucé ! Effectivement, contrairement à ses prédécesseurs, GPT-4o prend nativement en charge les conversations vocales. Plus besoin de dépendre d'autres modèles pour traiter le son. Les tests montrent d’ailleurs que l'API est deux fois plus rapide que GPT-4 Turbo, avec une réponse audio moyenne obtenue en seulement 320 millisecondes. Pratiquement aussi rapide qu'un humain dans une conversation.
Si GPT-4o bat des records en reconnaissance vocale, c’est aussi le cas en traduction automatique. Plus de 50 langues sont ainsi prises en charge, couvrant 97 % des locuteurs mondiaux. Lors d'une démonstration en direct, Mira Murati, la directrice technique d’OpenAI, a montré les compétences multilingues du modèle et prouvé que GPT-4o savait jongler avec aisance entre l'italien et l'anglais (entre autres exemples). Que vous soyez sur votre smartphone, votre ordinateur, ou même via des interfaces audio-vidéo, GPT-4o s'adapte à votre mode de communication préféré.
Le plus bluffant dans toute cette présentation reste sans doute la capacité de GPT-4o à analyser et à répondre aux émotions des utilisateurs. En se basant sur des indices subtils qu’il capte par la caméra et le micro, comme les expressions faciales et le ton de la voix, GPT-4o adapte sa réponse au contexte émotionnel de la conversation, et ce, en temps réel. Cela signifie que votre assistant vocal ne se contentera plus de comprendre vos mots, il saisira votre humeur et rendra les échanges plus naturels et empathiques. Blade Runner n’est plus si loin !
Grâce à un nouveau tokenizer, GPT-4o réduit le nombre de tokens nécessaires pour encoder des phrases, en particulier pour les langues non latines. Cela se traduit notamment par une diminution des coûts énergétiques et financiers pour les serveurs d'OpenAI. Cerise sur le gâteau, GPT-4o atteint un score de 88,7 % au test de performance Massive Multitask Language Understanding (MMLU), un résultat qui surpasse de plusieurs points ce dont GPT-4 Turbo était capable (86,5 %).
Vous l’aurez compris, avec de telles innovations, GPT-4o est une évolution significative de l'intelligence artificielle. Mais qu'en est-il de sa disponibilité ?
Pour commencer, OpenAI a annoncé que GPT-4o serait en accès libre et gratuit pour le grand public. Toutefois, comme pour les versions précédentes, des limitations de capacité garantiront le bon fonctionnement du service. De leur côté, les utilisateurs payants abonnés à ChatGPT Plus profiteront de limites de capacité jusqu'à 5 fois supérieures.
De même, dans un article publié sur le blog d'OpenAI, on apprend que GPT-4o sera déployé progressivement, capacités par capacités. Pour le moment, seules les fonctionnalités en texte et en lecture d'images sont accessibles, directement depuis l'interface habituelle de ChatGPT. Il faudra attendre quelques semaines pour la vidéo et l’audio.
En attendant, l'impact de GPT-4o est prometteur, comme l'a prouvé Microsoft lors de la conférence inaugurale de la Build 2024. Le géant américain a effectivement annoncé que le nouveau modèle d’OpenAI allait être intégré à Copilot, l'intelligence artificielle de Windows 11. Dans l'exemple fourni, GPT-4o (ou plutôt sa synthèse vocale) aide un joueur à éviter les zombies sur Minecraft. Bluffant !
Face à la sortie imprévue de GPT-4o, de nombreux utilisateurs se demandent si cette version tend à remplacer GPT-5. Alors que les rumeurs allaient bon train sur ce dernier, OpenAI n'a pas abordé le sujet dans sa conférence du 13 mai 2024. Difficile donc de savoir si GPT-4o est GPT-5 ou s'il s'agit seulement d'une mise en bouche.
Pour autant, durant cette même conférence, Mira Murati a laissé sous-entendre qu’OpenAI travaillait déjà sur « the next big thing », ou la prochaine grande avancée en matière d'intelligence artificielle. Si rien ne l'assure, tout porte à croire qu'elle parlait bien de GPT-5. Après tout, OpenAI n'est plus la seule entreprise à travailler sur le développement de l’IA. Bien qu'impressionnant en de nombreux points, GPT-4o ne permettra pas à la firme de conserver une avance significative sur ses concurrents, sans parler de l'impact économique lié à la gratuité du modèle. Eh oui ! Hormis pour augmenter les limitations de capacité, il n'y a actuellement plus aucun avantage à avoir un abonnement ChatGPT Plus.
Il y a donc fort à parier que GPT-5 verra bien le jour plus tard dans l'année, et que, comme à chaque changement de numéro, un bond technologique significatif sera une nouvelle fois à l'ordre du jour.
Crédit photo : Nuttapong Punna