Wikipédia ouvre ses ressources à l'intelligence artificielle. Le bastion est-i...
Publié le: 01/10/2025 @ 16:20:52: Par Nic007 Dans "Internet"
InternetWikimedia Deutschland a annoncé mercredi le lancement d'un nouveau système visant à rendre les ressources de Wikipédia plus accessibles aux modèles d'intelligence artificielle. Ce projet, baptisé Wikidata Embedding Project, pourrait transformer la manière dont les systèmes d'IA accèdent à des sources d'information fiables. La nouvelle base de données utilise la recherche sémantique vectorielle, une technique qui aide les ordinateurs à comprendre le sens des mots et leurs relations. Le système comprend près de 120 millions d'entrées provenant de Wikipédia et de plateformes associées. Il prend également en charge le protocole Model Context Protocol, une norme qui facilite la communication entre les systèmes d'IA et les sources de données, rendant ainsi les requêtes en langage naturel nettement plus efficaces. Le projet a été créé en collaboration entre Wikimedia Allemagne, Jina.AI, une société spécialisée dans la recherche neuronale, et DataStax, une société IBM qui traite des données de formation en temps réel.

Bien que Wikidata propose des données lisibles par machine depuis des années, les outils précédents se limitaient aux recherches par mots-clés et aux requêtes SPARQL. Le nouveau système améliore considérablement l'interopérabilité avec la technologie RAG (retrieval-augmented generation), permettant aux modèles d'IA de récupérer des informations externes vérifiées par les éditeurs de Wikipédia. La base de données est accessible au public sur la plateforme Toolforge et Wikidata organise un webinaire pour les développeurs intéressés le 9 octobre. Ce projet intervient à un moment où les développeurs d'IA recherchent désespérément des sources de données de haute qualité. Philippe Saadé, chef de projet, souligne son indépendance : « Ce projet démontre qu'une IA performante n'a pas besoin d'être contrôlée par une poignée d'entreprises. Elle peut être ouverte, collaborative et accessible à tous. »
