Comment les humains et les animaux parviennent-ils à comprendre leur environnement, à raisonner selon un « bon sens » ou à planifier des actions complexes? Ces capacités, qui semblent naturelles chez nous, sont encore hors de portée pour l’intelligence artificielle d’aujourd’hui.
Dans cette conférence, Yann LeCun présente une approche novatrice : une modélisation du monde simulant le comportement d’un système cognitif et permettant à une IA de prévoir les conséquences de ses actions et d’élaborer des plans pour atteindre des objectifs précis. Une telle architecture permettrait, entre autres, d’intégrer des garde-fous garantissant sa contrôlabilité et sa sécurité – un enjeu majeur dans le développement de systèmes d’IA responsables et qui pourrait ouvrir la voie vers une intelligence artificielle d’un niveau de compétences comparable à un humain.
Le modèle repose sur une architecture appelée « JEPA » (Joint Embedding Predictive Architecture), entraînée par apprentissage auto-supervisé à partir de l’observation. Les JEPAs, lorsqu’ils sont entraînés sur des images et des vidéos, génèrent des représentations qui améliorent la compréhension visuelle, permettant même de détecter des événements non physiques dans les vidéos. Grâce à ce modèle, la planification est réalisée en recherchant les séquences d’actions qui produiront un état final correspondant à un objectif donné.