Lors de cette leçon inaugurale prestigieuse à l’École nationale des ponts et chaussées, Yann Le Cun, directeur scientifique de l’intelligence artificielle chez Meta et professeur à l’Université de New York, livre une vision à la fois technique, philosophique et prospective de l’évolution de l’intelligence artificielle.

Il s’éloigne de son discours préparé pour proposer une véritable leçon magistrale au tableau, décortiquant les fondements des technologies actuelles tout en traçant la feuille de route de la prochaine révolution technologique.

Ce qu’il faut retenir

L’intelligence artificielle doit être appréhendée comme un amplificateur de l’intelligence humaine : son impact historique est comparable à celui de l’invention de l’imprimerie au quinzième siècle, agissant comme un moteur essentiel pour la diffusion globale des connaissances et le progrès scientifique.

Les modèles de langage actuels, ou grands modèles de langage, souffrent de limites intrinsèques insurmontables par la simple accumulation de données textuelles : ils manquent de véritable capacité de raisonnement, de planification et d’une compréhension fondamentale du monde physique.

L’avenir de la recherche repose sur les modèles du monde et l’architecture prédictive à plongement conjoint : cette nouvelle approche permettra aux machines de développer un système de pensée plus complexe, capable de planifier des actions et de s’adapter en continu.

Amplification de l’intelligence et perspective historique

L’histoire de l’informatique montre que nous créons des outils pour surpasser nos propres capacités physiques et cognitives. L’intelligence artificielle ne déroge pas à cette règle historique : elle augmente notre puissance intellectuelle.

Il ne faut pas craindre de collaborer avec des entités plus intelligentes que soi. Cette situation représente au contraire une opportunité majeure de progrès collectif.

Pour illustrer ce bouleversement, le parallèle avec l’imprimerie s’avère particulièrement éclairant : cette invention a permis de démocratiser le savoir à grande échelle, même si elle a également provoqué des crises religieuses et politiques majeures en Europe.

À l’inverse, le refus du progrès technique peut entraîner le déclin durable d’une civilisation. La dissémination de la science reste le moteur indispensable du progrès humain.

Dans les décennies à venir, ces outils intelligents accompagneront les humains au quotidien. Des assistants virtuels intégrés à des objets ordinaires, comme des lunettes connectées, transformeront radicalement notre façon de travailler et d’interagir.

Les fondements mathématiques de l’apprentissage profond

Le fonctionnement d’une machine apprenante repose sur des principes de mathématiques appliquées relativement simples. Lorsqu’un programme ne peut pas être écrit manuellement en raison d’une variabilité trop grande des données, la machine doit être entraînée.

Une image numérique se compose de tableaux de nombres représentant les valeurs des pixels. Pour traiter ces informations, on effectue des opérations numériques de base : des additions, des multiplications et des comparaisons.

L’apprentissage machine élémentaire utilise des combinaisons linéaires de ces valeurs avec des coefficients ajustables appelés des poids. L’objectif consiste à ajuster ces coefficients pour que le système produise la bonne réponse face à un stimulus donné.

Ce processus s’apparente à une régression linéaire classique. On définit une fonction de coût pour mesurer l’écart entre la prédiction de la machine et le résultat souhaité.

Pour minimiser cette erreur, on utilise la méthode de la descente de gradient. Cette technique mathématique permet de modifier itérativement les poids du réseau.

L’apprentissage profond introduit une complexité supplémentaire : il empile plusieurs couches de calculs non linéaires.

Le concept central repose sur la règle de dérivation des fonctions composées. Cette règle permet de propager l’erreur à l’envers à travers toutes les couches du système.

Ce mécanisme s’appelle la rétropropagation du gradient. Grâce aux bibliothèques logicielles modernes, ce calcul complexe est aujourd’hui automatisé par différenciation automatique.

Réseaux convolutifs et architectures Transformers

Les systèmes technologiques actuels se divisent en plusieurs grandes familles d’architectures. Les réseaux convolutifs constituent une innovation majeure pour le traitement des données visuelles.

Ces réseaux s’inspirent directement de la structure du cortex visuel humain. Leurs matrices de poids sont creuses, ce qui permet un traitement extrêmement rapide en temps réel.

Cette architecture possède une propriété mathématique fondamentale : l’équivariance par translation. Si un objet se déplace dans l’image, sa détection se déplace de la même manière sans altérer la compréhension globale.

Cette technologie équipe la majorité des systèmes d’assistance à la conduite automobile. Elle est aussi utilisée pour l’analyse d’images médicales et le pilotage des drones autonomes.

Les modèles de langage modernes s’appuient quant à eux sur une architecture différente nommée les Transformers. Ces réseaux possèdent une propriété distincte : l’équivariance par permutation.

Pour ces modèles, la position exacte des éléments importe moins que les relations qu’ils entretiennent entre eux. Cette flexibilité les rend particulièrement performants pour l’analyse de la langue naturelle.

L’entraînement de ces systèmes s’effectue par un apprentissage autosupervisé. Le modèle s’entraîne sur des volumes gigantesques de données textuelles provenant d’internet : l’objectif est simplement de prédire le mot ou le jeton suivant dans une phrase.

En apprenant la fonction identité sous contrainte de masquage, le réseau compresse et stocke une quantité immense de connaissances humaines. Cependant, cette méthode n’induit pas de véritable compréhension.

Les limites des modèles de langage actuels

Les performances spectaculaires des générateurs de texte masquent des lacunes conceptuelles profondes. Ces systèmes ne possèdent pas de mémoire persistante globale.

Leur fonctionnement purement réactif s’apparente au système un de la pensée humaine. Ils produisent des réponses immédiates sans réflexion préalable ni vérification logique.

Cette absence de structure interne rigoureuse provoque le phénomène bien connu des hallucinations. Le modèle se contente d’aligner des mots statistiquement probables.

Une comparaison quantitative met en lumière l’inefficacité de l’apprentissage textuel seul. Un enfant de quatre ans a passé environ seize mille heures éveillé depuis sa naissance.

À travers le canal du nerf optique, le cerveau de cet enfant reçoit un flux constant d’informations sensorielles estimé à plusieurs pétaoctets. Ce volume de données visuelles équivaut à la quantité de texte ingérée par les plus grands modèles existants.

Pourtant, l’enfant acquiert une compréhension intime du monde physique bien supérieure à celle de n’importe quelle intelligence artificielle actuelle. L’apprentissage par le texte seul ne permettra jamais d’atteindre un niveau d’intelligence humaine.

Modèles du monde et architecture JPA

Pour dépasser ces blocages, la recherche s’oriente vers la création de modèles du monde. L’objectif est de permettre à la machine d’anticiper les conséquences de ses actions.

Face à une situation donnée, le modèle doit prédire le changement de l’état du monde induit par une décision. Cette prédiction ne peut pas se faire au niveau microscopique ou quantique.

Les humains et les animaux utilisent des représentations abstraites pour éliminer les détails inutiles. L’architecture prédictive à plongement conjoint, ou architecture JPA, vise à reproduire ce mécanisme d’abstraction.

Le système utilise un encodeur pour transformer une observation complexe en un état abstrait. Un module prédicteur anticipe ensuite l’évolution de cet état en fonction d’une action planifiée.

L’apprentissage s’effectue en comparant la prédiction abstraite avec l’observation réelle du moment suivant. Cette approche élimine le besoin de générer chaque pixel d’une scène pour la comprendre.

Cette architecture ouvre la voie au système deux de la pensée humaine : une réflexion basée sur la planification et l’optimisation sous contraintes. La machine devient capable de concevoir des séquences d’actions originales pour atteindre un but précis.

Réponses aux questions et vision d’avenir

Le débat avec l’auditoire permet d’approfondir plusieurs enjeux cruciaux pour l’avenir de la discipline. L’apprentissage continu s’impose comme une nécessité absolue pour perfectionner les modèles du monde en temps réel.

Concernant l’intelligence artificielle générale, le concept même s’avère trompeur : l’intelligence humaine n’est pas générale, elle reste hautement spécialisée pour notre survie et notre environnement.

Des machines surpasseront les humains dans tous les domaines cognitifs d’ici une ou deux décennies. Ce processus prendra du temps car la recherche se heurtera inévitablement à de nouveaux obstacles imprévus.

Pour les futurs ingénieurs, le parcours de formation doit privilégier les disciplines fondamentales : les bases mathématiques et la physique possèdent une durée de vie bien supérieure aux technologies logicielles éphémères.

L’impact environnemental des centres de données représente un défi logistique majeur pour les infrastructures. La consommation d’énergie est principalement liée à la phase d’inférence, lorsque des millions d’utilisateurs sollicitent les modèles simultanément.

Cette demande massive stimule les investissements dans l’énergie nucléaire de petite taille et les énergies renouvelables. Par ailleurs, l’intelligence artificielle contribue activement à la transition écologique grâce à la science des matériaux.

Le projet Open Catalyst illustre cette dynamique en utilisant l’apprentissage profond pour découvrir de nouveaux catalyseurs chimiques. Ces découvertes faciliteront le stockage de l’énergie sous forme d’hydrogène.

Enfin, l’Europe dispose de tous les talents nécessaires pour mener cette transformation technologique. La recherche ouverte et les modèles en accès libre permettent de contrebalancer la dépendance envers les capitaux américains.