L'odyssée de l'intelligence artificielle : l’IA peut-elle être morale?

31 Juillet 2023 Science

L'odyssée de l'intelligence artificielle : L’IA peut-elle être morale?

Pendant tout l'été, l'Opinion décrypte les dessous de la révolution que nous sommes à la veille de vivre. Nous sommes entrés dans une nouvelle ère. Attachez vos ceintures.

Episode 10 : L’Intelligence artificielle peut-elle comprendre ce qui est bien et ce qui est mal ? Comment évaluer cela ? Pour Jean-François Bonnefon, chercheur à la Toulouse School of Economics et directeur de recherche au CNRS, il n’est aujourd’hui pas facile de répondre à ces questions. Pour autant, un enjeu reste clair, celui de faire en sorte que les IA qui existent aujourd’hui soient des IA morales. 

 

Aucune méthode ne peut nous permettre d’établir qu’une intelligence artificielle comprend le bien et le mal, parce que les méthodes dont nous disposons ne s’appliquent qu’aux humains. Nous ne disposons pas des outils qui nous permettraient d’établir qu’une intelligence artificielle comprend les notions de bien et de mal.  

Lorsque nous voulons évaluer la capacité d’une personne humaine à distinguer le bien et le mal, nous pouvons utiliser trois grandes méthodes. D’un point de vue qualitatif, nous pouvons demander à cette personne d’expliquer, avec ses propres mots, en quoi consiste cette distinction. D’un point de vue quantitatif, nous pouvons lui faire passer des tests et des questionnaires. D’un point de vue empirique, nous pouvons observer son comportement et noter avec quelle fréquence il dévie des normes morales, ou occasionne des conséquences néfastes. Aucune de ces méthodes n’est très informative quand nous passons d’une personne humaine à une intelligence artificielle. 

Une IA comme ChatGPT, basée sur un “grand modèle de langage”, n’aura aucun problème à développer un discours convaincant sur la nature du bien et du mal, mais le propre d’un grand modèle de langage est précisément d’être capable de parler de façon convaincante d’un sujet sans avoir besoin de le comprendre. Tout au plus, si nous poussons le modèle dans ses retranchements et parvenons à lui faire dire quelque chose d’absurde sur le bien et le mal, nous pourrons conclure qu’il ne comprend pas ces notions. Mais aucun discours, aussi convaincant soit-il, ne nous permettra de conclure qu’il les comprend. La même logique s’applique à l’approche par test ou questionnaire. Un grand modèle de langage peut tout à fait répondre à ces tests et questionnaires. Si ses réponses sont déficientes, nous conclurons qu’il ne comprend pas le bien et le mal; mais si ses réponses sont parfaites, nous ne pourrons rien conclure. 

Capables de parler 

Les grands modèles de langage sont une forme très particulière d’IA, parce qu’ils sont capables de parler — et donc de passer des tests, questionnaires et entretiens. Mais la grande majorité des IA ne parle pas, elles se contentent d’exécuter des tâches. Dans ce cas, la seule méthode dont nous disposons pour évaluer leur compétence morale est d’observer leur comportement, mais nous serons encore et toujours face au même problème. Si une IA fait régulièrement le mal, nous pouvons conclure qu’elle ne comprend pas les notions de bien et de mal; si elle fait toujours le bien, nous ne pouvons rien conclure. Une voiture autonome qui multiplie les collisions ne comprend pas qu’elle fait le mal; mais rien n’indique qu’une voiture autonome qui évite toutes les collisions comprenne qu’elle fait le bien. 

 Admettons donc qu’il nous est impossible de nous assurer qu’une IA comprenne la distinction entre le bien et le mal; et demandons-nous dès lors en quoi il nous importe qu’elle possède cette capacité. Quels sont les scénarios dans lesquels nous pensons indispensable qu’une IA puisse, sans notre aide, comprendre si une action est bonne ou mauvaise ? Ces scénarios sont en général très abstraits et futuristes. Ils portent sur un futur hypothétique où l’IA aurait atteint la super-intelligence et la super-autonomie; en d’autres termes, un futur où l’IA serait capable de fixer ses propres objectifs, de décider des moyens pour les atteindre, et de mettre en oeuvre ces moyens, le tout sans aucune supervision humaine. Dans le cadre d’un tel scénario, il serait rassurant de savoir qu’une super-IA est capable de comprendre le bien et le mal, et de se fixer des lignes morales infranchissables, tant pour les buts qu’elle poursuit que pour les moyens qu’elle met en oeuvre pour les atteindre. On parle parfois dans ce cadre du problème de “l’alignement” : si une IA devient autonome et puissante, nous voulons qu’elle agisse d’elle-même d’une façon qui est alignée sur les buts et les valeurs morales de l’humanité. 

Faire des IA déjà existantes des IA morales 

Il est de toute évidence important de réfléchir au problème de l’alignement de futures super-IA. Même si la probabilité qu’une super-IA décide de détruire l’humanité est faible et lointaine, la gravité de la situation serait telle qu’elle mérite d’être anticipée. Il ne faut pas pour autant que cette lointaine éventualité nous distraie de la nécessité réelle et urgente de faire des IA déjà existantes des IA morales. Il est important ici de comprendre qu’une IA peut être morale sans avoir de compréhension particulière des notions de bien et de mal. Nous pouvons (et pour l’instant, nous devons) nous contenter de faire en sorte que l’IA se comporte “comme si” elle avait cette compréhension. 

Dans les cas les plus simples, une IA peut avoir une morale dite implicite. En général, cela signifie que cette IA a une tâche qui n’est pas explicitement morale, mais que ses erreurs nuisent à des êtres humains. Par exemple, une voiture autonome conduit : ce n’est pas une tâche morale, mais une erreur de conduite peut mener à une collision fatale. Une IA médicale pose un diagnostic : ce n’est pas une tâche morale, mais une erreur de diagnostic peut avoir des conséquences graves. Dans ce type de cas, la morale de l’IA est essentiellement liée à sa performance. 

Pour compliquer un peu les choses, la morale d’une telle IA n’est pas seulement liée à son taux d’erreur, mais aussi à la distribution de ces erreurs. Pour évaluer la morale d’une IA médicale, nous devons évaluer son taux de faux diagnostics, mais aussi vérifier si ce taux est le même pour les hommes et pour les femmes. Pour évaluer la morale d’une IA judiciaire, nous devons évaluer son taux d’erreur; vérifier que ce taux d’erreur est le même, par exemple, pour les prévenus blancs et noirs; et si c’est bien le cas, vérifier encore que le type d’erreur est aussi le même. Si par exemple nous observons un taux d’erreur de 5% pour les prévenus blancs, et de 5% pour les prévenus noirs, il serait tout de même immoral que les erreurs soient favorables aux prévenus blancs (ils sont libérés par erreur), mais défavorables aux prévenus noirs (ils sont emprisonnés par erreur). 

Arbitrer entre plusieurs valeurs 

Dans des cas plus difficiles, une IA peut avoir à arbitrer explicitement entre plusieurs valeurs. Par exemple, une IA de surveillance des réseaux sociaux pourrait avoir à arbitrer entre la liberté d’expression et la volonté de ne pas autoriser les discours de haine. Dans d’autres cas, une IA peut avoir à prendre une décision qui fait nécessairement des perdants ou des victimes. Ainsi, une voiture autonome pourrait se trouver dans une situation où bien qu’une collision soit inévitable, elle a encore la possibilité de choisir les victimes de la collision, par exemple en sacrifiant son passager pour sauver un groupe de piétons. Dans ce genre de situation, on dit que l’IA a une morale explicite : elle doit être capable de faire un arbitrage ou de résoudre un dilemme moral. Mais cela ne signifie pas qu’elle doive comprendre la morale, au sens de faire une distinction entre le bien et le mal. Si nous programmons les voitures autonomes pour sauver le plus grand nombre de vies humaines en cas de collision inévitable, nous les dotons d’une règle pour résoudre les dilemmes moraux, mais nous ne les dotons pas de la compréhension qu’il est “bon” de sauver le plus de vies possibles, même s’il est “mal” de sacrifier quelqu’un pour cela. 

Pour résumer, nous n’avons pour l’instant aucun moyen d’établir qu’une IA possède la compréhension du bien et du mal, mais nous n’avons pas non plus une urgence réelle à les doter de cette compréhension. Notre défi le plus urgent est de faire des IA qui existent déjà des IA morales, au sens où elles agissent “comme si” elles avaient la compréhension du bien et du mal. Ce chantier est important, et nous devons faire de notre mieux pour ne pas en être distraits par des scénarios dystopiques, certes inquiétants, mais dont les victimes sont pour l’instant imaginaires.

Article paru dans L'Opinion le 31 juillet 2023

Photo d'illustration de Julien Tromeur sur Unsplash