Blog

Duel chimique : l'homme contre la machine

Duel de chimie LabV : l'homme contre la machine

L'homme contre la machine : qui gagne dans le laboratoire de chimie ?

L'intelligence artificielle (IA) mise à l'épreuve : A nouvelle étude de l'Université Friedrich-Schiller d'Iéna, qui dans Chimie de la nature a été publié, met en lumière les performances des modèles de langage moderne en chimie. Sous la direction du Dr Kevin M. Jablonka, des chercheurs ont étudié la puissance réelle des modèles de langage moderne tels que le GPT-4 en chimie. Le résultat ? Dans de nombreux cas, les machines sont plus rapides et plus précises que les experts humains, mais elles présentent également de dangereuses faiblesses. L'étude a récemment été publiée dans Nature Chemistry.

Dans un communiqué de presse, le Dr Kevin Jablonka explique, responsable du groupe de recherche junior de la Fondation Carl Zeiss à l'université Friedrich Schiller d'Iéna : « Les possibilités de l'intelligence artificielle dans le domaine de la chimie suscitent un intérêt croissant. Nous voulions donc savoir dans quelle mesure ces modèles sont réellement performants. »

Le cadre : 2 700 questions, 19 chimistes, 1 IA

L'étude se concentre sur le nouveau système de référence ChemBench développé par l'équipe de recherche d'Iéna. Il comprend plus de 2 700 tâches dans presque tous les domaines de la chimie : organique, inorganique, analytique, physique et technique. Les questions vont des connaissances scolaires au matériel pédagogique universitaire en passant par les analyses structurelles complexes.

Une équipe de chercheurs a comparé 19 chimistes expérimentés à des modèles d'IA modernes. Certaines personnes étaient autorisées à utiliser des outils, mais pas les modèles d'IA. Résultat : dans de nombreux cas, les meilleurs modèles ont fourni des réponses plus correctes que les meilleures personnes.

« Les modèles ont donc pu tirer leurs connaissances exclusivement de l'entraînement avec les données existantes », explique Jablonka.
A pen and a period system

Entre génie et erreur : là où l'IA est convaincante et là où elle ne l'est pas

Les modèles ont obtenu des résultats impressionnants dans de nombreuses questions de connaissances classiques. En particulier lorsqu'il s'agissait de devoirs tirés de manuels scolaires ou de questions réglementaires, ils ont impressionné par leur rapidité et leur précision, souvent même plus que les experts humains. Lors d'un test de régulation chimique, le GPT-4 a obtenu un taux de réussite de 71 %, alors que les chimistes expérimentés n'ont obtenu que 3 %. Les modèles d'IA pourraient donc jouer un rôle important en tant que systèmes d'assistance dans l'évaluation de la sécurité à l'avenir, par exemple lors de la comparaison de substances avec des exigences réglementaires.

Les modèles ont eu des difficultés à prédire les spectres de RMN et les isomères en particulier, et ont donné des réponses sûres mais incorrectes. En particulier pour les spectres RMN, il était clair que les modèles fournissaient des résultats erronés avec une grande conviction.

« Un modèle qui fournit des réponses erronées avec un haut niveau de conviction peut entraîner des problèmes dans des domaines de recherche sensibles », prévient Jablonka.
Dr Kevin Jablonka Profilfoto
Source : Université d'Iéna

Le calcul des nombres d'isomères montre également une faiblesse typique des modèles : bien qu'ils puissent saisir des formules cumulatives, ils ont du mal à identifier toutes les variantes structurelles imaginables. Afin de déterminer correctement le nombre d'isomères possibles, ils devraient pénétrer les liaisons chimiques et les arrangements spatiaux, ce qui a été réalisé jusqu'à présent principalement grâce à l'expérience et à la réflexion structurelle. La combinaison d'une sécurité apparente et d'un manque de compréhension structurelle montre clairement pourquoi de telles tâches constituent un défi particulier pour l'IA.

Il n'est donc pas étonnant que les modèles aient jusqu'à présent donné des résultats à peine meilleurs qu'un générateur de nombres aléatoires pour des tâches telles que le développement de médicaments ou les analyses rétrosynthétiques, pour lesquelles l'intuition chimique est cruciale. Cet écart met en évidence une faiblesse des approches d'évaluation actuelles : le succès de l'IA avec des questions standardisées peut en dire plus sur la nature des questions que sur la compréhension réelle de la chimie. Un modèle peut représenter correctement de nombreux faits, mais la véritable pensée chimique, qui interprète les structures, examine les mécanismes et développe des voies de synthèse créatives, reste difficile.

Ce que ChemBench signifie pour l'enseignement et le travail quotidien en laboratoire

L'une des principales conclusions de l'étude concerne l'enseignement : si les modèles linguistiques sont capables de résoudre les questions d'examen plus rapidement et mieux que les étudiants, le système éducatif doit changer. À l'avenir, il s'agira moins de mémorisation que de pensée critique, d'évaluation de l'incertitude et de résolution créative de problèmes chimiques. Le fait que les modèles soient plus performants ne signifie pas nécessairement qu'ils « pensent » chimiquement, mais cela nous montre que nous devons repenser les critères d'enseignement et d'évaluation.

Dans le même temps, ChemBench montre à quel point il est important de développer des normes d'évaluation plus larges et plus approfondies pour l'IA. En effet, les performances du modèle fluctuent de manière significative en fonction du domaine chimique et de la question à traiter, ce qui a un impact direct sur son applicabilité pratique. Les tests précédents se sont souvent concentrés sur des tâches dites de « prédiction des propriétés », c'est-à-dire la prédiction de propriétés simples des matériaux telles que le point de fusion ou la solubilité.

Labor-Flaschen und Periodensystem

Mais ces tâches sont insuffisantes si les modèles d'IA doivent non seulement servir d'aide au calcul à l'avenir, mais aussi travailler avec des experts et préparer de véritables décisions. Cela nécessite également de meilleures interfaces permettant aux humains et aux machines de communiquer de manière fiable, c'est-à-dire des interfaces conviviales telles que LabV, qui présentent les résultats de manière compréhensible et permettent de poser des questions. Les auteurs soulignent que les benchmarks tels que ChemBench ne sont qu'une première étape : des systèmes conviviaux sont nécessaires dans lesquels l'IA non seulement fournit des réponses, mais rend également visibles les incertitudes.

Un aperçu du futur : qu'est-ce qui va se passer après ChemBench ?

L'étude montre clairement que l'IA est capable de résoudre certaines tâches chimiques plus rapidement et de manière plus fiable que les humains, mais sa capacité à effectuer des analyses structurelles et intuitives reste limitée. La prochaine étape est donc le développement de systèmes d'agents intelligents capables de gérer non seulement du texte, mais également des formules chimiques, des structures moléculaires et des données de test, c'est-à-dire avec des types d'informations très différents qui jouent un rôle dans la vie quotidienne des laboratoires.

Au début du développement des matériaux, ces systèmes pourraient comparer les paramètres expérimentaux avec les données de la littérature, suggérer des voies de synthèse alternatives ou interagir directement avec les systèmes d'automatisation des laboratoires. Cela signifierait que l'IA fonctionnerait non seulement comme une réserve de connaissances, mais également comme un partenaire de recherche actif, susceptible de lancer des processus d'innovation complètement nouveaux.

« Le véritable défi sera de développer des modèles qui non seulement répondent correctement, mais qui évaluent également quand ils peuvent être erronés », indique l'étude.

L'intelligence de l'homme, de la machine et des matériaux : les avantages de l'IA pour la chimie

L'étude de ChemBench montre clairement que l'intelligence artificielle peut compléter l'expertise, mais qu'elle nécessite un contexte, un contrôle et une classification critique. C'est exactement là qu'interviennent des plateformes telles que LabV. En tant que plateforme d'intelligence matérielle, le LabV n'a pas pour objectif de remplacer les personnes, mais soutient les processus de prise de décision grâce à une intégration transparente des données, des analyses compréhensibles et des interfaces claires. Une approche hybride combinant les forces des deux parties, à savoir l'intuition humaine et l'efficacité de la machine, est essentielle. Et à l'avenir, il décidera si l'IA devient un outil ou une boîte noire dans le laboratoire.

Conclusion : l'avenir est hybride

ChemBench montre les progrès réalisés par l'IA dans le domaine de la chimie et les domaines dans lesquels elle ne parvient pas à comprendre. L'étude est un signal d'alarme : toute personne qui utilise l'IA en laboratoire doit la comprendre, la contrôler et l'utiliser correctement. Elle peut alors être une partenaire imbattable. « Nos recherches montrent que l'IA peut apporter un ajout important à l'expertise humaine, non pas comme un substitut, mais comme un outil précieux qui soutient le travail », résume Kevin Jablonka. « Notre étude jette ainsi les bases d'une coopération plus étroite entre l'IA et l'expertise humaine en chimie. »

« Bien que les systèmes actuels soient encore loin de penser comme un chimiste, ChemBench peut être une pierre angulaire sur la voie à suivre », commente Nature Chemistry le communiqué. AI a réussi, mais elle est encore loin d'obtenir un doctorat.