Les erreurs de l'IA en test logiciel : les comprendre et les prévenir

AI Test

Bruno Legeard

Publié le 11.02.25

IA pour les tests logiciels : pour quoi faire ?
Typologie des erreurs de l’IA dans les tests
Feuille de route réaliste pour intégrer l'IA dans les activités de la QA

Les erreurs de l’IA générative sont bien connues, notamment dans notre usage des chatbots et assistants IA. Si bien que le terme « hallucination » est devenu populaire, et ce risque constitue un frein à l’adoption de l’IA dans les processus de travail : pourquoi faire confiance à un système qui se trompe ?
Dans cet article, nous allons au-delà du simple constat. Autrement dit, nous analysons les types d’erreurs spécifiques à l’usage de l’IA générative pour les tests, autrement dit, les erreurs de l’IA en test, en les illustrant par des exemples reproductibles. Cette compréhension nous aidera à mieux prévenir ces risques.

IA pour les tests logiciels : pour quoi faire ?

L’enquête IA 2024 publiée le 21 janvier 2025 par le CFTL – Comité Français des Tests Logiciels – nous donne une bonne image de la situation de la diffusion de l’IA générative pour les activités de test. Voici tout d’abord le classement des cas d’usage prioritaires de l’IA pour les tests établi par les répondants à l’enquête.

Tableau 1 – Cas d’usage prioritaires de l’IA pour les tests

Les 3 usages phares de l’IA en testing : sans surprise, l’IA s’impose là où elle apporte le plus de valeur !

Améliorer les bases de test : des User Stories et exigences de qualité sont essentielles pour tester efficacement. L’IA aide à les affiner.
Optimiser la conception des tests : bien tester devient une priorité, et l’IA accélère cette étape clé.
Automatiser l’exécution : l’un des plus gros points de friction ! L’IA apporte des solutions innovantes pour fluidifier l’automatisation.

🚀 L’IA transforme le testing… et ce n’est que le début !

Cette enquête nous éclaire aussi sur les motivations, c’est-à-dire les bénéfices attendus de l’intégration de l’IA dans les processus de test. Voici les résultats, avec là aussi un trio gagnant :

Figure 1 – Bénéfices attendus de l’IA pour les tests

Les attentes sont claires : gain de productivité, amélioration de la qualité des tests et déduction des délais.

Il est encore trop tôt pour savoir si ces attentes seront comblées, car les équipes QA commencent tout juste à intégrer l’IA générative. Mais une chose est sûre : pour obtenir les gains de productivité, de qualité et de délai espérés, il faut maîtriser ses erreurs. En effet, si les testeurs passent plus de temps à corriger les résultats de l’IA qu’à en tirer profit, ces bénéfices resteront hors de portée.

Typologie des erreurs de l’IA dans les tests

Cette mind map classe les erreurs de l’IA en test selon les usages de l’IA générative dans les activités de QA. Ils utilisent l’IA générative soit à travers des chatbots comme ChatGPT ou Gemini, soit via des applications intégrées aux outils de test. Dans les deux cas, un grand modèle de langage (Large Language Model) traite les données.
Pour explorer en profondeur l’IA appliquée aux tests, téléchargez notre eBook !

Figure 2 – Typologie des erreurs de l’IA en test

typologie des erreurs de l'IA lors des activités de test

Ainsi, nous avons analysé ces erreurs à partir des benchmarks et des articles publiés ces derniers mois. En étudiant leurs occurrences, nous avons pu classer ces risques d’erreurs selon leur fréquence.

Tableau 2 – Évaluation des occurrences des erreurs de l’IA générative sur différents cas d’usage à partir de l’analyse des benchmarks publiés

évolution des occurrences des erreurs de l'IA

Comme le montre le tableau, ces risques sont significatifs. Les erreurs factuelles et les hallucinations apparaissent en fin de liste, tandis que les erreurs de raisonnement et les oublis de contexte sont bien plus fréquents.

Pour maîtriser les erreurs de l’IA dans les tests logiciels, il faut adopter plusieurs approches. D’abord, anticiper les risques, puis évaluer leur impact sur les résultats des tests. Ensuite, détecter ces erreurs et affiner le prompting pour en limiter l’apparition.
Nous détaillons ci-après ces quatre leviers essentiels.

1 – Anticiper les erreurs de l’IA

Anticiper les erreurs de l’IA dans les tests logiciels passe tout d’abord, par une analyse précise de la tâche et des risques associés. Trois éléments clés doivent être évalués :

Clarté de la tâche : Une consigne ambiguë induit des erreurs. Il faut définir précisément les attentes et les critères de réussite.
Qualité des données : Une IA entraînée sur des données limitées ou biaisées produit des résultats incorrects. Un contexte riche est essentiel.
Complexité de la tâche : Plus le raisonnement est complexe, plus le risque d’erreur augmente. Ainsi, décomposer la tâche en étapes améliore la précision.

🔹 Exemple : Pour générer des cas de test couvrant plusieurs User Stories, l’IA doit en effet, s’appuyer sur des critères d’acceptation bien définis et une vision claire des exigences.

2 – Évaluer l’impact des erreurs sur les produits d’activités de test

Comprendre l’impact des erreurs de l’IA permet d’identifier les risques critiques. En effet, tout dépend du rôle attribué à l’IA :

Faible impact : Si l’IA assiste uniquement (ex. suggestions de questions), les erreurs restent limitées.
Impact critique : Si l’IA valide la couverture des tests, une erreur peut fragiliser l’application testée.

🔹 Objectif : Définir un cadre de validation pour éviter une adoption aveugle des résultats générés.

3 – Détecter les erreurs de l’IA

Identifier les erreurs de l’IA prévient les biais et incohérences. Plus précisément, on utilise trois méthodes éprouvées :

Revue humaine : Un expert analyse les résultats et ajuste les prompts.
Test dos à dos : Comparer plusieurs modèles LLM met en évidence les divergences.
Vérifications automatiques : Tester l’exécutabilité et la validité des scénarios.

Ces approches augmentent la fiabilité des tests automatisés tout en maintenant une supervision humaine.

4 – Optimiser les prompts pour réduire les erreurs

Affiner les prompts améliore la précision des résultats générés. Trois stratégies clés :

Ajout de contexte spécifique (RAG) pour intégrer des données précises et à jour.
Décomposition en étapes (prompt chaining) pour guider l’IA avec des vérifications intermédiaires.
Exemples concrets (few-shot prompting) pour renforcer la pertinence des réponses.

🔹 En combinant ces techniques, on améliore la fiabilité des tests et ainsi, on limite les erreurs.

Feuille de route réaliste pour intégrer l’IA dans les activités de la QA

Ce schéma illustre une feuille de route réaliste, étape par étape, pour intégrer l’IA générative dans le processus de test. Tout commence par la montée en compétence des testeurs, des test managers et de toutes les parties prenantes de la QA.

Apprenez en pratiquant ! Chez Smartesting, nous mettons l’IA générative au service des tests logiciels. Depuis début 2024, notre formation “Accélérer vos processus de test grâce à l’IA générative” a déjà conquis plus de 20 sessions, avec des participants ravis. Rejoignez-nous et maîtrisez l’IA pour vos tests !

🎥 Curieux des erreurs de l’IA ? Découvrez notre webinaire dédié et apprenez à mieux les comprendre et les éviter : Regardez maintenant ! 🚀

Références et sources bibliographiques pour le tableau des occurrences sur les erreurs de l’IA :

Kamoi, R., Das, S. S. S., Lou, R., Ahn, J. J., Zhao, Y., Lu, X., … & Zhang, R. (2024). Evaluating LLMs at Detecting Errors in LLM Responses. arXiv preprint arXiv:2404.03602. GitHub repository.
Lee, Y., Jeong, S., & Kim, J. (2024). Improving LLM Classification of Logical Errors by Integrating Error Relationship into Prompts. In Generative Intelligence and Intelligent Tutoring Systems (pp. 290–297). Springer. https://arxiv.org/abs/2404.19336.
Yin, Z., et al. (2024). From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities. https://arxiv.org/abs/2401.15071.
Tyen, G., Mansoor, H., Carbune, V., Chen, P., & Mak, T. (2024). LLMs Cannot Find Reasoning Errors, but Can Correct Them Given the Error Location. In Findings of the Association for Computational Linguistics: ACL 2024 (pp. 13894–13908). https://arxiv.org/abs/2311.08516.
Lechmazur (2025). LLM Deceptiveness and Gullibility Benchmark [Computer software]. GitHub. Retrieved January 26, 2025, from https://github.com/lechmazur/deception.
Tong, Y., Li, D., Wang, S., Wang, Y., Teng, F., & Shang, J. (2024). Can LLMs Learn from Previous Mistakes? Investigating LLMs’ Errors to Boost for Reasoning. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (pp. 3065–3080). https://doi.org/10.18653/v1/2024.acl-long.169.

Les résultats de l’enquête CFTL sont accessibles sur le site du CFTL – https://cftl.fr/wp-content/uploads/2025/01/CFTL-Enquete-IA-2024-