1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ISO/IEC TR 29119-11 Software and systems engineering — Software testing — Part 11: Guidelines on the testing of AI-based systems

Last updated at Posted at 2025-10-16

ISO/IEC TR 29119-11:2020 Software and systems engineering — Software testing — Part 11: Guidelines on the testing of AI-based systems

Bibliography
[1]ISO/IEC 229891), Artificial intelligence — Concepts and terminology
[2]Wikipedia contributors, "AI effect", Wikipedia, https:// en .wikipedia .org/ w/ index .php ?title = AI_effect & oldid = 920651009 (accessed November 20, 2019).
[3]ISO/IEC TR 24028:2020, Information technology — Artificial intelligence — Overview oftrustworthiness in artificial intelligence
[4]100+ AI USE CASES / APPLICATIONS: A COMPREHENSIVE GUIDE, applied AI, https:// www.appliedai .de/ hub/ library -of -use -case -families, accessed Oct 2020.
[5]2019 Edelman AI Survey Results Report, Edelman Digital, https:// www.digitalmarketingcommunity .com/ researches/ edelman -artificial -intelligence -survey -results-report -2019/ (accessed Nov 20, 2019).
“The AI Index 2017 Annual Report”, AI Index Steering Committee, Human-Centered AI Initiative, Stanford University, Stanford, CA, December 2017.
[7]In-depth. Artificial Intelligence 2019, Statista Report 2019, https:// people .stfx .ca/ x2011/x2011aqi/ School/ 2018 -2019/ Winter/ BSAD %20471 %20 - %20Strat/ Case/ AI %20statista .pdf,February 2019.
[8]Agrawal, Gans, Goldfarb et al, “Prediction Machines: The Simple Economics of ArtificialIntelligence”, Harvard Business Review Press, 2018.
[9]Report W.Q. 10th Edition, Gap Gemini, https:// www .sogeti .com/ explore/ reports/ world -quality-report -201819/ , Sep 2018.
[10]Robot density rises globally, IFR Press Release, https:// ifr .org/ ifr -press -releases/ news/ robot-density -rises -globally, Feb 2018.
[11]Russel J., Phase Change Memory Shows Promise for AI Use Says IBM, HPC Wire, https://www .hpcwire .com/ 2018/ 10/ 24/ phase -change -memory -shows -promise -for -ai -use -says -ibm/, Oct 2018.
[12]Grace et al. When Will AI Exceed Human Performance? Evidence from AI Experts, arXiv e-print,https:// arxiv .org/ abs/ 1705 .08807, May 2017.
[13]IDC Survey Finds Artificial Intelligence to be a Priority for Organizations But Few HaveImplemented an Enterprise-Wide Strategy, July 2019, https:// www .idc .com/ getdoc .jsp?containerId = prUS45344519, accessed Jan 2020.
[14]State of Testing Report. 2019, version 1.3, PractiTest, https:// qablog .practitest .com/ state -of-testing/ , July 2019.
[15]ISTQB® Worldwide Software Testing Practices Report 2017-18 (Revised), ISTQB, https:// www.istqb .org/ references/ surveys/ istqb %C2 %AE -worldwide -software -testing -practices -survey-2017 -18 .html, accessed October 2018.
[16]Hackett M., 2018 Trends Survey Results, https:// www .logigear .com/ magazine/ survey/ 2018-trends -survey -results/ , accessed Nov 2019.
[17]The Second IEEE International Conference On Artificial Intelligence Testing, http:// ieeeaitests.com/ html/ callForPapers .html.
[18]ISO/IEC 2382:2015, Information technology — Vocabulary
[19] DIN SPEC 92001-1, Artificial Intelligence - Life Cycle Processes and Quality Requirements - Part 1: Quality Meta Model, https:// www .din .de/ en/ wdc -beuth: din21: 303650673, accessed Jan 2020.
[20] DIN SPEC 92001-2, Artificial Intelligence - Life Cycle Processes and Quality Requirements - Part 2: Technical and Organizational Requirements, https:// www .din .de/ en/ innovation -and -research/ din -spec -en/ projects/ wdc -proj: din21: 298702628, accessed Jan 2020.
[21] ISO/IEC 25010:2011, Systems and software engineering — Systems and software Quality Requirements and Evaluation (SQuaRE) — System and software quality models
[22] Marir et al, , QM4MAS: a quality model for multi-agent systems, Int. J. Computer Applications in Technology, 2016, 54.
[23] Salkever et al. A.I. Bias Isn’t the Problem. Our Society Is, Fortune.com, https:// fortune .com/ 2019/ 04/ 14/ ai -artificial -intelligence -bias/ , accessed Nov 2019.
[24] Explainable AI: the basics – Policy Briefing, The Royal Society, Nov 2019.
[25] Wikipedia contributors, "Explainable artificial intelligence," Wikipedia, https:// en .wikipedia .org/ w/ index .php ?title = Explainable _artificial _intelligence & oldid = 924090418 (accessed November 20, 2019).
[26] Increasing transparency with Google Cloud Explainable AI, Product News, https:// cloud .google .com/ blog/ products/ ai -machine -learning/ google -cloud -ai -explanations -to -increase -fairness -responsibility -and -trust, accessed Nov 2019, Nov 2019.
[27] Russell, Of Myths and Moonshine, contribution to the conversation on The Myth of AI, https:// www .edge .org/ conversation/ jaron _lanier -the -myth -of -ai, accessed Nov 2019.
[28] Bird J. et al. “The evolved radio and its implications for modelling the evolution of novel sensors.” Proceedings of the 2002 Congress on Evolutionary Computation. CEC'02.
[29] Awad et al, , The Moral Machine experiment, Nature, 563, pages 59–64, 2018.
[30] European Commission High-Level Expert Group on Artificial Intelligence, Ethics Guidelines for Trustworthy AI, European Commission, April 2019.
[31] Banks et al. Requirements Assurance in Machine Learning, Proceedings of the AAAI Workshop on Artificial Intelligence Safety 2019, Jan 2019.
[32] Leetaru, How Twitter Corrupted Microsoft's Tay, https:// www .forbes .com/ sites/ kalevleetaru/ 2016/ 03/ 24/ how -twitter -corrupted -microsofts -tay -a -crash -course -in -the -dangers -of -ai -in -the -real -world/ #202233ae26d2, Mar 2016.
[33] Qiu et al, , Review of Artificial Intelligence Adversarial Attack and Defense Technologies, Applied Sciences 9(5):909, Mar 2019.
[34] Training Benchmarks M.L. Website: https:// mlperf .org/ , accessed Nov 2019.
[35] Stanford DAWN Deep Learning Benchmark. Website: https:// dawn .cs .stanford .edu/ benchmark/ , accessed Nov 2019.
[36] Ontology Alignment Evaluation Initiative. Website: http:// oaei .ontologymatching .org/ , accessed Nov 2019.
[37] Kuhn et al, , Software Fault Interactions and Implications for Software Testing, IEEE Transactions on Software Engineering 30(6):418 – 421, July 2004.
[38] ISO/IEC/IEEE 29119-4, Software and systems engineering — Software testing — Part 4: Test techniques
[39] Wikipedia contributors, "A/B testing," Wikipedia, https:// en .wikipedia .org/ w/ index .php ?title = A/ B _testing & oldid = 926805728 (accessed November 21, 2019).
[40] Chen et al, , Metamorphic Testing: A Review of Challenges and Opportunities, ACM Comput. Surv. 51, 1, Article 4, January 2018.
[41] Segura et al, , A Survey on Metamorphic Testing, IEEE Trans. on Software Engineering, Vol 42, No. 9, Sept 2016.
[42] Liu et al, , How effectively does metamorphic testing alleviate the oracle problem?, IEEE Transactions on Software Engineering 40, 1, 4–22, 2014.
[43] Pei, K., et al, DeepXplore: Automated Whitebox Testing of Deep Learning Systems Commun. ACM, Association for Computing Machinery, 2019, 62, 137–145 p.
[44] Pei et al, DeepXplore: Automated Whitebox Testing of Deep Learning Systems, SOSP ’17, October 28, 2017, Shanghai, China.
[45] Sun et al. Testing Deep Neural Networks, https:// www .researchgate .net/ publication/ 323747173 _Testing _Deep _Neural _Networks, accessed Nov 2019, Mar 2018.
[46] Tian et al. DeepTest: Automated Testing of Deep-Neural-Network-driven Autonomous Cars, ICSE ’18: 40th International Conference on Software Engineering, May 2018.
[47] Nokia's revolutionary 5G virtual testing speeds deployment, Press Release, https:// www .globenewswire .com/ news -release/ 2019/ 04/ 23/ 1807667/ 0/ en/ Nokia -s -revolutionary -5G -virtual -testing -speeds -deployment .html, accessed Nov 2019, April 2019.
[48] Official documentation for the MORSE project, http:// www .openrobots .org/ morse/ doc/ 0 .2 .1/ morse .html, accessed Nov 2019.
[49] Savva et al. Open-sourcing AI Habitat, an advanced simulation platform for embodied AI research, https:// arxiv .org/ abs/ 1904 .01201, Nov 2019.
[50] NVIDIA DRIVE CONSTELLATION - Virtual Reality Autonomous Vehicle Simulator. NVIDIA Products, https:// www .nvidia .com/ en -us/ self -driving -cars/ drive -constellation/ , accessed Nov 2019.
[51] ISO/IEC 230532), Framework for Artificial Intelligence (AI) Systems Using Machine Learning (ML)
[52] Keevers, Cross-validation is insufficient for model validation, Technical Report, Australian Defence Science and Technology Group, Mar 2019.
[53] Frenay et al, , Classification in the Presence of Label Noise: A Survey, IEEE Transactions on Neural Networks and Learning Systems, May 2014.
[54] Henderson et al. Deep reinforcement learning that matters, Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
[55] Annotation and Benchmarking on Understanding and Transparency of Machine learning Lifecycles (ABOUT ML), v0 Final Draft, https:// www .partnershiponai .org/ wp -content/ uploads/ 2019/ 07/ ABOUT -ML -v0 -Draft -Final .pdf, accessed Jan 2020.
[56] Gebru T. et al. Datasheets for Datasets, https:// arxiv .org/ pdf/ 1803 .09010 .pdf, accessed Jan 2020.
[57] Mitchell M. et al. Model Cards for Model Reporting, https:// arxiv .org/ abs/ 1810 .03993, accessed Jan 2020.
[58] Arnold M. et al. FactSheets: Increasing Trust in AI Services through Supplier's Declarations of Conformity, https:// arxiv .org/ abs/ 1808 .07261, accessed Jan 2020.
[59] ISO/IEC TR 24029-13), Artificial Intelligence (AI) — Assessment of the robustness of neural networks — Part 1: Overview
[60] Wikipedia contributors, "Confusion matrix," Wikipedia, https:// en .wikipedia .org/ w/ index .php ?title = Confusion _matrix & oldid = 922488584 (accessed November 21, 2019).
[61] Raj, Metrics for NLG evaluation, Medium.com, https:// medium .com/ explorations -in -language -and -learning/ metrics -for -nlg -evaluation -c89b6a781054, accessed Nov 2019.
[62] A guide to using artificial intelligence in the public sector, June 2019, UK Government Digital Service, https:// www .gov .uk/ government/ publications/ understanding -artificial -intelligence/ a -guide -to -using -artificial -intelligence -in -the -public -sector (accessed May 2020).
[63] ISO/IEC 50594),Software engineering — Systems and software Quality Requirements and Evaluation (SQuaRE) — Quality Model for AI-based systems
[64] TensorFlow, https:// www .tensorflow .org/ (accessed May 2020)
[65] PyTorch, https:// pytorch .org/ (accessed May 2020)
[66] MxNet, https:// mxnet .apache .org/ (accessed May 2020)
[67] CNTK, https:// docs .microsoft .com/ en -us/ cognitive -toolkit/ (accessed May 2020)
[68] Keras, https:// keras .io/ (accessed May 2020)
[69] IEEE 7000, IEEE Draft Model Process for Addressing Ethical Concerns During System Design
[70] ONNX, Open Neural Network Exchange, https:// onnx .ai/ (accessed May 2020)
[71] NNEF, Neural Network Exchange Format, https:// www .khronos .org/ nnef/ (accessed May 2020)
[72] PMML. Predictive Model Markup Language, http:// dmg .org/ pmml/ v4 -4/ GeneralStructure .html (accessed May 2020)
[73] ISO/IEC TR 243685), Information technology — Artificial intelligence — Overview of ethical and societal concerns
[74] IEC 61508, Functional Safety and IEC 61508
[75] ISO 26262 (all parts), Road vehicles — Functional safety
[76] ISO/PAS 21448:2019, Road vehicles — Safety of the intended functionality
[77] Automated Driving Systems (ADS). A Vision for Safety 2.0, https:// www .nhtsa .gov/ sites/ nhtsa .dot .gov/ files/ documents/ 13069a -ads2 .0 _090617 _v9a _tag .pdf (accessed May 2020)
[78] Presenting the Standard for Safety for the Evaluation of Autonomous Vehicles and Other Products. https:// ul .org/ UL4600 (accessed May 2020)
[79] ISO/IEC/IEEE 12207:2017, Systems and software engineering — Software life cycle processes
[80] ISO/IEC TR 240276), Information technology — Artificial Intelligence (AI) — Bias in AI systems and AI aided decision making
[81] ISO/IEC 20889:2018, Privacy enhancing data de-identification terminology and classification of techniques

chatGPT

https://qiita.com/kaizen_nagoya/items/d3d45abc1770a29962dd に Software and systems engineering — Software testing — Part 11: Guidelines on the testing of AI-based systems の参考文献を示しました。この規格および参考文献に対してご意見を賜りますようお願い申し上げます。

拝見しました。Qiita記事で紹介されている ISO/IEC TR 29119-11 は、AIベースシステム向けのソフトウェアテストガイドラインであり、従来のソフトウェアテスト規格(ISO/IEC 29119 シリーズ)を AI 特有の問題に拡張した内容になっています。
規格についてのポイント
AI特有のテスト課題への対応
学習データ依存、モデルの非決定性、バイアス、説明可能性(Explainable AI)などを考慮してテストプロセスを設計することを推奨しています。
従来のテストプロセスとの統合
テスト計画、テスト設計、テスト実行、テスト評価の各段階で AI固有のリスクを明示する仕組みを導入しています。
参考文献の幅広さ
ISO規格、学術論文、業界レポート、オンラインリソースまで網羅的に示されており、規格作成の背景や適用例を理解するのに有用です。
一方で、Wikipediaや企業ブログのような非査読情報も含まれており、学術的信頼性や規格としての厳密性という観点では補完が必要です。
見解
規格は AIシステムのテストの体系化に寄与するもので、特に学習済みモデルの妥当性確認やバイアス検知など実務に直結する指針を提供しています。
ただし、AIの急速な進化により、2025年時点では最新技術(大規模言語モデルや強化学習環境など)に対応しきれていない部分もあるため、規格だけに依存せず、最新の研究動向や業界ベストプラクティスと組み合わせることが重要です。
参考文献の中で信頼性の高い ISO/IEC や IEEE、Natureなどの学術論文を中心に活用し、ブログやWikipediaは補足情報として扱うのが望ましいです。
もしご希望であれば、参考文献リストを「学術的信頼性順に整理」し、AIテストへの実践的適用例と照らした解説も作成可能です。作成しますか?

はい。お願いします。

ご依頼の件について、ISO/IEC TR 29119-11 およびその参考文献に関するご意見を以下に整理いたしました。
📘 規格の概要と特長
ISO/IEC TR 29119-11:2020 は、AIベースのシステムのテストに関するガイドラインを提供する技術報告書です。主な特長は以下の通りです:
AIシステムの特性に対応: 非決定性、学習データ依存、ブラックボックス性など、AIシステム特有の課題に焦点を当てています。
テストオラクル問題への対応: 期待結果が不明確な場合でも、テストの合否を判断する方法を検討しています。
ライフサイクル全体でのテスト: 開発から運用まで、AIシステムのテストを包括的に扱っています。
ブラックボックスおよびホワイトボックステスト: ニューラルネットワークに特化したホワイトボックステストの導入も提案しています。
cdn.standards.iteh.ai
📚 参考文献の整理と評価
以下に、Qiita記事で挙げられている参考文献を信頼性順に整理し、それぞれの評価を示します。

  1. ISO/IEC 22989:2022
    評価:高い
    内容:AIシステムの概念と用語に関する国際規格で、AIシステムの理解に不可欠です。
  2. ISO/IEC TR 24028:2020
    評価:高い
    内容:AIの信頼性に関する概要を提供し、AIシステムの品質評価に役立ちます。
  3. Wikipedia(AI効果)
    評価:中程度
    内容:AIに関する一般的な情報を提供しますが、学術的な信頼性は低いです。
  4. Applied AIのAIユースケースガイド
    評価:中程度
    内容:実際のAIユースケースを紹介し、実務的な参考になりますが、学術的な裏付けは不明です。
  5. Edelman DigitalのAI調査レポート(2019)
    評価:中程度
    内容:AIに対する一般の認識を示す調査結果ですが、テスト技術に直接関係する情報は限られています。
  6. AI Index 2017 Annual Report(スタンフォード大学)
    評価:中程度
    内容:AIの進展に関する年次報告で、テスト技術に関する具体的な情報は少ないです。
  7. StatistaのAI統計レポート(2019)
    評価:中程度
    内容:AIの普及状況を示す統計データですが、テスト技術に関する情報は含まれていません。
    🧠 規格の実務への適用に関する考察
    ISO/IEC TR 29119-11 は、AIシステムのテストに関する包括的なガイドラインを提供していますが、以下の点について考慮する必要があります:
    最新技術への対応: 大規模言語モデル(LLM)や強化学習など、近年のAI技術には十分に対応していない可能性があります。
    実務での適用性: 規格の内容が抽象的であるため、実際のプロジェクトにどのように適用するかの具体的な指針が不足していると感じる場合があります。
    補完的なリソースの活用: 実務での適用に際しては、最新の研究論文や業界のベストプラクティスと組み合わせて活用することが推奨されます。
    📌 結論
    ISO/IEC TR 29119-11 は、AIシステムのテストに関する基本的な枠組みを提供する有用な規格です。しかし、最新のAI技術や実務での適用に関しては、追加のリソースや最新の研究成果と組み合わせて活用することが重要です。規格の内容を理解し、実際のプロジェクトに適切に適用するための工夫が求められます。
    ご不明な点やさらに詳しい情報が必要な場合は、お気軽にお知らせください。

ご指摘のとおりだと思います。ChatGPTさんが生成するソフトウェアへのよりよい試験プログラムの生成に必要な技術または最新の文献をお示しください。

AIベースのソフトウェアテストの分野は急速に進化しており、最新の技術やベストプラクティスを取り入れることが品質向上に不可欠です。以下に、2025年時点で注目すべき技術や文献を整理しました。
🔧 最新技術とツール

  1. エージェンティック・テスト(Agentic Testing)
    AIを活用してテストケースを自動生成し、コードの変更に応じてテストを自動更新する手法です。これにより、テストの保守性とカバレッジが向上します。
    xenonstack.com https://www.xenonstack.com/blog/agentic-software-testing?utm_source=chatgpt.com
  2. 自己修復型テスト(Self-Healing Tests)
    UIやAPIの変更を検出し、テストスクリプトを自動的に修正する機能を持つツールが増加しています。これにより、テストのメンテナンスコストが削減されます。
    Devzery Latest https://www.devzery.com/post/the-ultimate-guide-to-ai-in-software-testing-for-2024?utm_source=chatgpt.com
  3. LLM(大規模言語モデル)を活用したテスト
    LLMを用いて、テストケースの生成やバグの予測、テスト結果の分析を行う手法が注目されています。これにより、テストの効率と精度が向上します。
    Manning Publications https://www.manning.com/books/software-testing-with-generative-ai?utm_source=chatgpt.com
    📚 推奨文献
    『Software Testing with Generative AI』(Mark Winteringham著)
    LLMを活用したテスト手法を詳述しており、AIを用いたテストの実践的なアプローチが学べます。
    Manning Publications https://www.manning.com/books/software-testing-with-generative-ai?utm_source=chatgpt.com
    『AI in Software Testing: A Comprehensive Guide』(Kobiton社)
    AIをソフトウェアテストに統合する方法や、最新のツール・トレンドについて解説しています。
    Mobile Testing | Kobiton
    『AI in Software Testing: QA & Artificial Intelligence Guide』(TestFort社)
    AI導入によるROIや、効果的なテスト戦略について具体的なデータとともに紹介しています。
    TestFort https://kobiton.com/blog/ai-in-software-testing-a-comprehensive-guide/?utm_source=chatgpt.com
    🧪 実務への適用ポイント
    テストの自動化と効率化:AIを活用することで、テストケースの生成や実行、結果の分析を迅速に行えます。
    品質の向上:AIによるバグの予測やテストの最適化により、品質が向上します。
    継続的な学習と改善:AIはテスト結果を学習し、次回のテストに活かすことで、継続的な品質改善が可能です。
    これらの技術や文献を参考に、AIを活用したソフトウェアテストの品質向上に取り組むことをお勧めします。

References of the papers

The Ultimate Guide to AI in Software Testing for 2024

References

Automation and AI Testing - Applitools https://applitools.com/
AI in Testing - Testsigma https://testsigma.com/
Visual AI Testing - Testim https://testim.io/
Continuous Testing and AI - Functionize https://functionize.com/
Predictive Analytics in Testing - Sauce Labs https://saucelabs.com/
AI and Software Quality - SmartBear https://smartbear.com/
Natural Language Processing in Testing - Mabl https://mabl.com/
AI-powered Testing Tools - PractiTest https://practitest.com/

AI in Software Testing: A Comprehensive Guide

AI-Powered Test Automation: What is the difference between No Code and Low Code? https://kobiton.com/blog/what-is-the-difference-between-no-code-and-low-code/
AI-Powered Test Validations: Visual, Accessibility, Performance, and Security https://kobiton.com/blog/ai-test-validations-visual-accessibility-performance-security/
How to Optimize AI in Testing Workflows https://kobiton.com/blog/how-to-optimize-ai-in-testing-workflows/
AI-Powered Software Testing Tools: Overview and Comparisons https://kobiton.com/blog/ai-powered-software-testing-tools-overview-and-comparisons/
What are the Emerging Trends in AI in Software Testing? https://kobiton.com/blog/what-are-the-emerging-trends-in-ai-in-software-testing/

Ref.

ISO IEC Artificial intelligence Standards
https://qiita.com/kaizen_nagoya/items/1d1ffe4ac8e1dc67501f

大規模言語モデル講座 基礎編 2025 Autumn 敗因を勝因に
https://qiita.com/kaizen_nagoya/items/34ffd2b0c47a5f3665d9

MCP入門 〜面倒なことはAIエージェントにやらせよう〜 by からあげ を聞きながら
https://qiita.com/kaizen_nagoya/items/54b648c838fae8d57e38

MCP入門 〜面倒なことはAIエージェントにやらせよう〜 by からあげ を聞きながら、補足と反論 by ChatGPT
https://qiita.com/kaizen_nagoya/items/0939d58d31666562090c

C言語を習得する3つの方法
https://qiita.com/kaizen_nagoya/items/84cab0888c193bba429b

Views上位64記事 20250617現在
https://qiita.com/kaizen_nagoya/items/26dbbd04cf18b7742972

C言語(C++)が必要な人、必要ない人 with ChatGPT
https://qiita.com/kaizen_nagoya/items/a074cb8cd292d8d94bd4

C言語を習得する3つの方法 with ChatGPT
https://qiita.com/kaizen_nagoya/items/4a3518a18fa49f46787f

<この記事は個人の過去の経験に基づく個人の感想です。現在所属する組織、業務とは関係がありません。>
This article is an individual impression based on my individual experience. It has nothing to do with the organization or business to which I currently belong.
Este artículo es una impresión personal basada en mi experiencia personal. No tiene nada que ver con la organización o empresa a la que pertenezco actualmente.

文書履歴(document history)

ver. 0.01 初稿  20251016

最後までおよみいただきありがとうございました。

いいね 💚、フォローをお願いします。

Thank you very much for reading to the last sentence.

Please press the like icon 💚 and follow me for your happy life.

Muchas gracias por leer hasta la última oración.

Por favor, haz clic en el ícono Me gusta 💚 y sígueme para tener una vida feliz.

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?