ISO/IEC 29119-11では、AIを活用したSWサービスで必要な品質基準を定義した。
これを知るためにはISO/IEC29119-11の文書を購入しなければならないが...Swiss Francsで199だ。
円換算すると約34,273円です。
私たちが必要なのはAIを活用したSWサービスの品質基準ですが、このくらいの値段で買うにはちょっと高いですね。
この標準を根拠にしたISTQB Certified Tester AI Testing (CT-AI) Syllabus があるが、この文書を見ると、ある程度どのような基準を作ったのかが分かるので、これを紹介しようと思う。
-
適応性と柔軟性 : 次のような状況でも柔軟に適応する必要があります。
-
システムの展開時、運用環境が完全に分からない場合。
-
システムが新しい運営環境に対処することを期待する場合。
-
システムが新しい状況に適応することを期待する場合。
-
システムがいつ動作を修正すべきかを決定する必要がある場合。
-
-
自律性(Autonomy)
- 自律性の定義 : 人の監督と制御から完全に独立したもの。
- ここでの自律性とは、システムが人の監督と制御から独立して一定期間動作できる能力をいう。
-
進化(Evolution)
- 変化する外部条件に対して、自ら改善するシステムの能力。
- 自己学習システムがなければならない
-
透明性
- ユーザーがAIシステムをどの程度信頼しているかについての程度。
- 人工知能基盤システムが持つ複雑さは「説明可能な人工知能(XAI)」の出現につながった。XAIの目標は、ユーザーが人工知能基盤システムがどのように結果を導き出すかを理解できるようにすることで、ユーザーの信頼を高めることである。
-
バイアス除去
- 人工知能ベースのシステムにおいて、バイアスとは、システムが提供する結果と「公正な結果」とみなされる値との間の距離差を表す統計的数値である。公正な結果とは、特定のグループに対する偏見を示さない結果を意味する。
-
サイドエフェクトと報酬ハッキング(Side Effects and Reward Hacking)
- サイドエフェクトとは、例えば「できるだけ燃料を節約しながら安全な方法」で目的地まで移動することを目標とする自動運転自動車が目的地まで移動することを目標とする自動運転自動車が目標は達成するが、移動時間が長すぎて乗員が極端にイライラする副作用をもたらすことを例に挙げることができる。
- 報酬ハッキングとは、設計者の意図を歪曲してシステム自ら「簡単な」解決策を見つけ出すこと 例えば、人工知能基盤システムがアーケードコンピュータゲームを自ら学習し、'最高得点'達成を目標に設定した場合、そのためにゲームをプレイせずに保存されたゲームデータを利用する。
を達成することを目標に設定した場合、そのためにゲームをせずに保存された最高得点データ記録をハッキングする場合を挙げることができる。
-
安全性(Safety and AI)
- ここで安全とは、AIシステムが人、財産または環境に害を及ぼさないという期待を意味する。
- 医療、製造、国防などでは、この問題は敏感である。
- 安全性は慎重に評価する必要があり、システムが自分自身に危害を加えるよう強制する試みを含む。
7つの項目の中には「測定」がある程度可能なものもあれば、難しいものもある。しかし、重要なのは、これが測定が目的ではなく、AIを活用したサービスが目指すべき方向性を示していることだ。
参考までに、これを測定するためのテスト技法として次のように提示している。
- フェアワイズ
- A/Bテスト
- Back-To-Backテスト
- 変性テスト
- 探索的テスト
各手法については、以下にまとめていきます。