T-DASHで生成AI(Gemini 2.0 Flash)を使ったAndroidアプリの自動テストに関する記事です。
Qiita Advent Calendar 2024 【今年もT-DASHを使ってみた! by T-DASH Advent Calendar 2024】の14日目の記事になります。
T-DASHを用いたユニークな取り組みとして、先日発表されたばかり、Googleの生成AI「Gemini 2.0 Flash」を統合したAndroidアプリの自動テスト方法を紹介します。これから生成AIを活用したアプリが増えていく中で生成AIの自動テストをモバイルアプリでどのように実現するのかは大きな課題ですよね?
この記事では、Gemini 2.0 Flashを活用した「サマリー生成アプリ」の環境構築から実行までの簡単な流れと、それをどのようにT-DASHに統合して自動テストを行うのかを知ることができます。
最終的にこちらのサンプルアプリとT-DASHを使って検証していきます。
この記事ではMacでT-DASHのモバイルアプリテスト機能が動作しない問題にぶち当たり、Wineでそれを実現しようとしています
T-DASHとは?
一言でいうとノーコードのテスト自動化ツールです。競合のツールとしてはMablやAutifyがあります。
T-DASHの特徴としては
日本語で書いたテストケースがスクリプトになる
というのが特徴となっています。この記事ではコストや機能で競合ツールと比較したわけではありませんが、月額4,840円というのはテスト自動化をノーコードで始めるにはお手軽な価格帯に設定されていると思います。
生成AIを自動テストする大変さ
生成AIの検証って大変ですよね?最大の課題は「期待結果を明確化しづらい」ことと「出力多様性への対処」です。通常の自動テストは、入力に対して定まった正解出力を前提とする事が多いですが、生成AIは同一の入力でも表現やニュアンスが微妙に変化します。
そのため、単純な文字列一致による判定は困難で、評価基準は曖昧になりやすいのが生成AIで出力された結果を利用するサービスの特徴です。また、自然さや正確性、表現の幅といった質的指標を厳密に定義し、すべての可能性をカバーすることは事実上不可能とも言えます。
結果として、テストケース設計や合格条件の設定が複雑化し、失敗時の原因究明も難航するのが生成AIにおける自動テストの課題だと言われています。対策としては、複数の模範回答や類似度スコアを用いた柔軟な評価、モデル出力自体ではなくユーザー体験全体を評価する手法などが挙げられます。これらの取り組みにより、生成AI特有の曖昧さと多様性に対応しつつ、実用的な品質保証を目指すことが可能になります。
今回利用するサンプル「サマリー作成アプリ」の評価
要約や翻訳などの類似度スコアを評価する指標として、ROUGEやBLEUスコアなどを用いる事が多いです。
ROUGE
- 要約評価で用いられるメトリクス、参照要約とのN-gram重複度や共通部分列の長さを評価基準とする
- 生成テキストが参照要約とどれだけ内容的に重なるかを測定しリコール寄りの指標
- 要約タスクで広く使われるが、言い換え表現への対応は限定的
BLEU
- 機械翻訳評価で用いられるメトリクス、N-gram単位の一致度を重視
- 複数の翻訳参照文と生成文のN-gram精度を幾何平均し、短い出力へのペナルティを導入
- 翻訳品質のベンチマーク指標として定番だが、表現の多様性評価には限界がある
しかし!
今回の記事はT-DASHの記事になるので、これらの生成AIアプリの挙動に関してはこれらのベンチマークスコアを用いて評価することはできません。また、テキストベースで評価出来るので、大量のバッチ処理などで検証すべき項目と言えるでしょう
生成AIアプリの生成以外の部分を検証
T-DASHはAppiumをベースに自動テストが行われているツールで、主にUIの挙動に関して評価を行うツールとなっているため、ルールベースでの品質チェックに向いていると言えます。多くのテスト自動化ツールは現時点でルールベースでの品質チェックに最適化されていますので、生成AIによりものづくりのやり方が変わっているので、数年のうちには生成AIに対応した機能も含めて自動でテストが行えるプラットフォームも出てくることでしょう(現時点で対応していない自動テストプラットフォームも今後は対応しないと業界で生き残れない可能性が高いです!
)
ルールベースの品質チェックでは、要約の内容自体に固定の正解を求めず、「X文字以内」「Y個の主要トピックを含む」といった形式的条件を定めることで、自動テストで生成結果を判定可能になります。UI面でも同様に、表示領域やレイアウト、フォント、アクセシビリティ、状態遷移、インタラクションなどの観点でルールを策定し、生成結果が変化しても一定の基準に従って検証が行える項目に的を絞るのが現状で実現できる自動テストの範囲になります。
例えば表示テキストが画面からはみ出さず、ローディング中はスピナーが表示される表示、生成完了後に正しくアクションボタンが有効化されるかといった点を自動チェックする事になります。また、スナップショットテストやビジュアルリグレッションテストにより、文字内容の変動に左右されず、UIの崩れや不正な状態遷移を検知することも可能です。これらのルールベースなテスト手法を組み合わせることで、要約品質や言語内容に依存せず、UIの一貫性や使いやすさを安定的に評価することができ、アプリとしての基本的な品質を網羅して検証することが可能となります。
T-DASHのセットアップしようとしたが動かない!
マニュアル通りにとりあえず、T-DASHのアプリをダウンロードしてインストールしましたが、どの画面を見てもモバイルアプリの機能がありません!!!
ドキュメントのキャプチャ
実際の挙動
設定を色々と見ても、モバイル関連のドキュメントを全て読んでも何もヒントを掴むことができませんでした。何度かインストールも試みましたが・・・。
T-DASHアプリのモバイルアプリ機能がmac上で動作しない原因
公式ドキュメントで調べても動作画面を見ても何もわからず公式に問い合わせようかと思ったときにふと「もしかして・・・」
4.4.000で間違いなくモバイルアプリのテスト自動化対応が入っていますが、よく見ると「WindowsでAndroidアプリケーションのみ対応」の文字!!!
Mac版のリリースノートを見ていると見事に撃沈・・・。Mac版のT-DASHはモバイルアプリのテスト自動化に対応していませんでした。
T-DASHはWebアプリとして動作して、UIはブラウザ上で操作するWebアプリとなっていたので、同じものがリリースされているものと勝手に勘違いしてたのが問題ですね・・・。
恐らくですが、Androidデバイスと接続する処理などの問題があり、簡単にMac対応ができなかったという状況だと思いますが残念です。ぜひMac版の対応をお待ちしています!(→ T-DASHの中の人)
T-DASHアプリをMac上で動かす手順
と、ここまできて諦めるのも悔しいので(記事もここまで書けていますので)WindowsアプリをMac上で動かすWineを使ってT-DASHが動作するか検証してみることにします。
Wineとは
元Windows使いでMacユーザーになった方の多くはWindows用アプリが使えなくて困ったという経験があると思います。これを実現する方法はいくつかあるのですが、Wineは歴史も長く、信頼性のあるツールで、Mac上で多くのWindowsアプリを動作させることが出来る便利な仕組みです。挙動的にはWindowsアプリをMac上で動作させると動きが微妙だったりはしますが、T-DASHだとどのような動きになるのでしょうか?
デバイスとの接続の問題等でMacに対応していないということでしたら、Wine上でも動かない可能性が高いのですが、一縷の望みを託してチャレンジしてみます。
Wineのインストール手順
https://www.embird.net/sw/embird/tutorial/wine/xquartz.htm
の手順に従ってXQuartzをインストール
https://www.embird.net/sw/embird/tutorial/wine/wine.htm
の手順に従ってWineをインストール
WineでT-DASHをインストールする手順
文字化けして不吉な予感しかしないですね。
規約も文字化けして読めていないですが同意して次に進めます。
これはなんと書いてあるのでしょうか
こちらはインストールパスの指定ですね
問題なく進行中
無事に完了しました
こちらが実行中の画面。
WineでT-DASHをインストールすることはできましたが、何も画面に変化はありませんでした。~/T-DASH
配下の設定情報がそのまま残っていたのが原因のようです。 ~/T-DASH
ディレクトリを削除してはじめからセットアップしようと試みました。
Wineで動作するT-DASHの初期セットアップ
QUINTEEアカウント認証を行おうとしたところ
端末IDが入りませんでした
以下のようなエラーがログに出ていたので、device_infoを正しく読み取ることができていないのが原因のようです。
残念ですが、2024年12月現在、T-DASHを利用したモバイルアプリの自動テストはmacからは実行出来ませんでした。.exe等のバイナリではなくDockerファイルなどとして提供されていればやりようはあった気がしますが、お手上げです。
まとめ
- macでモバイルアプリ自動テストは利用できない
- Wineで無理やり動かそうとしても動かない
- 検証せずに記事を書き始めると後戻りできない
記事には一切出てきていないけどサマリー生成アプリは結構面白い
T-DASHさん公式にmac対応お願いします
トライ
mac上でT-DASHをそのまま利用することが出来ないということが判明したので、次の記事では別の方法を使ってクラウド上でT-DASHを動かす方法を検証していきます。