LoginSignup
1
0

プログラマーとしてGemini Proを使ってみて(APIを試す前) 結論:3番手かな

Last updated at Posted at 2023-12-16

APIなしで、Chatで質問してみた感じですと

結論から言うと、Codeium + GPT4(そのうち有料になる?)が1番・無料で使える間はGPT4-Turboが2番、Geminiは性能通りその次。でも解答例を作ってみたら、違った角度の意見で面白いね。

評価

Codeium

無料のCopilot系
ベースモデルの時は、いまいちですが、Wishlist登録したらGPT4が使えるようになったので試してみたら、とっても適切な答えが出てきた。

GPT4-Turbo

最新のコードに詳しかったり、GPT4より的確に答えてくれることもある。今は、とあるサービス経由で無料で使っている。普通にchatgpt api経由で呼びだしても、そこそこ低価格なので使うことはありそう。(この企業の評価が決まってないので名前はださない)

Gemini Pro

GPT3.5よりは高性能らしいけど、もうGPT3.5使ってないからな。
AlphaCode2の元になるぐらいのので、学習させれば適切な答えをだせるようになるみたいだ。

Visionもあるし、将来的な価格的も安いのでGemini APIで試してみたい。

解答例(ややコードとは関係ない質問ですが)

STT: Speech To Text という言葉があるのに、ASR: Automatic Speech Recognitionという呼び方が出来たのはなぜですか?

私の解答:技術の進化で、音声をテキストに変換するだけでなく、音声の中身まで理解するようになったから

Codeium/GPT4

STTとASRの違い

STT (Speech to Text)

  • テキスト変換プロセス: 話された言葉を書かれたテキストに変換するプロセスを指します。
  • 書き起こしに焦点: 音声記録の書き起こしやディクテーションツールなどでよく使用されます。

ASR (Automatic Speech Recognition)

  • 音声理解プロセス: 音声をテキストに変換するだけでなく、その意味を理解して適切な反応を生成するより包括的なプロセスを指します。
  • 応用範囲の拡大: 音声アシスタントや音声制御システムなど、音声データの意味を解釈するための技術進歩を反映しています。
  • 高度な技術要素: 音声認識の精度の向上、文脈の理解、話し手の意図認識など、より高度な認識機能を含んでいます。

ASRという用語の登場は、単純なテキスト変換を超えて、さまざまな応用のために話し言葉を深く処理し理解することを目指す技術の進化に関連しています。これが、より洗練された方法で音声を認識し反応するシステムを指すために、ASRという呼称が使われるようになった理由です。

GPT-4turbo

STTとASRの比較

STT (Speech To Text)

  • 定義: 音声言語を書かれたテキストに変換すること。
  • 焦点: 口述された言葉をテキストに転写することに主眼を置いています。
  • 使用例:
    • 字幕の生成
    • 音声コマンドのテキスト化
    • 音声対話のテキスト起こし

ASR (Automatic Speech Recognition)

  • 定義: 機械が音声を自動的に認識し理解する技術を総称する、より幅広い用語。
  • 焦点: テキスト転写を超えて、意味、文脈、話者の特徴など音声の複雑な側面を解析を含みます。
  • 使用例:
    • 音声の意味分析のための解釈
    • より強力な相互作用のための文脈認識
    • 話者識別と属性分析

用語の発展

  • 技術進歩: 音声認識技術が単なる転写を超えて音声の複雑な側面を理解するように進化したにつれて、ASRという用語がより重要になりました。
  • 幅広い応用: 音声による操作を中心としたデバイスやシステムが増えるにつれて、ASRはより強調される用語となっています。

結論

  • ASRはSTTの進化した形であり、音声認識技術のより複雑な能力を反映しています。
  • STTはASRの機能の一部と考えることができます。

Gemini Pro

STT と ASR の違いとは?

STTとは?

STT (Speech to Text) は、音声からテキストへの変換を意味する用語で、1950年代の音声認識技術の初期段階で使用されました。

STTは、音声認識技術のユーザーに好まれ、音声認識技術の機能をよりわかりやすく説明するために使用されます。

また、STTは、音声認識技術の製品名やサービス名に使用されることが多いです。

ASRとは?

ASR (Automatic Speech Recognition) は、音声自動認識を意味する用語で、音声認識技術が自動化されたことを強調しており、音声認識技術の開発者や研究者によって好まれる傾向があります。

ASRは、音声認識技術の開発者や研究者によって好まれ、音声認識技術の自動化された性質を強調するために使用されます。

まとめ

STTとASRはどちらも音声認識技術を指す用語ですが、STTはユーザーによって好まれる傾向がある一方で、ASRは開発者や研究者によって好まれる傾向があります。

Claude AIによる評価

Claude AIはコード書くには不向きですが、普通の文章を分析するのは得意で、なんでも答えてくれる親切なAIです。

Codeium/GPT4の解答はとても明確で理にかなっています。STTとASRの定義と違い、そしてASRという用語が登場した背景を詳しく説明しています。技術の進化と応用範囲の拡大がASRという呼称の登場につながったことが上手く示されています。

GPT-4turboの解答も同様にSTTとASRの違いを明確に定義づけています。用語の発展の経緯とASRがより複雑な音声認識能力を反映していることを適切に説明していると思います。

Gemini Proの解答は2つの用語の定義とユーザー層の違いに焦点を当てています。音声認識技術そのものよりも、用語が使用される文脈の違いを強調しているのがユニークです。

全体的に、3つの解答はそれぞれの角度からSTTとASRの違いを明確かつ適切に説明しており、高い評価に値する内容だと思います。特にCodeium/GPT4とGPT-4turboの技術面からの記述が秀逸だと感じました。
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0