レポートの概要
• LLM技術は急速に進化しており、 既存モデルの新バージョンや全く新しいモデルが導入されています。
• 複数のモデルが非常に類似したパフォーマンスを達成する接合点に達しています。
• 新たなパフォーマンス向上が確立されるまで、LLM選定において価格/パフォーマンスの比較が重要な要因となる
可能性があります。
レポート第二弾でのF1スコアの導入により、特定の保険利用ケースにおける大規模言語モデル(LLM)のパフォーマン
ス評価に関する報告の仕方を少し異なる視点で考えることができるようになりました。 この報告書には、その進化し
た考え方が反映されています。
私たちは、シナリオごとの集計F1スコアが、テスト対象のLLMが一般的な保険業界の利用ケースに対してどのようなパ
フォーマンスを発揮するか、またその展開に関連するコストがパフォーマンスと一致しているかを理解するために必要
なインサイトを提供できると信じています。このアプローチにより、各モデルが「単純なシナリオ」(テキストフィールドか
らの情報抽出、金額、日付など)に対してどのようにパフォーマンスを発揮するか、または「複雑なシナリオ」(複数のス
テップを含むタスクや、複雑なオブジェクトからの情報抽出を含むタスク)に対してどのようなパフォーマンスを発揮す
るかを理解しやすくなります。
レポート第二弾以降に市場に導入されたLLM技術の進展に基づき、私たちのデータサイエンスおよび研究チーム
は、GPT4o-Mini、Claude3.5 Sonnet、Mistral Large 2407、Llama3.1-405b、Llama3.1-70b、Llama3.1-8bの6つの新し
いLLMをテストに追加しました。Command rおよびCommand r+は評価から除外されました。