Skip to content
JA 

SHARE:

ソロモン・フィリップはシフトテクノロジーでマーケット・インテリジェンス部門を統括しています。

今年初め、ChatGPTは人工知能の世界に旋風を巻き起こしました。突然、誰もがこのエキサイティングな新技術を実験し、実際に利用することを通じて、それが何なのかを正確に理解しようとしました。この間、ChatGPTは生成AIとそれを支える大規模言語モデル(LLM)という大きなカテゴリーとほぼ同義語になりました。ChatGPTの導入は、インターネットが発見されて以来、最大の技術的変曲点の一つであると評価する識者もいます。

しかし、ChatGPTは非常に有望であり、幅広い応用が可能であるにもかかわらず、はるかに広範囲な生成AIの広がりの中のほんの小さな入口に過ぎないことを忘れてはなりません。重要なことは、特に企業における生成AIの利用はまだ比較的新しいということです。テクノロジー・スタックに生成AIを組み込もうとしている保険会社は、単独で行わないことをお勧めします。このような組織は、大規模なAI製品の構築だけでなく、LLMやそれを最大限に活用する方法に精通したAIプロバイダーが提供する領域と専門知識から恩恵を受けるでしょう。

では、保険業界はどのようにして落とし穴を避けながら、生成AIのメリットを最大限に活用できるのでしょうか。

 それはデータから始まる

LLMが非常に興味深い(そして強力な)理由のひとつは、ウィキペディア、オンラインジャーナル、一般的な教科書、Redditなどのインターネットフォーラムなど、主に公開されているソースから得られる膨大な量のデータですでに学習していることです。何十億もの単語からなるこれらのデータセットは、こうした大規模な言語モデルに、適切なプロンプトがあれば、すぐに多くのタスクを実行する能力を与えることができます。同時に、特定のビジネス・ユースケース、特に保険に生成AIを適用する場合、この超能力は弱点になるかもしれません。

というのは、このようなLLMは、一般的に入手可能なデータ・ソースを用いて訓練を受けているため、あなたのビジネスはもちろんのこと、業界のニュアンスや複雑さに対応するために必要な保険特有のデータやケースバイケースのデータは、単純に存在しないためです。また、既成概念にとらわれないLLMが、貴社の保険契約や保険金請求についてトレーニングを受けている可能性は極めて低いと言えます。保険に特化したデータのトレーニングを受けていないLLMモデルが、このような環境で真に効果を発揮するには、多様な保険金請求、保険契約、業務データセットにアクセスし、十分に開発されたデータモデルを使用する必要があります。

さらに、社内のデータの多くは、これらのモデルのトレーニングに使用されるものとは異なるフォーマットで提供されます。以前、LLMが主に書籍、百科事典、インターネット・フォーラムなどの自然言語テキストでトレーニングされていることを説明しました。これは、保険会社のデータが保険金請求管理システムからの構造化データであったり、報告書、請求書、見積書などの文書形式の半構造化データであったりするのとは対照的です。これらのソースにも多くの自然言語が含まれていますが、その意味は構造化された方法によって精度が高まります。例えば、情報はしばしば請求書の表のような2次元構造になっています。これらの大規模な言語モデルは1次元のデータでしか動作しないため、これらのデータソースをうまく取り込むためには、何らかの適応を行う必要があります。保険会社は、保険会社固有のデータを、これらのLLMが学習した、より自然な言語形式にする方法を見つける必要があります。例えば、文書の表は、モデルに渡す前にCSV形式に変換する必要があります。人工知能の活用に長けた先進的なAIプロバイダーは、こうした技術をすでに開発し、配備の準備が整っています。

 保険業界のコンテキストの提供

生成AIを採用する保険会社は、モデルのコンテキストの長さに関連する制限とも戦わなければなりません。LLMは1つの問題に対して何十億語もの単語を学習してますが、一般的に数千語の「完全なメモリ」しか持っておらず、それ以降は性能が大幅に低下します。このメモリはLLMの学習時にアーキテクチャで指定されるため、ユーザーの都合で単純に拡張することはできません。数千ワードというと相当な量に思えるかもしれませんが、典型的な保険契約文書は、しばしばフォントサイズ8かそれ以下で書かれており、1ページあたりすでに1000~2000ワードが含まれていることを忘れてはなりません。他の関連文書(請求書、診断書、医師の診断書、手紙、通信文など)のテキストもすべて含める必要があるとします。その場合、モデルのメモリはすぐにいっぱいになってしまいます。さらに複雑なのは、文脈の長さをプロンプトだけでなくレスポンスにも使わなければならないことであります。多くの場合、この2つを合わせると、あっという間に何千ものトークンが蓄積されます。

この制限を克服する一つの方法は、モデルの入力に含めるものと含めないものをより賢く選択することです。そのためには、問題解決に役立つ正しい情報が含まれるように、保険とクレーム処理のプロセスを深く理解する必要があります。いったん特定されたデータは、モデルによって消化しやすいように処理されなければなりません。最適なデータセットを作成する最初の努力と同様に、モデルに適した保険コンテキストを作成するには、業界とAIの知識を組み合わせる必要があります。

AIベースのシステムを開発しているテクノロジーベンダーは、複雑な法律文書、医療成果物、請求書、さまざまな形や大きさの金融商品を要約できるものなど、さまざまな対話型ソリューションを通じて、すでにこの問題を解決しています。LLMがパフォーマンスと精度を損なうことなく、より大量のデータを処理できるようになるまで、少なくとも当面は、膨大な量の文書にインデックスを付けることができるモデルとLLMを組み合わせることで、メモリ問題の回避策として機能することができます。

 結論

生成AIと大規模言語モデルは、保険業界にとって大きな可能性と将来性を示していますが、実際のユースケースに適用して技術を成功させるには、重要な落とし穴を避けることが重要です。これらの制限を克服するには、業界特有の生成AIのデータとコンテキストの問題に対処する業界知識とAIの専門知識の組み合わせが必要であり、また、保険特有の用途にこれらのモデルを適応させるための特定の技術を適用することもできます。保険データセットを使ったAIモデルのトレーニングに精通したプロバイダーからの適切なアプローチとサポート、大量かつ大規模なAIモデルへのアクセス、適切なインフラの整備があれば、保険会社はこの新たな技術革新を最大限に活用することができます。

保険業界が直面するユニークな課題に対応するために、シフトがどのように生成AIの導入を支援できるかの詳細については、こちらからお問い合わせください

本ブログポストの執筆に当たってアーサー・ヘマーの協力に感謝します。