基盤モデル

基盤モデル(きばんモデル、foundation model) は、自己教師あり学習半教師あり学習(英語: Semi-supervised learningにより膨大なデータで学習した大規模人工知能モデルで、 様々な下流タスクに適用することができる[1][2]。 基盤モデルは、著名なチャットボットやその他のユーザ向け AI の動力源となるなど、AI システムの構築方法に大きな変革をもたらしてきた。The Stanford Institute for Human-Centered Artificial Intelligence (HAI) の Center for Research on Foundation Models (CRFM) がこの用語を広めた[1]

基盤モデルの初期の例は、GoogleBERT や様々な初期の GPT 基盤モデル(特にOpenAIの「GPT-n」シリーズ)を含む事前訓練された大規模言語モデル(LLM)だった[3][4]

定義

The Stanford Institute for Human-Centered Artificial Intelligence(HAI)の Center for Research on Foundation Models(CRFM)は、2021年8月に「基盤モデル」という用語を作り、「(一般に大規模な自己教師学習によって)幅広いデータで訓練され、下流の幅広いタスクに適応できる全てのモデル」に言及した[5]。焦点が言語とは限らないという点において大規模言語モデルという用語では狭すぎることなどを考慮し、基盤モデルという用語に落ち着いた[6]

歴史

2023年12月、グーグルは新しい基盤モデル Gemini を発表した。同社は、この Gemini は一般的なタスクにおいて専門家の意見よりも優れた正しい基盤モデルであり、科学文献の分析も可能であると主張している[7]

個別化された基盤モデル

基盤モデルは膨大なデータセットによって事前に訓練されているため、特定の「個別化された」概念を扱うことはできない。モデル全体を再トレーニングすることなく、個別化された項目で基盤モデルを補強する手法が様々考案されてきた。例えば、few-shot 画像検索では、視覚言語基盤モデル(CLIP)の語彙に新しい概念を追加することで適応する方法が示された[8]

テキスト画像生成(英語: Text-to-image generationでは、同様にテキスト反転と呼ばれるアプローチでシステムに新しい概念を教え、既存の概念と組み合わせて生成できるようにすることができる[9]

機会とリスク

2021年の arXiv のレポートでは、「言語、資格、ロボット工学、推論、人間との対話」に関する基盤モデルの能力、「モデルのアーキテクチャ、訓練手順、データ、システム、セキュリティ、評価、理論」などの技術的原則、法律、医療、教育などの応用、「不公平、誤用、経済・環境への影響、法的・倫理的考察」などの社会への潜在的影響について述べられている[5]

エコノミスト誌の基盤モデルに関する記事では、「経済的・政治的権力のさらなる集中に対する懸念」が指摘された[10]

関連項目

脚注

出典