生成的人工知能

プロンプトに応答してコンテンツを生成できるAI

生成的人工知能(せいせいてきじんこうちのう、: generative artificial intelligence)または生成AI(せいせいエーアイ、: GenAI[5])は、文字などの入力(プロンプト)対してテキスト画像、または他のメディアを応答として生成する人工知能システムの一種である[6][7]

A detailed oil painting of figures in a futuristic opera scene
スペース・オペラ・シアター(Théâtre d'Opéra Spatial)、Midjourneyによって作成された画像

生成的人工知能モデルは、訓練データの規則性や構造を訓練において学習することで、訓練データに含まれない新しいデータを生成することができる[8][9]ジェネレーティブAIジェネラティブAIともよばれる。

著名な生成AIシステムとして、OpenAIGPT-3GPT-4大規模言語モデル[10]を使用して構築したチャットボットChatGPT(および別形のBing Chat)や、GoogleLaMDA基盤モデルに構築したチャットボットBardがある[11]。その他の生成AIモデルとして、Stable DiffusionDALL-Eなどの人工知能アートシステムがあげられる[12]

生成AIは、アート、執筆、ソフトウェア開発、ヘルスケア、金融、ゲーム、マーケティング、ファッションなど、幅広い業界で応用できる可能性がある[13][14]。生成AIへの投資は2020年代初頭に急増し、Microsoft、Google、Baiduなどの大企業だけでなく、多数の中小企業も生成AIモデルを開発している[6][15][16]。しかし、生成AIを訓練する目的での著作物の無法図な利用や人をだましたり操作したりするフェイクニュースディープフェイクの作成など、生成AIの悪用の可能性も懸念されており[17][18][19]欧州連合における人工知能法など法規制の議論も進んでいる[20][21]。また、効果的加速主義などのシリコンバレーの技術思想との関係も話題になっている[22]

歴史

機械学習の分野では、その誕生以来、データをモデル化し予測することを目的として、統計的モデルを使用してきた。2000年代後半、ディープラーニング(深層学習)の登場により、画像や動画処理、テキスト分析、音声認識などのタスクで進化と研究が進んできた。しかし、ほとんどのディープニューラルネットワークは識別的モデルとして、画像認識 (en:英語版のような分類タスクを実行していた。

2014年、変分オートエンコーダ敵対的生成ネットワークなどの進歩により、画像のような複雑なデータの生成的モデルを学習し、生成することができる実用的なディープニューラルネットワークが登場した。

2017年、Transformerネットワークはより大規模な生成的モデルの実現を可能にし、2018年に最初の生成的事前学習トランスフォーマー(GPT)が開発された[23]。2019年、GPT-2がこれに続き、基盤モデルとして教師なし学習を多くの異なるタスクに汎化する能力を実証した[24]

2024年、映像生成AIの実用化の成功は、イラスト生成AIの成功が人間の仕事の質を超えるのと同じようになると専門家は予想している[25]

これ以降の応用面における進化については次節のモダリティを参照のこと。

モダリティ

生成AIシステムは、教師なしまたは自己教師あり機械学習を、データセットに適用することにより構築される。生成AIシステムの能力は、訓練に使用するデータセットのモダリティ種類英語版によって異なる。

生成AIは、ユニモーダルシステムとマルチモーダルシステム英語版に大分でき、ユニモーダルは1種類の入力(例:テキスト)しか受け入れないのに対し、マルチモーダルは複数種類の入力(例:テキストと画像)を受け入れることができる[26]。たとえば、OpenAIのGPT-4はテキストと画像の両方の入力を受け入れる[27]

説明文英語版付きの画像セットで訓練された生成AIシステムには、Imagen英語版DALL-EMidjourneyStable Diffusionなどがある。これらは、テキストからの画像生成英語版ニューラルスタイル変換英語版によく使われる[30]。データセットにはLAION-5B英語版などがある(コンピュータビジョンにおけるデータセット)。

  • 分子
    生成AIシステムは、アミノ酸の配列や、DNAタンパク質を表すSMILESなどの分子表現で訓練することができる。AlphaFoldのようなこれらのシステムは、タンパク質の構造予測創薬に利用されている[31]。データセットには、さまざまな生物学的データセット英語版が含まれる。
  • 音楽
    MusicLMのような生成AIシステムは、レコード音楽のオーディオ波形とテキスト注釈をともに訓練することで、たとえば「歪んだギターリフに乗った落ち着きのあるバイオリンのメロディ」といったテキスト記述に基づいて、新しい音楽サンプルを生成することができる[32]
  • 動画
    注釈付き動画で訓練された生成AIは、時間的に一貫性のあるビデオクリップを生成することができる。システムの例として、RunwayMLのGen1や[33]Meta PlatformsのMake-A-Videoがあげられる[34]
  • ロボット制御
    ロボットシステムの動きを学習させた生成AIは、モーションプランニング英語版のために新しい軌道を生成することができる。たとえば、Google ResearchのUniPiは、「青いボウルを取る」や「黄色のスポンジで皿を拭く」といったプロンプトを使用して、ロボットアームの動きを制御する[35]

課題

より簡便にメディアの生成を行うことのできる生成的人工知能に対して政府企業、個人が懸念を表明している。その中で、抗議活動や訴訟、人工知能開発の一時停止の要求が行われている。また、各国政府は規制を検討するなどしている。

2023年5月に開催されたG7広島サミットでは広島AIプロセスを採択し、その中で安全、安心、信頼できるAIの実現に向けてAIライフサイクル全体の関係者それぞれが異なる責任を持つ目的でリスクの低減などの方針を定める「全てのAI関係者向けの広島プロセス国際指針」を整理した。[36]

アントニオ・グテーレス国連事務総長は2023年7月の国連安全保障理事会の会見において、AIは「世界の発展を加速」し、莫大な富を齎す可能性があると述べた。一方で、使い方によっては「想像を絶する規模での死と破壊、広範囲に及ぶトラウマ、深刻な心理的ダメージを引き起こす可能性がある」と述べた[37]

失業

2023年のSAG-AFTRAストライキ英語版において「生成AIの利用の制限」は要求の1つだった。[38]

AI開発の初期の頃より、どのような仕事がコンピュータによって実行可能であり、実行させるべきかであるかの議論がELIZAの開発者であるジョセフ・ワイゼンバウムらによって進められてきた[39]

生成的人工知能によるイラストレータや俳優、声優などのクリエイターの失業が懸念されている。2023年4月の時点で画像生成AIにより中国のイラストレーターの仕事の70%が失われていると報告されている[40][41]。2023年7月には生成AIの開発が2023年のハリウッド労働争議英語版の一因となった。映画俳優組合の会長フラン・ドレッシャーは、2023年のSAG-AFTRAストライキ英語版中に「人工知能はクリエイティブな職業に存続の脅威をもたらす」と宣言した[42]。 音声生成AIは、声優業界への潜在的な脅威とみなされている[43][44]

フェイク情報の作成

エリオット・ヒギンズ英語版がMidjourneyを用いて生成したドナルド・トランプが逮捕される様子を描いたディープフェイク画像(2023)

これまでも古典的な画像処理技術などでフェイク情報は作成されてきたが、生成的人工知能によって画像や映像、音声、文章などの生成/捏造がより高精度に且つ容易になるため、詐欺世論操作プロパガンダ名誉毀損等に悪用される可能性がある。国内外において、政治家の顔を入れ替えたり、発言の捏造などの世論操作や、災害に関するデマゴーグ、ニュース番組になりすました広告やフェイクポルノ等の事例がある。

悪用事例以外にも、ニュース記事の生成や日本赤十字社による関東大震災の体験記の生成[45]などの生成的人工知能の活用を目指した取り組みに関してもその情報の信頼性と信憑性、歴史的記録の捏造など様々な課題がある[46]

このため国内外でディープフェイク対策のための研究が進められている[47]

音声のディープフェイク

画像の場合と同じように有名人や公人の音声で物議を醸す発言をしている音声を生成する例があり、音声生成AIに対する倫理的懸念が生じている[48][49][50][51][52][53]。これに対して、一部の企業は安全対策とユーザーの身元確認を通じて潜在的な悪用の軽減に取り組む姿勢を見せている[54]

サイバー犯罪

ディープフェイクはフィッシング詐欺を含むさまざまな種類のサイバー犯罪に悪用されている[55]。さらに、テキスト生成AIはECサイト上で高評価の偽レビューを量産するために大規模に使用されている[56]。WormGPTやFraudGPTなどサイバー犯罪を目的とした大規模言語モデルが作成された例もある[57]

グーグルでクリック詐欺の対策に従事していたシュマン・ゴーセマジュムダー英語版は、当初メディアを騒がせたディープフェイク動画はすぐに一般的となり、その結果より危険なものになるだろうと予測している[58]

2023年の研究では脱獄や逆心理学などを使った攻撃でChatGPTに掛けられた保護を回避して有害情報を抽出する脆弱性を確認した。同研究ではChatGPTのソーシャルエンジニアリングフィッシング詐欺への悪用の潜在的リスクを指摘しており、一方で、生成的人工知能を活用することでサイバーセキュリティを改善できる可能性を指摘している[59]

ハルシネーション (幻覚)

人工知能の用語のハルシネーション(hallucination。幻覚)とは、AIの訓練に用いたどの学習データとも整合しない回答をAIが堂々としてしまうという問題である。人間の幻覚喩えて「幻覚」と呼ばれているが、作話(confabulation)という表現のほうを好む研究者もいる。

2023年、アメリカ合衆国ニューヨーク州の弁護士が審理中の民事訴訟の資料作成にChatGPTを利用した結果、存在しない判例の「引用」を6件行っていた[60][61]

2023年11月、複数の俳優国政政党れいわ新選組」を応援している旨のメッセージを載せたまとめサイトが確認され、俳優の所属事務所、れいわ新選組が応援を否定する事態になった[62][63]。サイトの作成者は「該当記事はAIに書かせたものであり、その芸能人が実際にれいわ新選組を応援しているかどうか確認せずに掲載してしまった」と説明している[64][65]

人種的、ジェンダーバイアスの強化

生成的人工知能が訓練データに含まれる文化的偏見を反映し、増幅する可能性が懸念されている。例えば、医師、エンジニア、教師などが男性であり、秘書や料理人、看護師などが女性とする[66]、「CEOの写真」から白人男性の画像を不釣り合いに多く生成される場合などが挙げられている[67]。入力プロンプトの変更[68]や訓練データの再重み付けなど、バイアスを軽減する手法が研究されている[69]

法規制

アメリカではOpenAIAlphabetMetaを含む企業が2023年7月にホワイトハウスとの間でAI生成物に電子透かしを入れる自主協定を締結した[70]。 2023年10月、大統領令14110により国防生産法が適用され、すべての米国企業に対し、大規模AIモデルを訓練する際に連邦政府に報告することが義務付けられた[71]

欧州連合人工知能法には生成AIシステムの訓練に使用される著作権保護の対象となるデータを開示すること、およびAI生成物にラベル付けを義務付ける要件が含まれた[72][73]

中国では、政府のサイバースペース管理局が導入した生成AIサービス管理のための暫定措置により、生成AIが規制対象となっている。これには、生成された画像やビデオに透かしを入れるための要件、訓練データとラベルの品質に関する規制、個人データの収集に関する制限、生成AIが「社会主義の中核的価値観を遵守」しなければならないというガイドラインが含まれている[74][75]

著作権

訓練データの著作権

生成的人工知能を訓練する際に使用するデータセットに含まれる著作物に関して、データ倫理上の課題と著作権法の解釈が議論されている。機械学習で訓練をされたAIサービスの普及に伴い、訓練に用いるデータセットに著作物が使われる事例に対して、出版社やクリエイターを中心として懸念が広がっており、米国ではニューヨークタイムズマイクロソフトOpenAIへの訴訟、ユニバーサル・ミュージックAnthropicへの訴訟など著作者や著作権管理団体によるAIの開発、提供事業者への訴訟が提起されており[76][77]フランスが生成AIの訓練で報道記事を無断利用したとしてGoogleに2億5000万ユーロ(約410億円)の罰金を課す事例も発生している[78]

著作物を機械学習の訓練目的で利用することについて、国や地域によって著作物の利用についての法規制は異なっており、各国の法理において機械学習での著作物の利用が認められる範囲に関して広範な論争が為されている。欧州ではDSM指令によって学術目的以外ではオプトアウトにより著作物の利用が制限される[79][80]。アメリカでは著作物の利用がフェアユースによって広範に規定されている[80]。日本においては学習段階で行われる著作物の複製に関して著作権法30条の4で複製権の権利制限をしている[81]。また、ベルヌ条約におけるスリーステップテスト等の国際条約との関係も議論されている[82]

生成物の著作権

AIによって生成された生成物を著作物として認めるかどうかについて、人間の介在の有無や人間の関与の度合いによってどのように線引きをするのか、そもそも著作物として認めるべきなのか議論がなされている。

脚注

関連項目

  • 計算論的創造性英語版
    コンピュータを使用して創造性をモデル化、シミュレート、または複製することを目指した学際的な試み
  • 人工的創造英語版
    人間の想像力を人工的にシミュレーションすること
  • 人工知能アート
    人工知能プログラムによって制作されたアートワーク、特に画像や楽曲
  • 音楽と人工知能英語版
    国際コンピュータ音楽会議におけるさまざまな課題(音楽の作曲、演奏、理論、デジタル音響処理におけるAIの応用など)
  • 敵対的生成ネットワーク
    生成AIに対応する機械学習の枠組みの一つで、2つのニューラルネットワークが互いに競い合う
  • Generative pre-trained transformer (GPT)
    transformerアーキテクチャに基づく人工ニューラルネットワークの一種
  • 大規模言語モデル
    多数のパラメータを持つニューラルネットワークで構成される言語モデル
  • 無限の猿定理中国語の部屋
  • 効果的加速主義