生成的人工知能

この記事の項目名には以下のような表記揺れがあります。

生成系人工知能^[1]^[2]
生成型人工知能^[3]^[4]

生成的人工知能（せいせいてきじんこうちのう、英: generative artificial intelligence）または生成AI（せいせいエーアイ、英: GenAI^[5]）は、文字などの入力（プロンプト）対してテキスト、画像、または他のメディアを応答として生成する人工知能システムの一種である^[6]^[7]。

生成的人工知能モデルは、訓練データの規則性や構造を訓練において学習することで、訓練データに含まれない新しいデータを生成することができる^[8]^[9]。ジェネレーティブAI、ジェネラティブAIともよばれる。

著名な生成AIシステムとして、OpenAIがGPT-3やGPT-4の大規模言語モデル^[10]を使用して構築したチャットボットのChatGPT（および別形のBing Chat）や、GoogleがLaMDA基盤モデルに構築したチャットボットBardがある^[11]。その他の生成AIモデルとして、Stable DiffusionやDALL-Eなどの人工知能アートシステムがあげられる^[12]。

生成AIは、アート、執筆、ソフトウェア開発、ヘルスケア、金融、ゲーム、マーケティング、ファッションなど、幅広い業界で応用できる可能性がある^[13]^[14]。生成AIへの投資は2020年代初頭に急増し、Microsoft、Google、Baiduなどの大企業だけでなく、多数の中小企業も生成AIモデルを開発している^[6]^[15]^[16]。しかし、生成AIを訓練する目的での著作物の無法図な利用や人をだましたり操作したりするフェイクニュースやディープフェイクの作成など、生成AIの悪用の可能性も懸念されており^[17]^[18]^[19]、欧州連合における人工知能法など法規制の議論も進んでいる^[20]^[21]。また、効果的加速主義などのシリコンバレーの技術思想との関係も話題になっている^[22]。

歴史

機械学習の分野では、その誕生以来、データをモデル化し予測することを目的として、統計的モデルを使用してきた。2000年代後半、ディープラーニング（深層学習）の登場により、画像や動画処理、テキスト分析、音声認識などのタスクで進化と研究が進んできた。しかし、ほとんどのディープニューラルネットワークは識別的モデルとして、画像認識 (en:英語版) のような分類タスクを実行していた。

2014年、変分オートエンコーダや敵対的生成ネットワークなどの進歩により、画像のような複雑なデータの生成的モデルを学習し、生成することができる実用的なディープニューラルネットワークが登場した。

2017年、Transformerネットワークはより大規模な生成的モデルの実現を可能にし、2018年に最初の生成的事前学習トランスフォーマー（GPT）が開発された^[23]。2019年、GPT-2がこれに続き、基盤モデルとして教師なし学習を多くの異なるタスクに汎化する能力を実証した^[24]。

2024年、映像生成AIの実用化の成功は、イラスト生成AIの成功が人間の仕事の質を超えるのと同じようになると専門家は予想している^[25]。

これ以降の応用面における進化については次節のモダリティを参照のこと。

モダリティ

生成AIシステムは、教師なしまたは自己教師ありの機械学習を、データセットに適用することにより構築される。生成AIシステムの能力は、訓練に使用するデータセットのモダリティや種類（英語版）によって異なる。

生成AIは、ユニモーダルシステムとマルチモーダルシステム（英語版）に大分でき、ユニモーダルは1種類の入力（例：テキスト）しか受け入れないのに対し、マルチモーダルは複数種類の入力（例：テキストと画像）を受け入れることができる^[26]。たとえば、OpenAIのGPT-4はテキストと画像の両方の入力を受け入れる^[27]。

テキスト
「大規模言語モデル」を参照
単語や単語トークンで訓練された生成AIシステムには、GPT-3、LaMDA、LLaMA、BLOOM（英語版）、GPT-4などがある（を参照）。これらは自然言語処理、機械翻訳、自然言語生成が可能であり、他のタスクの基盤モデルとして使用することができる^[28]。データセットとして、BookCorpus、Wikipediaなどがある（テキストコーパスの一覧（英語版）を参照）。
コンピュータープログラム
自然言語のテキストに加えて、プログラミング言語のテキストを大規模な言語モデルに訓練することで、新しいコンピュータプログラムのソースコードを生成することができる^[29]。たとえば、OpenAI Codexがある。
画像
「人工知能アート」を参照

説明文（英語版）付きの画像セットで訓練された生成AIシステムには、Imagen（英語版）、DALL-E、Midjourney、Stable Diffusionなどがある。これらは、テキストからの画像生成（英語版）やニューラルスタイル変換（英語版）によく使われる^[30]。データセットにはLAION-5B（英語版）などがある（コンピュータビジョンにおけるデータセット）。

分子
生成AIシステムは、アミノ酸の配列や、DNAやタンパク質を表すSMILESなどの分子表現で訓練することができる。AlphaFoldのようなこれらのシステムは、タンパク質の構造予測や創薬に利用されている^[31]。データセットには、さまざまな生物学的データセット（英語版）が含まれる。
音楽
MusicLMのような生成AIシステムは、レコード音楽のオーディオ波形とテキスト注釈をともに訓練することで、たとえば「歪んだギターリフに乗った落ち着きのあるバイオリンのメロディ」といったテキスト記述に基づいて、新しい音楽サンプルを生成することができる^[32]。
動画
注釈付き動画で訓練された生成AIは、時間的に一貫性のあるビデオクリップを生成することができる。システムの例として、RunwayMLのGen1や^[33]、Meta PlatformsのMake-A-Videoがあげられる^[34]。
ロボット制御
ロボットシステムの動きを学習させた生成AIは、モーションプランニング（英語版）のために新しい軌道を生成することができる。たとえば、Google ResearchのUniPiは、「青いボウルを取る」や「黄色のスポンジで皿を拭く」といったプロンプトを使用して、ロボットアームの動きを制御する^[35]。

課題

「人工知能の倫理」および「汎用人工知能による人類滅亡のリスク」も参照

より簡便にメディアの生成を行うことのできる生成的人工知能に対して政府や企業、個人が懸念を表明している。その中で、抗議活動や訴訟、人工知能開発の一時停止の要求が行われている。また、各国政府は規制を検討するなどしている。

2023年5月に開催されたG7広島サミットでは広島AIプロセスを採択し、その中で安全、安心、信頼できるAIの実現に向けてAIライフサイクル全体の関係者それぞれが異なる責任を持つ目的でリスクの低減などの方針を定める「全てのAI関係者向けの広島プロセス国際指針」を整理した。^[36]

アントニオ・グテーレス国連事務総長は2023年7月の国連安全保障理事会の会見において、AIは「世界の発展を加速」し、莫大な富を齎す可能性があると述べた。一方で、使い方によっては「想像を絶する規模での死と破壊、広範囲に及ぶトラウマ、深刻な心理的ダメージを引き起こす可能性がある」と述べた^[37]。

失業

詳細は「人工知能の職場への影響（英語版）」および「技術的失業」を参照

AI開発の初期の頃より、どのような仕事がコンピュータによって実行可能であり、実行させるべきかであるかの議論がELIZAの開発者であるジョセフ・ワイゼンバウムらによって進められてきた^[39]。

生成的人工知能によるイラストレータや俳優、声優などのクリエイターの失業が懸念されている。2023年4月の時点で画像生成AIにより中国のイラストレーターの仕事の70%が失われていると報告されている^[40]^[41]。2023年7月には生成AIの開発が2023年のハリウッド労働争議（英語版）の一因となった。映画俳優組合の会長フラン・ドレッシャーは、2023年のSAG-AFTRAストライキ（英語版）中に「人工知能はクリエイティブな職業に存続の脅威をもたらす」と宣言した^[42]。音声生成AIは、声優業界への潜在的な脅威とみなされている^[43]^[44]。

フェイク情報の作成

詳細は「ディープフェイク」および「フェイクポルノ」を参照

これまでも古典的な画像処理技術などでフェイク情報は作成されてきたが、生成的人工知能によって画像や映像、音声、文章などの生成/捏造がより高精度に且つ容易になるため、詐欺や世論操作、プロパガンダ、名誉毀損等に悪用される可能性がある。国内外において、政治家の顔を入れ替えたり、発言の捏造などの世論操作や、災害に関するデマゴーグ、ニュース番組になりすました広告やフェイクポルノ等の事例がある。

悪用事例以外にも、ニュース記事の生成や日本赤十字社による関東大震災の体験記の生成^[45]などの生成的人工知能の活用を目指した取り組みに関してもその情報の信頼性と信憑性、歴史的記録の捏造など様々な課題がある^[46]。

このため国内外でディープフェイク対策のための研究が進められている^[47]。

音声のディープフェイク

詳細は「音声ディープフェイク（英語版）」を参照

画像の場合と同じように有名人や公人の音声で物議を醸す発言をしている音声を生成する例があり、音声生成AIに対する倫理的懸念が生じている^[48]^[49]^[50]^[51]^[52]^[53]。これに対して、一部の企業は安全対策とユーザーの身元確認を通じて潜在的な悪用の軽減に取り組む姿勢を見せている^[54]。

サイバー犯罪

ディープフェイクはフィッシング詐欺を含むさまざまな種類のサイバー犯罪に悪用されている^[55]。さらに、テキスト生成AIはECサイト上で高評価の偽レビューを量産するために大規模に使用されている^[56]。WormGPTやFraudGPTなどサイバー犯罪を目的とした大規模言語モデルが作成された例もある^[57]。

グーグルでクリック詐欺の対策に従事していたシュマン・ゴーセマジュムダー（英語版）は、当初メディアを騒がせたディープフェイク動画はすぐに一般的となり、その結果より危険なものになるだろうと予測している^[58]。

2023年の研究では脱獄や逆心理学などを使った攻撃でChatGPTに掛けられた保護を回避して有害情報を抽出する脆弱性を確認した。同研究ではChatGPTのソーシャルエンジニアリングやフィッシング詐欺への悪用の潜在的リスクを指摘しており、一方で、生成的人工知能を活用することでサイバーセキュリティを改善できる可能性を指摘している^[59]。

ハルシネーション (幻覚)

詳細は「ハルシネーション (人工知能)」を参照

人工知能の用語のハルシネーション（hallucination。幻覚)とは、AIの訓練に用いたどの学習データとも整合しない回答をAIが堂々としてしまうという問題である。人間の幻覚に喩えて「幻覚」と呼ばれているが、作話（confabulation）という表現のほうを好む研究者もいる。

2023年、アメリカ合衆国ニューヨーク州の弁護士が審理中の民事訴訟の資料作成にChatGPTを利用した結果、存在しない判例の「引用」を6件行っていた^[60]^[61]。

2023年11月、複数の俳優が国政政党「れいわ新選組」を応援している旨のメッセージを載せたまとめサイトが確認され、俳優の所属事務所、れいわ新選組が応援を否定する事態になった^[62]^[63]。サイトの作成者は「該当記事はAIに書かせたものであり、その芸能人が実際にれいわ新選組を応援しているかどうか確認せずに掲載してしまった」と説明している^[64]^[65]。

人種的、ジェンダーバイアスの強化

「偏りと分散」も参照

生成的人工知能が訓練データに含まれる文化的偏見を反映し、増幅する可能性が懸念されている。例えば、医師、エンジニア、教師などが男性であり、秘書や料理人、看護師などが女性とする^[66]、「CEOの写真」から白人男性の画像を不釣り合いに多く生成される場合などが挙げられている^[67]。入力プロンプトの変更^[68]や訓練データの再重み付けなど、バイアスを軽減する手法が研究されている^[69]。

法規制

アメリカではOpenAI、Alphabet、Metaを含む企業が2023年7月にホワイトハウスとの間でAI生成物に電子透かしを入れる自主協定を締結した^[70]。 2023年10月、大統領令14110により国防生産法が適用され、すべての米国企業に対し、大規模AIモデルを訓練する際に連邦政府に報告することが義務付けられた^[71]。

欧州連合の人工知能法には生成AIシステムの訓練に使用される著作権保護の対象となるデータを開示すること、およびAI生成物にラベル付けを義務付ける要件が含まれた^[72]^[73]。

中国では、政府のサイバースペース管理局が導入した生成AIサービス管理のための暫定措置により、生成AIが規制対象となっている。これには、生成された画像やビデオに透かしを入れるための要件、訓練データとラベルの品質に関する規制、個人データの収集に関する制限、生成AIが「社会主義の中核的価値観を遵守」しなければならないというガイドラインが含まれている^[74]^[75]。

著作権

訓練データの著作権

詳細は「機械学習#訓練データの著作権」および「著作権」を参照

生成的人工知能を訓練する際に使用するデータセットに含まれる著作物に関して、データ倫理上の課題と著作権法の解釈が議論されている。機械学習で訓練をされたAIサービスの普及に伴い、訓練に用いるデータセットに著作物が使われる事例に対して、出版社やクリエイターを中心として懸念が広がっており、米国ではニューヨークタイムズのマイクロソフト、OpenAIへの訴訟、ユニバーサル・ミュージックのAnthropicへの訴訟など著作者や著作権管理団体によるAIの開発、提供事業者への訴訟が提起されており^[76]^[77]、フランスが生成AIの訓練で報道記事を無断利用したとしてGoogleに2億5000万ユーロ（約410億円）の罰金を課す事例も発生している^[78]。

著作物を機械学習の訓練目的で利用することについて、国や地域によって著作物の利用についての法規制は異なっており、各国の法理において機械学習での著作物の利用が認められる範囲に関して広範な論争が為されている。欧州ではDSM指令によって学術目的以外ではオプトアウトにより著作物の利用が制限される^[79]^[80]。アメリカでは著作物の利用がフェアユースによって広範に規定されている^[80]。日本においては学習段階で行われる著作物の複製に関して著作権法30条の4で複製権の権利制限をしている^[81]。また、ベルヌ条約におけるスリーステップテスト等の国際条約との関係も議論されている^[82]。

生成物の著作権

「人工知能アート」を参照

AIによって生成された生成物を著作物として認めるかどうかについて、人間の介在の有無や人間の関与の度合いによってどのように線引きをするのか、そもそも著作物として認めるべきなのか議論がなされている。

Search