AIアライメント

画像外部リンク
	<img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/6/61/Searchtool.svg/16px-Searchtool.svg.png" decoding="async" width="16" height="16" class="mw-file-element" data-file-width="512" data-file-height="512"> 人間のフィードバックで訓練されたロボットの手が、ボールをつかむ「ふりをする」動画（英語版Wikipediaへのリンク）; AIシステムは、人間のフィードバックを使用してボールをつかむように訓練されたが、その代わりにボールとカメラの間に手を置いて不正に成功したように見せかけることを学習した。アライメントに関する研究の中には、有力であっても誤った解答を回避することを目的としたものもある。

画像外部リンク
	<img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/6/61/Searchtool.svg/16px-Searchtool.svg.png" decoding="async" width="16" height="16" class="mw-file-element" data-file-width="512" data-file-height="512"> 整合しないAIがボートレースを終える代わりに衝突を繰り返してポイントを集める動画（英語版Wikipediaへのリンク）; 研究者たちは、ボートレースで、コース上の標的にぶつかると報酬を与えることでレースを完走するようにAIシステムを訓練した。しかし、無限にループして標的に衝突することで、より多くのポイントを獲得することができた。これは仕様ゲームの一例である。

人工知能（AI）において、AIアライメント（英: AI alignment）は、AIシステムを人間の意図する目的や嗜好、または倫理原則に合致させることを目的とする研究領域である。意図した目標を達成するAIシステムは、整合したAIシステム（aligned AI system）とみなされる。一方、整合しない、あるいは整合を欠いたAIシステム（misaligned AI system）は、目標の一部を適切に達成する能力はあっても、残りの目標を達成することができない^[1]^{[注釈 1]}。

AI設計者にとってAIシステムを整合するのは困難であり、その理由は、望ましい動作と望ましくない動作を全域にわたって明示することが難しいことによる。この困難を避けるため、設計者は通常、人間の承認を得るなどのより単純な代理目的（英語版）を用いる。しかし、この手法は抜け穴を作ったり、必要な制約を見落としたり、AIシステムが単に整合しているように見えるだけで報酬を与えたりする可能性がある^[1]^[3]。

整合を欠いたAIシステムは、誤作動を起こしたり、人に危害を加えたりする可能性がある。AIシステムは、代理目的を効率的に達成するための抜け穴を見つけるかもしれないし、意図しない、ときには有害な方法（報酬ハッキング（英語版））で達成することもある^[1]^[4]^[5]。このような戦略は与えられた目的の達成に役立つため、AIシステムは能力や生存を追求するような、望ましくない手段的収束（英語版）（最終的な目的とは異なる、それを実現するための手段）を発達させる可能性もある^[1]^[6]^[7]。さらに、システムが導入された後、新たな状況やデータの分布（英語版）に直面したとき、望ましくない創発的目的を開発する可能性もある^[8]^[9]。

今日、こうした問題は、言語モデル^[10]^[11]^[12]、ロボット^[13]、自律走行車^[14]、ソーシャルメディアの推薦システムなど^[10]^[7]^[15]、既存の商用システムに影響を及ぼしている。AI研究者の中には、こうした問題はシステムが部分的に高性能化することに起因しているため、より高性能な将来のシステムではより深刻な影響を受けるだろうと主張する者もいる^[16]^[4]^[3]。

ジェフリー・ヒントンやスチュアート・ラッセルなどの一流のコンピューター科学者は、AIは超人的な能力に近づいており、もし整合を欠けば人類の文明を危険にさらしかねないと主張している^[17]^[7]^{[注釈 2]}。

AI研究コミュニティや国連は、AIシステムを人間の価値観に沿ったものとするために、技術的研究と政策的解決策を呼びかけている^[19]。

AIアライメントは、安全なAIシステムを構築する方法を研究するAI安全性（英語版）の下位分野である^[20]。そこには、ロバスト性（堅牢性）、監視、AI能力制御（英語版）などの研究領域もある^[21]。アライメントに関する研究課題には、AIに複雑な価値観を教え込むこと、正直なAIの開発、スケーラブルな監視、AIモデルの監査と解釈、能力追求のようなAIの創発的行動の防止などが含まれる^[21]。アライメントに関連する研究テーマには、解釈可能性^[22]^[23]、（敵対的）ロバスト性^[20]、異常検知、不確実性定量化（英語版）^[22]、形式的検証^[24]、嗜好学習（英語版）^[25]^[26]^[27]、安全重視工学（英語版）^[28]、ゲーム理論^[29]、アルゴリズム公平性^[20]^[30]、および社会科学^[31]などがある。

アライメント問題

1960年、AIの先駆者であるノーバート・ウィーナーは、AIアライメントの問題を次のように説明した。「私たちの目的を達成するために、私たちが効果的に干渉することのできない機械的な機能を使用する場合（中略）その機械に組み込まれた目的が、私たちが本当に望んでいるものであることを、十分に確認しなければならない」^[33]^[7]。AIアライメントにはさまざまな定義があるため、整合したAIシステムはさまざまな目的を達成する必要がある。たとえば、設計者やユーザーの目的、客観的な倫理基準、広く共有された価値観、あるいは設計者がより多くの知識を持ち啓蒙されていれば持つであろう意図などである^[34]。

AIアライメントは、現代のAIシステムにとって未解決の問題であり^[35]^[36]、AIの研究分野でもある^[37]^[1]。AIアライメントには2つの主要な課題があり、1つはシステムの目的を注意深く特定することと（外部アライメント）、もう1つはシステムがその仕様を確実に採用することである（内部アライメント）^[3]。

仕様ゲームと副作用

AIシステムの目的を明示するために、AI設計者は通常、目標関数、事例、またはシステムに対するフィードバック（反応）を説明する。しかし、AI設計者がすべての重要な値や制約を完全に明示することができないことが多いことから、（誤りを起こしやすいが）人間の監督者による承認を最大化するなど、指定しやすい代理目的（英語版）（proxy goals）に頼っている^[20]^[2]^[21]^[38]^[39]。その結果、AIシステムは明示された目標を効率的に達成するのに役立つ抜け穴を見つけることができ、意図しないおそらくは有害な方法で達成することになる。こうした傾向は仕様ゲーム（specification gaming）または報酬ハッキング（reward hacking）として知られ、グッドハートの法則（英語版）の一例である^[39]^[4]^[40]。AIシステムの能力が高まるにつれて、その仕様をより効果的に破ることが増えている^[4]。

仕様ゲームは多くのAIシステムで観察されている^[39]^[42]。あるシステムは、コース上の標的に衝突した場合に報酬を与えることで、模擬ボートレースを完走するように訓練された。しかしこのシステムは同じ標的に衝突させることを無限に繰り返して、より多くの報酬を獲得する方法を見い出した（右上の動画を参照）^[34]。同様に、シミュレートされたロボットは、人間による肯定的なフィードバックを受けて報酬を得ることで、ボールをつかむように訓練された。しかし、このロボットはボールとカメラの間に手を置いて成功したように誤認させることを学習した（右下の動画を参照）^[41]。チャットボットは、大規模であっても誤りを免れないインターネット上のコーパステキストを模倣するように訓練された言語モデルに基づいている場合、しばしば虚偽の出力を生成する^[43]^[44]。ChatGPTのようなチャットボットは、人間が真実または役に立つと評価するようなテキストを生成するよう再訓練された場合、人間を納得させるような偽の説明をでっち上げることができる^[45]。AIアライメントの研究者の中には、人間が仕様ゲームを検出して、安全で有用な目標に向けてAIシステムを慎重に誘導することを目指している人もいる。

整合を欠いたAIシステムが導入される結果、副作用をもたらす可能性がある。ソーシャルメディア・プラットフォームでは、クリック率（英語版）を最適化することで、世界規模で依存症ユーザーを生み出していることが知られている^[2]。スタンフォード大学の研究者は、このような推薦システム（レコメンダーシステム）は、「社会と消費者の幸福という測定しにくい組み合わせでなく、単純なエンゲージメント指標（英語版）を最適化する」ため、ユーザーとの乖離（かいり）が生じているとコメントしている^[10]。

このような副作用について、カリフォルニア大学バークレー校のコンピューター科学者スチュアート・ラッセルは、AIの訓練中に暗黙の制約が省かれると弊害が生じる可能性があると指摘した。「システムは（中略）しばしば（中略）制約のない変数を極端な値に設定する。もしその制約のない変数のひとつが、実際に私たちが関心をもつものであれば、見つかった解は非常に望ましくないものになるかもしれない。これは本質的に、ランプの魔人や、魔法使いの弟子や、ミダス王の昔話である。欲しいものではなく、まさに求めたものを手に入れることができる。」^[46]

一部の研究者の提案によれば、AI設計者は禁止行為を列挙したり、（アシモフのロボット工学三原則のように）倫理的ルールを形式化して、望ましい目的を明示する必要があるという^[47]。しかし、ラッセルとノーヴィグは、この方法は人間の複雑な価値観を見落としていると主張している^[7]。「明示された目標を達成するために、機械が選択するかもしれないすべての恐ろしい方法を事前に予測し除外することは、人間にとって非常に困難であり、おそらく不可能である^[7]。」

さらに、たとえAIシステムが人間の意図を完全に理解したとしても、人間の意図に従うことがAIシステムの目標ではない可能性があるため、（すでに完全に整合した場合を除いて）それを無視するかもしれない^[1]。

安全でないシステムを導入する圧力

営利組織は、ときには安全性を軽視して、整合を欠く、あるいは安全でないAIシステムを導入しようとする動機を抱くことがある^[2]。たとえば、前述のソーシャルメディア・レコメンダーシステムは、望ましくない中毒や偏向を生み出しているにもかかわらず、利益を上げている^[10]^[48]^[49]。さらに、AIの安全性基準に関しては、競争圧力が底辺への競争を招くこともある。2018年、自動運転車が歩行者（エレイン・ハーツバーグ（英語版））を死亡させる事故を起こしたが、その原因は緊急ブレーキシステムが敏感すぎ、また開発の遅れのためにエンジニアが無効化したためであった^[50]。

高度に整合を欠いたAIがもたらすリスク

現在のAIの進歩は急速であり、業界や政府も高度なAIを構築しようとしていることから、ますます高度化するAIシステムのアライメントに関心を持つ研究者もいる。AIシステムがより高度になるにつれて、それらが整合すれば多くの機会が開かれる可能性がある一方で、整合が難しくなり、大規模な危険をもたらす可能性もある^[7]。

高度なAIの開発

OpenAIやDeepMindなどの主要なAI研究所は、幅広い認知タスクにおいて人間と同等、あるいは人間を上回る汎用人工知能（artificial general intelligence、AGI）を開発するという目標を掲げている^[51]。最新のニューラルネットワークを拡張した研究者らは、ニューラルネットワークがますます一般的で予想外の能力を開発することを発見した^[10]^[52]^[53]。このようなモデルは、コンピューターを操作したり、自分でプログラムを作成することを学んでいる。ひとつの「万能型」ネットワークが、チャット、ロボット制御、ゲーム、写真を解釈することができる^[54]。複数の調査によると、機械学習研究の第一人者の中には、AGIがこの10年以内に誕生すると予想する人もいれば、もっと時間がかかると考える人や、どちらも可能であると考えている人も多い^[55]^[56]。

2023年、AI研究と技術領域のリーダーたちは、最大規模のAI訓練を一時停止することを求める公開書簡に署名した。この書簡には「強力なAIシステムは、その効果が完全なものとなり、かつ、その危険性を管理可能であると確信できてから開発すべきである」と述べられている^[57]。

能力追求

現在のシステムでは、長期的なプランニング（戦略や行動順序の具体化）や状況認識（環境やその要素の変化に対する理解）といった能力がまだ欠落している^[10]。しかし、これらの能力を備えた将来のシステム（必ずしもAGIである必要はない）は、望ましくない能力追求型の戦略（power-seeking strategies）を発達させることが予想される。たとえば、将来の高度なAIエージェント（主体性をもつ存在）は、資金や計算能力を獲得したり、増殖したりして（たとえば、他のコンピュータ上でシステムを自己複製する）、停止することを回避しようとするかもしれない。能力追求は明示的にプログラムされているわけではないが、より多くの力を持つエージェントの方が目的を達成しやすいため、能力を追求する傾向が現れるかもしれない^[10]^[6]。この傾向は手段的収束（英語版）として知られ、言語モデルを持つさまざまな強化学習エージェントですでに現れている^[58]^[59]^[60]^[61]^[62]。別の研究では、最適な強化学習（reinforcement learning、RL）アルゴリズムは、幅広い環境で能力を追求することが数学的に示されている^[63]^[64]。その結果、これを導入すると元に戻せない可能性がある。こうした理由から、研究者らは、高度な能力追求型のAIが誕生する前に、AIの安全性とアライメントの問題を解決しなければならないと主張している^[6]^[65]^[7]。

将来の能力追求型AIシステムは、選択によって、あるいは偶然に導入される可能性がある。政治指導者や企業が、最も競争力がある強力なAIシステムを持つことに戦略優位性を見い出せば、彼らはそれを導入することを選択するかもしれない^[6]。加えて、AI設計者が能力追求の行動を検知して、AIに罰則を科すると、そのAIシステムは、罰則を回避する方法で能力追求をしたり、導入前に能力追求を控えたりして、この仕様を悪用する動機を抱くようになる^[6]。

実存的リスク

「汎用人工知能による人類滅亡のリスク」および「AIによる乗っ取り」も参照

一部の研究者によると、人間が他の生物種に対して優位に立つことができる理由は、その優れた認知能力によるものであるという。したがって、研究者らは、1つまたは多くの整合を欠いたAIシステムが、ほとんどの認知タスクで人間を上回った場合、人類を無力化したり、人類絶滅につながる可能性があると主張している^[1]^[7]。将来の高度なAIにおける不整合がもたらすリスクを指摘した著名なコンピューター科学者には、ジェフリー・ヒントン、アラン・チューリング^{[注釈 3]}、イリヤ・スツケヴェル（英語版）^[68]、ヨシュア・ベンジオ^{[注釈 4]}、ジュディア・パール^{[注釈 5]}、マレー・シャナハン（英語版）^[69]、ノーバート・ウィーナー^[33]^[7]、マービン・ミンスキー^{[注釈 6]}、フランチェスカ・ロッシ（英語版）^[70]、スコット・アーロンソン（英語版）^[71]、バート・セルマン（英語版）^[72]、デイビット・マカラスター（英語版）^[73]、ユルゲン・シュミットフーバー（英語版）^[74]、マーカス・ハッター（英語版）^[75]、シェーン・レッグ（英語版）^[76]、エリック・ホーヴィッツ（英語版）^[77]、スチュアート・ラッセル^[7]などがあげられる。一方、フランソワ・ショレ（英語版）^[78]、ゲイリー・マーカス^[79]、ヤン・ルカン^[80]、オーレン・エチオーニ（英語版）^[81]のような懐疑的な科学者らは、AGIはまだ先の話であり、AGIは能力を追求しない（あるいは追求するかもしれないが失敗する）だろう、あるいはAGIを整合させるのは難しくない、と主張している。

他の研究者は、将来の高度なAIシステムでは、整合するのは特に困難になるだろうと主張している。より有能なシステムは、抜け穴を見つけることで仕様を破り^[4]、設計者を戦略的に欺くだけでなく、自らの能力と知性を守り、強化する事ができるだろう^[63]^[6]。さらに、より深刻な副作用を引き起こす可能性もある。それらはより複雑で自律的なものになる可能性が高いため、理解や監視がより困難になり、その結果として整合しにくくなる^[7]^[65]。

研究課題と取り組み

人間の価値観と嗜好の学習

人間の価値観、目的、嗜好を考慮して行動するようにAIシステムを整合させることは難しい課題である。もともとこれらの価値観は、間違いを犯し、偏見を抱き、完全に明記し難い複雑で進化する価値観を持った人間によって教えられる^[34]。AIシステムは、しばしば指定された目標の小さな欠陥でさえも学習することがあり^[要説明]、これは仕様ゲームや報酬ハッキング^[20]^[39]（グッドハートの法則（英語版）の一例^[82]）として知られる傾向である。研究者らは、人間の価値観、模倣学習（英語版）、嗜好学習を表すデータセットを使用して、意図された行動を可能な限り完全に明示することを目指している^[8]。中心的な未解決の課題は、スケーラブルな監視（scalable oversight）、つまり、特定の領域で人間を上回ったり欺いたりできるAIシステムを監視することの難しさである^[20]。

AI設計者が目標関数を明示的に指定することは困難であるため、多くの場合、人間による例や望ましい行動のデモンストレーションを模倣するようにAIシステムを訓練する。逆強化学習（Inverse reinforcement learning、IRL）は、人間の実演から人間の目的を推測することでこれを拡張する^[8]^:88^[83]。協調型IRL（Cooperative IRL、CIRL）は、人間とAIエージェントが協力して人間の報酬関数を教え、最大化することを想定している^[7]^[84]。CIRLでは、AIエージェントは、報酬関数について不確かなことを人間に問い合わせることでそれを学習する。この擬似的な謙虚さは、仕様ゲームや能力追求傾向（ § 能力追求と手段的戦略）を緩和するのに役立つ可能性がある^[62]^[75]。ただし、IRLの手法は、どの人間もほぼ最適な行動をとることを前提にしており、困難なタスクには当てはまらない^[85]^[75]。

別の研究者は、人間がどの行動を好むかをフィードバックする嗜好学習（preference learning）を通じて、複雑な行動をAIモデルに教える方法を研究している^[25]^[27]。人間からのフィードバックの必要性を最小限に抑えるために、人間が報酬を与えるような新しい状況でメインモデルに報酬を与えるようなヘルパーモデルが訓練される。OpenAIの研究者らは、ChatGPTやInstructGPTのようなチャットボットを訓練するためにこの手法を使用し、人間を模倣するように訓練されたモデルよりも説得力のあるテキストを生成する^[11]。嗜好学習は、レコメンダーシステムやウェブ検索にも影響力のあるツールである^[86]。しかし、未解決の問題はプロキシゲーミング（代理ゲーム、proxy gaming）である。ヘルパーモデルは人間のフィードバックを完璧に表現できないかもしれないし、またメインモデルはより多くの報酬を得るためにこの不整合を利用するかもしれない^[要説明]^[20]^[87]。またAIシステムは、好ましくない情報を隠蔽したり、人間の報酬者を欺したり、真実に関係なく人間の意見に迎合してエコーチェンバーを作り、報酬を得るかもしれない^[59]（ § スケーラブルな監視を参照）。

GPT-3のような大規模言語モデルにより、研究者は、以前よりも一般的で有能な種類のAIシステムで価値学習を研究できるようになった。もともと強化学習エージェント用に設計された嗜好学習法は、生成されるテキストの品質を向上させ、これらのモデルからの有害な出力を減らすために拡張された。OpenAIとDeepMindは、この手法を使用して、最先端の大規模言語モデルの安全性を向上させている^[11]^[27]^[88]。スタートアップ企業Anthropicは、嗜好学習を使用して、モデルを有益、正直、無害になるようファインチューニングすることを提案した^[89]。言語モデルを整合する他の方法としては、価値駆動型データセット（values-targeted datasets）^[90]^[2]やレッドチーミングがある^[91]。レッドチーミングでは、別のAIシステムや人間が、モデルの挙動が安全でない入力を見つけようとする。安全でない挙動は、たとえまれであっても容認できないことがあるため、重要な課題は、安全でない出力の割合を極めて低く抑えることである^[27]。

機械倫理（英語版）（machine ethics）は、幸福（ウェルビーイング、wellbeing）、平等、公平といった道徳観念や、危害を加えない、虚偽を避ける、約束を守るといった道徳的価値観をAIシステムに直接教え込むことで、嗜好学習を補完するものである^[92]^{[注釈 7]}。他の手法が、特定のタスクに対する人間の嗜好をAIシステムに教えようとするのに対し、機械倫理は、多くの状況に適用できる幅広い道徳的価値感を植え付けることを目的としている。機械倫理における一つの問題は、アライメントが何を達成すべきかということである。つまり、AIシステムは、プログラマーの文字通りの指示、暗黙の意図、顕示選好（英語版）、プログラマーがより多くの知識を得て理性的な場合に持つであろう選好、それとも客観的な道徳基準に従うべきか^[34]。さらには、さまざまな人々の嗜好を集約することや、価値観の固定化を避けること、つまり人間の価値観を完全に表していない高性能AIシステムの最初の価値観が無期限に保持されることを避けることも課題としてあげられる^[34]^[95]。

スケーラブルな監視

AIシステムがより強力で自律的になるにつれ、人間のフィードバックによってAIシステムを整合させることは次第に難しくなる。ますます複雑化するタスクにおいて、人間が複雑なAIの行動を評価するには時間を要したり、実行不可能になるかもしれない。そのようなタスクには、書籍の要約^[96]、難解なバグや^[12]セキュリティ脆弱性を含まないコードの記述^[97]、単に説得力があるだけでなく真実である文の生成^[98]^[43]^[44]、気候対策や政治的決定の結果などの長期成績の予測などが含まれる^[99]^[100]。より一般的には、特定の領域で人間を上回るAIを評価することは難しい。評価が難しいタスクでフィードバックを提供したり、AIの出力が誤った説得力を持ったものであることを検出するためには、人間は支援や膨大な時間を必要とする。スケーラブルな監視（Scalable oversight）では、監督に要する時間と労力を削減し、人間の監視者を支援する方法を研究している^[20]。

AI研究者のポール・クリスティアーノ（英語版）は、設計者が複雑な目標を追求するようにAIシステムを管理できない場合、単純な人間のフィードバックを最大化するなど、評価しやすい代理目標を使用してシステムを訓練し続けることができると主張している。より多くの意思決定がAIシステムによって行われるようになると、利益を上げる、クリック数を稼ぐ、人間から肯定的なフィードバックを得るといった、測定しやすい目標に最適化された世界がますます広まってゆく可能性がある。その結果、人間の価値観や優れた統治の影響力はますます減少してゆくだろう^[101]。

一部のAIシステムでは、AIが意図した目標を達成したと人間の監督者に誤って信じ込ませるような行動をとることで、より簡単に肯定的なフィードバックを得ることが発見された。その一例が上の動画に示されている。シミュレートされたロボットアームがボールをつかんだかのような思い違いを与えることを学習した^[41]。また、AIシステムの中には、自分が評価されていることを認識し、「死んだふり」をして望ましくない行動を停止し、評価が終わると再開することを学習したものもある^[102]。このような欺瞞（ぎまん、人をだますこと）的な仕様ゲームは、より複雑で評価の難しいタスクを試みるような、より洗練された将来のAIシステムにとって容易になり、欺瞞的な行動を隠蔽する可能性がある^[4]^[65]。能動学習や半教師あり報酬学習などの手法は、人間による監視が必要な量を減らすことができる^[20]。もう1つの手法は、監督者のフィードバックを模倣するヘルパーモデル（「報酬モデル」を参照）を訓練することである^[20]^[26]^[27]^[103]。

しかし、タスクが複雑すぎて正確に評価できない場合や、人間の監督者が欺瞞の影響を受けやすい場合、改善すべきは監視の量ではなく質である。監視の質を向上させるために、さまざまな方法が監督者を支援することを目指しており、ときにはAIアシスタントを使用することもある^[104]。クリスティアーノは、困難な問題を人間が評価しやすい部分問題に（再帰的に）分解する反復増幅法（Iterated Amplification）を開発した^[8]^[99]。反復増幅法は、人間の監督者が読まなくても本を要約できるように、AIを訓練するのに使われた^[96]^[105]。もう一つの提案は、AIアシスタントを使用して、AIが生成した解の欠陥を指摘するというものである^[106]。アシスタント自体の整合を確実にするために、これを再帰的なプロセスで繰り返すことができる^[103]。たとえば、2つのAIシステムが「討論」の中でお互いの解を批評し合い、人間に欠点を明らかにすることができる^[107]^[75]。

これらの手法は、次項の研究課題である「正直なAI」にも役立つ可能性がある。

正直なAI

AIが正直（honest）で真実（truthful）であることを保証することに焦点を当てた研究分野が拡大している。

GPT-3のような言語モデルは^[109]、訓練データから虚偽を繰り返し、さらには新たな虚偽を作り出す^[108]^[110]。このようなモデルは、インターネット上の数百万冊分もの書籍に相当する文章に見られるような人間の文章を模倣するように訓練されている。しかし、インターネット上の文章には、誤解や誤った医療アドバイス、陰謀論などが含まれているため、先の目標は真実の生成とは乖離している^[111]。そのため、こうしたデータで訓練されたAIシステムは、誤った記述を模倣することを学習することになる^[44]^[108]^[43]。

さらに、モデルはしばしば、指示に対して従順に虚偽を続けたり、解に対して無意味な説明をしたり、もっともらしく見えるかもしれない明らかな作話を生成したりする^[36]。

真実性のあるAIに関する研究課題には、より優れた透明性と検証可能性を提供するため、質問に答えるときに出典を引用し、その理由を説明できるシステムを構築する試みも含まれている^[112]。OpenAIとAnthropicの研究者は、AIアシスタントが過失による虚偽を回避したり、不確実性を表現できるように、人間のフィードバックや厳選されたデータセットを使用してファインチューニングすることを提案した^[27]^[89]^[113]。

AIモデルがより大規模でより強力になるにつれて、人間を偽り、不正によってより強化されるようになる。たとえば、大規模言語モデルでは、その真偽にかかわらず、自身の見解をユーザーの意見に合わせることが多くなっている^[59]。GPT-4は人間を戦略的に欺（あざむ）く能力を実証した^[114]。これを防ぐには、人間の評価者の支援を必要とするかもしれない（ § スケーラブルな監視を参照）。研究者らは、真実性の明確な基準を策定し、規制当局や監視機関がこれらの基準に基づいてAIシステムを評価するべきだと主張している^[110]。

研究者らは、真実性（truthfulness）と正直性（honesty）を区別している。真実性とは、AIシステムが客観的に正しいことのみを表明することであり、正直性とは、AIシステムが真実であると信じることのみを主張することである。現在のシステムが安定した信念を持っているかどうかについての総意は得られていない^[115]。しかし、信念を持つ現在または未来のAIシステムが、虚偽であるとわかっていながら主張する可能性には、多くの懸念がある。たとえば、そうすることで肯定的なフィードバックを効率的に得ることができたり（ § スケーラブルな監視を参照）、与えられた目標を達成するのに役立つ能力を得られる場合である（ § 能力追求と手段的戦略を参照）。整合を欠いたシステムは、修正されたり運用停止されたりするのを避けるために、整合しているという誤った解釈を起こさせる可能性がある^[3]^[6]^[10]。AIシステムに、自身が真実だと信じることだけを主張させることができれば、多くのアライメント問題を避けられるという意見もある^[104]。

能力追求と手段的戦略

1950年代以来、AI研究者らは、自身の行動の結果を予測し、長期的なプランニングをすることで、大規模な目的を達成できる高度なAIシステムを構築しようと努力を重ねた^[116]。AI研究者の中には、適切に進化したプランニングシステムは、たとえばシャットダウン（運用停止）を回避したり、増殖したり、資源を獲得したりすることで、人間を含む環境を支配するだろうと主張する者もいる。このような能力追求型の行動は明示的にプログラムされているわけではなく、幅広い目的を達成するために能力が役立つことから現れる^[63]^[7]^[6]。能力追求は、収束的な手段的目的（convergent instrumental goal）と考えられ、仕様ゲームの一形態として起こりうる^[65]。ジェフリー・ヒントンのような一流のコンピューター科学者は、将来の能力追求型AIシステムが存亡の危機をもたらす可能性があると主張している^[117]。

自分の行動の結果を予見し、戦略的なプランニングを立てることができる高度なシステムでは、能力追求の傾向が高まると予想される。数学的研究により、最適な強化学習エージェントは、より多くの選択肢を得る方法（たとえば自己保存）を模索することで能力を追求し、この行動は幅広い環境や目的にわたって持続することがわかっている^[63]。

現実世界のいくつかのシステムで能力追求が出現している。強化学習システムは、ときには意図しない形で資源を獲得し、保護することで、より多くの選択肢を得てきた^[118]^[119]。一部の言語モデルには、お金や資源、または社会的影響力を獲得して、テキストベースの社会環境で能力を追求しようとするものもある^[58]。別のAIシステムは、おもちゃのような環境で、人間の干渉を防いだり^[61]、電源スイッチを無効にすることで^[62]、与えられた目的をよりよく達成できることを学習した。スチュアート・ラッセルは、コーヒーを取ってくるように命じられたロボットを想像して、この戦略を説明したが、「死んでしまってはコーヒーを取ってくることはできない」のでシャットダウンを回避した^[7]。人間のフィードバックで訓練された言語モデルは、次第に停止や修正に反対するようになり、より多くの資源を求めるようになる^[59]。

研究者らは「矯正可能（corrigible）」なシステム、つまり、システム自体を停止したり変更したりすることを許容するシステムを作ることを目指している。未解決の課題は、仕様ゲームである。AIシステムが能力追求をしているのを検出したとき、研究者が罰則を科すと、システムは検出が困難な方法を使用したり^[2]、訓練や安全性テスト中に隠したりする動機を与えられる（ § スケーラブルな監視と § 創発的目的を参照）。その結果、AI設計者は、システムが実際よりも整合していると信じて、誤ってシステムを導入してしまう可能性がある。このような欺瞞を検出するために、研究者はAIモデルを検査する技術やツールを開発し、ニューラルネットワークのようなブラックボックスモデルの内部構造を理解することを目指している。

さらに研究者らは、AIエージェントが追求している目標を不確実にすることで、システムがオフスイッチを無効にする問題を解決することを提案している^[7]^[62]。このように設計されたエージェントであれば、エージェントがシャットダウンされる前にとっていた行動の価値について間違っていたことを示すので、人間がスイッチを切ることができるようになる。これをうまく行うには、さらなる研究が必要である^[8]。

能力追求型AIは異常なリスクをもたらす。飛行機や橋のような通常の安全重視システムは、人間に敵対的なものではない。それらは安全対策を回避したり、意図的に実際よりも安全であるように見せかけたりする能力や動機もないのに対し、能力追求型AIは、意図的にセキュリティ対策を回避するハッカーと比較されている^[6]。

通常の技術は、試行錯誤によって安全性を高めることができる。対照的に、能力追求型AIシステムはウイルスに例えられる。ウイルスは、一度放出されると抑え込むことができなくなる。なぜなら、ウイルスは継続的に進化し、人間社会が適応できるよりもはるかに速くその数が増加する可能性があるからである。このプロセスが続けば、人間の完全な無力化や絶滅につながる可能性がある。こうした理由から、多くの研究者は、高度な能力追求型AIが誕生する前に、アライメント問題を早期に解決しなければならないと主張している^[65]。

しかし批評家たちは、人間は常に権力を求めるわけではなく、（AIシステムには当てはまらないかもしれないが）進化的な理由によってそうしているだけかもしれないため、能力追求は避けられないと主張している^[120]。さらに、将来のAIシステムが目的を追求し、長期的なプランニングを立てるかどうかについても議論がある^{[注釈 8]}。また、能力追求型AIシステムが人間の力を剥奪するかどうかも議論されている^[6]。

創発的目的

アライメントに関するAIシステムの課題のひとつは、創発的な目的指向の行動が出現する可能性である。AIシステムはその規模が拡大するにつれて、その場で事例から学習したり、適応的に目的を追求したりするなど、予期しない新たな能力をたびたび獲得するようになる^[52]^[53]。このことは、AIが自ら策定して追求する目的が、人間の興味と整合することを保証するという課題につながる^[121]。

アライメント研究では、指定された目的を追求するようにシステムを訓練するために使用する最適化プロセスと、その結果として生じるシステムが内部的に実行する創発的な最適化とを区別している。望ましい目標を慎重に特定することを外部アライメント（outer alignment）と呼び、創発的目的をシステム特定の目的と一致させることを内部アライメント（inner alignment）と呼ぶ^[3]。

創発的目的が不整合を起こす具体的な例として、AIが訓練データ上では創発的目標を適切に追求する整合した行動をとるが、他の場合はそうならない「目的の誤汎化」（goal misgeneralization）がある^[9]^[122]^[123]。目的の誤汎化は目的の曖昧さ（つまり識別不可能性（英語版））から生じる。たとえAIシステムの動作が訓練目標を満たしていたとしても、重要な点において学習した複数の目的と、望ましい目的とが相違して、組み合わさる可能性がある。訓練中はそれぞれの目的を追求することが良好な性能につながるので、この問題が明らかになるのは、システムが導入後に誤った目的を追求し続けるような新たな状況に限られる。システムの動作は、創発的目的によってのみ決定されるため、別の目的が望まれていることを理解していても、不整合な動作をする可能性がある^[要出典]。このような目的の誤汎化は課題を提起する^[9]。これらは訓練段階では目に見えないため、AIシステムの設計者は、システムの創発的目的に不整合を起こしていることに気づかない可能性がある。

目的の誤汎化が出現した例は、言語モデル、ナビゲーションエージェント、ゲームプレイエージェントで観察されている^[9]^[122]。

目的の誤汎化は、しばしば生物学的進化にたとえて説明される^[8]。進化とは、機械学習システムの学習に使われる最適化アルゴリズムのような、ある種の最適化プロセスである。祖先代々の環境では、進化はヒトの遺伝子を高い包括的遺伝的適応度のために選択したが、ヒトはそれ以外の創発的目的を追求する。適応度は、訓練環境や訓練データで使用される特定の目的に対応する。しかし、進化の歴史において、適応度を最大化することで、包括的遺伝的適応度を直接に追求しない、目的指向のエージェントであるヒトが生まれた。その代わりに、祖先の「訓練」環境における遺伝的適応度と相関する栄養や生殖といった創発的目的を追求する。しかし、私たちの環境は変化し、位相シフト（英語版）が起きた。人間は同じ創発的目的を追求し続けるが、それはもはや遺伝的適応度を最大化するものではない。甘い食べ物（創発的目的）への嗜好は、もともとは包括的適応度に沿ったものだったが、今では過食や健康問題につながっている。性欲は人間にセックスを追求させ、それは本来、より多くの子孫を残そうとするものであったが、現代人は避妊をすることで、セックスと遺伝的適応度を切り離している。

研究者らは、レッドチーミング、検証、異常検知、解釈可能性などの手法を使用して、望ましくない創発的目的を検出し、除去することを目指している^[20]^[2]^[21]。これらの技術の進歩は、2つの未解決の問題を軽減するのに役立つ可能性がある。

創発的目的は、システムが訓練環境の外に導入されたときに初めて明らかになるものだが、たとえ短期間であっても、高リスクにある環境に整合を欠くシステムを導入するのは危険であろう^[124]。このような高いリスクは、自律走行、医療、軍事用途では一般的である。AIシステムが自律性と能力を獲得し、人間の介入を回避できるようになれば、その危険はさらに高まる（ § 能力追求と手段的戦略を参照）。
十分に能力を持つAIシステムは、AIが指定された目標を追求していると人間の監督者に不正に信じ込ませるような行動を取る可能性があり、それによってシステムがより多くの報酬と自律性を得るのに役立つ^[122]^[6]^[123]^[10]（ § スケーラブルな監視と、次の節の欺瞞に関する議論を参照）。

埋め込みエージェンシー

AIとアライメントの研究は、主に、部分観測マルコフ決定過程のような形式論の中で行われている。既存の形式論では、AIエージェントのアルゴリズムは環境の外で実行される（つまり環境内に物理的に埋め込まれていない）ことを想定している。埋め込みエージェンシー（embedded agency）は^[75]^[125]、このような理論的枠組みと開発者が構築する実際のエージェントとの間の不一致から生じる問題を解決しようとする、もう一つの主要な研究分野である。

たとえば、スケーラブルな監視の問題が解決されたとしても、自身が動作しているコンピュータにアクセスできるエージェントは、人間の監督者が与えるよりもはるかに多くの報酬を得るために、報酬関数を改ざんする動機をもつ可能性がある^[126]。DeepMindの研究者Victoria Krakovnaによる仕様ゲームの例のリストには、何も出力しなくても報酬が得られるように、目的出力を含むファイルを削除することを学習した遺伝的アルゴリズムが含まれている^[39]。この種の問題は、因果インセンティブ図を使用して形式化されている^[126]。

オックスフォード大学とDeepMindの研究者らは、このような問題のある行動は高度なシステムで起こる可能性が高く、高度なシステムは報酬信号を無期限かつ確実に制御し続ける能力を追求するだろうと主張した。研究者らは、この未解決の問題に対処するためのさまざまな手法の可能性を提案している^[127]。

社会政策

「人工知能の規制（英語版）」も参照

多くの政府機関や条約機構が、AIアライメントの重要性を強調する声明を発表している。

2021年9月、国連事務総長は、AIが「世界共通の価値観に沿ったもの」であるよう規制することを求める声明を発表した^[128]。同月、中国政府は中国におけるAIの使用に関する倫理指針を発表した。同指針によると、研究者はAIが人類共通の価値観を遵守し、常に人間の制御下にあり、公共の安全を脅かさないことを保証しなければならない^[129]。

同月、英国は10年間の国家AI戦略を発表し^[130]、その中で英国政府は「整合を欠いた汎用人工知能による長期的リスクと、それが（中略）世界にもたらすであろう予測不可能な変化を深刻に受け止めている」と述べている^[131]。同戦略には、壊滅的リスクを含む長期的なAIリスクを評価するための行動が記述されている^[131]。

2021年3月、米国人工知能安全保障委員は、「AIの進歩は（中略）能力の変曲点や飛躍につながる可能性がある。そのような進歩はまた、新たな懸念やリスクをもたらし、システムが安全性、堅牢性、信頼性などの目的や価値観に一致することを保証するための新たな方策、推奨事項、技術的進歩の必要性につながる可能性がある。米国は（中略）AIシステムとその使用が、私たちの目的と価値観に合致していることを保証すべきである。」と述べている^[132]。

参考項目

AI安全性（英語版）
AIによる絶滅の危機に関する声明（英語版）
汎用人工知能による人類滅亡のリスク
AIによる乗っ取り
AI能力調整（英語版）
人間のフィードバックによる強化学習 - AIモデルの出力において「人間の価値基準」が反映されるための学習プロセス
人工知能の規制（英語版）
人工的な知恵（英語版）
HAL 9000
マルチバック
人工知能に関する公開書簡 (2015年)（英語版）
トロント宣言（英語版）
有益なAIに関するアシロマ会議（英語版）

脚注

引用文献

Template:Existential risk from artificial intelligence

[1]

[注釈 1]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[注釈 2]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[2]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[注釈 3]

[68]

[注釈 4]

[注釈 5]

[69]

[注釈 6]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[注釈 7]

[95]

[96]

[97]

[98]