強化学習の父、サットンが断言する「LLMは行き止まりだ」

AI界を席巻する大規模言語モデル(LLM)。しかし、「強化学習の父」リチャード・サットンは、このアプローチを「行き止まり(a dead end)」だと断言する。チューリング賞受賞者である彼が、なぜLLMの限界を指摘し、真の知能への別の道を提唱するのか。その核心に迫る。

LLMが「行き止まり」である3つの理由

サットンの主張は明確だ。LLMには知能の根本的な要素が欠けている。

1.    世界を「理解」していない

LLMは言葉を模倣するだけで、世界の仕組み(ワールドモデル)を持たない。自らの行動の結果を予測できず、想定外の出来事から学ぶ「驚き」のメカニズムがない。

2.   「目標」がない

知能とは目標達成能力である、とサットンは定義する。LLMには報酬を最大化するような実世界での目標がなく、単に「次の単語を予測する」だけでは継続的な改善は原理的に困難である。

3.   「経験」から学ばない

知能は、エージェント自らの行動と、その結果を観測する**「経験」**から生まれるべきだ。人間の作ったデータを模倣するLLMの学習は、この「経験的パラダイム」と根本的に異なる。

AI史が示す「苦い教訓」

サットンの見解は、AI研究の歴史的教訓に基づいている。人間の知識をAIに埋め込むアプローチは、計算能力を最大限に活用する汎用的な学習手法に常に敗北してきた。これが彼の言う**「苦い教訓(The Bitter Lesson)」**である。

LLMは人間の知識の巨大なアーカイブに依存しており、この教訓の新たな一例になりかねない。彼は、人間のデータに頼らず、純粋な「経験」から学ぶ、よりスケーラブルなシステムが将来LLMを凌駕すると予測する。

真の知能は「試行錯誤」から生まれる

サットンによれば、知能の本質は「模倣」ではなく**「試行錯誤」**にある。人間の赤ん坊のように、自ら世界に働きかけ、感覚、行動、報酬のデータストリームから学習するエージェントこそが、真のAIへの道だと彼は主張する。

このパラダイムは、現状のAIが苦手とする「汎化能力」や「知識の忘却」といった課題を乗り越える鍵となる。

結論:模倣の先へ

リチャード・サットンの提言は、LLMの成果を否定するものではない。むしろ、その成功に安住せず、その先にある「真の知能」とは何かを問い直すものだ。

言語の模倣という枠組みを超え、エージェントが実世界で目標を持ち、経験を通じて自律的に学習していく。その先にこそ、私たちが目指すべきAGI(汎用人工知能)の姿がある。

 

#AI #強化学習 #LLM #リチャードサットン #AGI #人工知能 #機械学習