2030年代前半までに起こるAIによる社会の激変｜Futurist（フューチャリスト）コミュニティ・メディア

[toc]

【前段】AIの発展を洞察する

おおよそ2030年代前半（2035年まで）にどのようなレベルのAIが実現され、どの程度社会に実装されていくのかを、外挿/想像していきたいと思います。外挿/想像にあたっては、実際のAI等の現状の発展具合やテクノロジーの未来予測統計サイト等踏まえておこなっていきたいと思います。
※あくまで筆者個人がほぼ確からしいと予測/想像する未来となります。

【結論】2030年代前半ごろまでに、SFで描かれていたような未来へ

以下が結論となります。

2020年代に各種AI技術（自然言語処理、映像認識、動作）が急速に発展し、マルチモーダルデータ（視覚、言語、聴覚、動作を掛け合わせたデータ）を柔軟に使用できるようになっていきます。2020年代前半までは正直、各種AI技術はおもちゃのような性能や特性しか持ち合わせていないという印象だったものが、突如実用的になることで、2030年代前半頃までにSFで描かれていたような未来（AIとの日常的な会話、汎用ロボットが街中に存在）が実現されているでしょう。

【解説】各種技術の発展

具体的には以下のような各種技術が発展していきます。

チャットボットAI　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　技術的には2030年頃、チャットボットAIがほぼ人間と見分けのつかないレベルでの応対をテキスト＋音声＋映像を媒介としてでできるようになるでしょう（チューリングテスト合格と同義です）。また、2035年には一人一台携帯端末にAI秘書/友達のようなものを保有し、人間レベルのアシスタント（雑談、調べもの）をデジタル上でこなしてくれていると思われます。
—
汎用ロボット　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　汎用ロボット（産業用）がおよそ2025年あたりから社会実装され始め、2035年には工場などの産業施設のみならず、スーパーやコンビニ、レストランなどでも（人型）汎用ロボットが日常的に見られるようになっているでしょう。
—
プログラミングAI　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　要件定義を明確にすれば1万行のコーディングも正確にこなすコーディングAIが2030年代前半頃リリースされ、単なる要件定義に従ってプログラミングをする作業は2040年代後半までに消滅するでしょう。
—
エンタメ向けAI　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　2035年までに、AIによって人間の介在なしに生成された小説、漫画、歌詞付の音楽、短編映像（5－10分程度）が世界的に人気になっていると思われます。また、画像/音声/音楽生成AIが進化するため誰もが専門的なクリエイタースキルなしで自分好みの作品を無料で生成できるサービスが普及していっているでしょう。その頃クリエイティブ領域も人間の専売特許ではないと多くの人がすでに認識していることになります。
—

昨今のAIの具体的な社会実装の印象としては、まだ “これは猫だ” “犬だ” といった画像識別レベルのAIや音声認識の精度が「少し良くなっていっている程度の認識」をほとんどの人が持っていると思いますし、2020年代前半から残り10年ちょっとで社会がSF的な未来になることを想像するのは難しいかもしれません。しかし、現状のAIの先端技術のレベルとその発展度合いを見る限り、ある意味で指数関数的な進化をしていると私は感じています。

事実、ほんの3年前(2019年あたり)までは人間との会話なんてお遊び程度でしかできていませんでした。しかし、GPT3（2020年発表）と呼ばれる巨大言語モデルの出現を皮切りに、注意深く返信を見ないと不自然なところが見つからないレベルまでに自然言語処理の性能は達しつつあります。
(https://gigazine.net/news/20201008-gpt-3-reddit/)

また以下「Metaculus」というテクノロジーや政治経済に関する未来予測を統計的に集計し、集合知を可視化するサイトでは、汎用人工知能（人間ができる課題なら何でもできる知能）の実現時期は2022年3月時点でおよそ2050年あたりだったのが、ここ最近の急激な各種AIの進歩で2022/7/4時点で2036年と急激に汎用人工知能実現予測次期が前倒しされています。
(https://www.metaculus.com/questions/5121/date-of-general-ai/)

上記のような昨今のAIの進展とMetaculus予測をもとに●チャットボットAI、●汎用ロボット、●プログラミングAI、●エンタメ向けAIの順に具体的にその予測の根拠を解説していきます。

（※Metaculusは初期の予測についてはお互いの予測が影響しあわないように統計値を非公開にしたり、成績のいい予測を残すユーザーの予測に重みづけをして、確率密度関数という形で技術の実現予測次期を可視化しています。また予測精度を競って賞金を授与する仕組みもあります。未来予測（この時期にこのイベントが起こるだろうとピンポイントに期待すること）は本質的には不可能なことではありますが、確率分布という形でならある程度の予測をすることは可能で、ランダムな予測（あてずっぽう）よりは94％の事例で良い推測結果を残しているようです。あるテクノロジーの実現時期については楽観的な人もいれば悲観的な人もいるのでそれらの人の情報のバイアスを統計的に重ね合わせて（集合知）、よりもっともらしい現実的な予測時期を推定している模様です。https://www.metaculus.com/about/　https://www.metaculus.com/help/faq/）

チャットボットAI

ソフトウェアの進展

ここ数年自然言語処理AIの能力は飛躍的に向上しています。2020年前半に発表された大規模自然言語処理モデル「GPT3」を皮切りに、わずか2年後にはPaLMという1つの機械学習モデルで質問応答や翻訳、ソースコードの生成・修正、ジョークの解説といったさまざまなタスクを処理できるAIモデルが発表されています。これはGPT3の常識的な自然言語処理能力をさらにこえており、150タスクからなるBIG-benchで人の平均スコア超えています。このように常識的な会話能力の面では人間に肉薄しつつある一方で、大規模言語モデルはそれっぽい会話はするが、「論理的な思考や計算能力」がないとされていました。　　　　

しかし、2022年7月に話題になったMinervaというPaLMをベースとした数学的な問題を解く言語モデルでは、理系のそこまで数学が得意ではない博士課程が40％の点を平均的に取得するMathというデータセットにおいておよそ50％の得点をたたき出しています。
（https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html）　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Mathに対するMinerva以前のSoTA（最高性能）は6.9%であり、とある専門家による予測では2025年頃に50%を超えるだろうとされていましたが、3年も早く実現されてしまいました。
（https://bounded-regret.ghost.io/ai-forecasting/）

これら最近の急激なAIの進歩を受けて、Metaculusの弱い汎用人工知能の実現時期予測は2022年3月時点で2040年代だったのが、2022年7月4日時点で中央値で2029年と大幅に時期が前倒しされています。(https://www.metaculus.com/questions/3479/date-weakly-general-ai-system-is-devised/)

ここでいう弱い汎用人工知能はローブナー賞銀賞(テキストベースのチューリングテスト、金賞は映像や音声でのコミュニケーションが含まれている)を取ることが要件に入っており、他種々の常識推論モデルで人間レベルに達することや、アメリカのセンター試験に該当するSAT試験において上位25％に入ること、Atariゲームを短い時間内にクリアすること等が要件に入っており、これらが「統合」されたモデルがこの弱い汎用人工知能となっています。このレベルまでいけば、人間と会話能力で区別できないのみならず、人間レベルのアシスタントも実質的にデジタル上で行うことが可能になることが予想されます。（※弱いという形容詞がつかない汎用人工知能は上記要件に加えて現実世界での人間レベルでの課題遂行能力を求められます。）
（https://www.metaculus.com/questions/5121/date-of-general-ai/）

また、上記弱い汎用人工知能の要件には音声や映像ベースでのやりとりでのチューリングテストに合格することは入っていませんでした。しかし、以下Metaculusの映画を見て何が起こっているかを正確に述べることができるか？という予測では2022年7月4日時点で70%近くの確信度で「2030年までに実現されるにyes」となっています。(https://www.metaculus.com/questions/11175/ai-movie-comprehension-before-2030/)　　　

現状でも、2022年4月にDeepmind社から、画像や映像に映っているものを自然言語で質問するとそれに対して返答する「Flamingo」というモデルが発表されています。
(https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model)
※こちらのURLに印象的なデモがたくさん載っていますので是非ご覧ください。

これら現状の技術とMetaculus予測値から、AIは映像＋言語＋音声のマルチモーダルな理解を包括的に行い、人間と見分けのつかない応答をするレベル（弱い汎用人工知能のレベル）までに2030年の段階で達していると予想されます。

ハードウェア（ニューロモーフィックチップ）の進展

そして、このような弱い汎用人工知能が2035年段階で一般市民の携帯端末に1つ搭載されている根拠はニューロモーフィックチップの搭載が今後急速に進むためです。（https://eetimes.itmedia.co.jp/ee/articles/2003/19/news099.html）

上記記事によると従来のプロセッサの1000倍の計算速度で特定の機械学習の推論処理等を行えるとしています。おおよそ現状の最新のスマートフォンの計算能力は最新のもので10^12Flops(1秒で浮動小数点演算を何回行えるか)のため、千倍すると10^15Flopsとなり、おおよそ人間の脳の機能的な能力に必要な計算能力程度にまで飛躍します。（人間の脳の機能的な能力に必要な計算速度は書籍、シンギュラリティは近いを参考）　　また、理化学研究所の高橋氏は以下の動画で、スマホのようなポケットサイズの端末に人間の脳が機能的なタスクに用いる計算量と同じ計算能力(10Pflops=10^16回１秒で浮動小数点演算)が2030年頃にはいるだろうと言っています。(54:20~)
（https://youtu.be/RbHq-zkstA4）　　　　　　　　　　　　　　　　　　　

弱い汎用人工知能の計算に必要な能力は人間の認知や思考に必要な計算能力程度が上限と考えると、ハードとして人間レベルの認知タスクに必要な計算資源があれば、そこに実装可能だと推察できます。

一人一台AI秘書の時代へ

以上のことから、ソフトウェアの進展（言語＋映像＋音声を包括的に認識して人間レベルの応答処理をこなすAIの実現）＋ハードウェアの進展（ニューロモーフィックチップが人間の脳の機能的な能力に必要な計算速度に達して携帯端末に入る）の双方がおおよそ2030年までに達成可能な勢いのため、2035年には一般の方の携帯端末にSF映画やアニメで見るような相棒・友達・秘書としてのAIが入っている世界観を想定できるのです。

マルチモーダル（言語＋映像＋音声）に世界を認識できるので、一緒に実際の現実や映画の映像を共有しながら旅行・趣味を共有をしつつAIと楽しんだり、仕事のサポートをお願いしたり、悩みを共有できるパートナーのような存在が社会に浸透しているでしょう。

働き方や日常の風景が変わるというレベルではなく、人類史上初めて人間以外の知性と社会が同居することになるため、ガラパゴス携帯→スマートフォンの時代以上の世界観の変化が2030年代に起こるでしょう。

汎用ロボット

深層学習は2022年現在GPT3を皮切りにして自然言語処理の分野で大きな進展を見せておりますが、ロボットの現実対応力も年々性能を上げています。中でも2022年4月に発表された「SayCan」と呼ばれるモデルは自然言語処理で簡単な命令をロボットにすると、そのタスクを実行します。
（https://say-can.github.io/）

上記URLでのデモを見ていただけるとわかるかと思いますが、「コーラをこぼしちゃったから、何か拭くものとコーラの代わりを持ってきて」と命令すると正しい順序で命令のサブタスクを分解し実行してくれます。

また、DeepMindが2022年5月に発表した「Generalist AI Gato」は単一のモデルでAtari社の沢山のゲームをプレイしたり、画像を見てテキストを生成したり、チャットをしたり、本物のロボットアームでブロックを操作したりなど、様々なタスクをこなすことが可能となっています。

2021年までは自然言語処理のAIによる躍進が目立っていましたが、今後数年で自然言語処理×視覚×動作をマルチモーダルに認識する汎用ロボットの研究開発が進み、およそ2025年頃には上記「SayCan」や「Gato」のようなモデルが洗練されて、企業で試験導入され始めると考えられます。最初は工場などの産業用ロボットとしての導入が主だと考えられ、以下URLのようにGoogleも産業用ロボットへ力を入れ始めています。
（https://newswitch.jp/p/32697）

また、消費者への露出が高いスーパーやコンビニ、デパート、レストランなどへの導入は、産業用ロボットの導入の成果が見え始める2020年代後半あたりからが進むと推定しています。Metaculusの予測では2021年に発表されて話題になった人型汎用ロボット「Tesla Bot」の一般消費者向けへの発売時期が2022年7月時点では2032年と予測されています。
（https://www.metaculus.com/questions/7791/tesla-bot-us-general-availability-date/）

上記人型汎用ロボットの一般市民向けへの販売予測時期が2032年というのを考慮しても、その前段階で法人向けへの導入は進んでいるでしょうから、2035年には日常生活の多くの場所で汎用（人型）ロボットを見かける頻度は多くなっているのではないでしょうか。信じられませんが、SFアニメの攻殻機動隊で出てくるタチコマのような汎用ロボットがうろついている世界が2030年代半ばには現実になるでしょう。

プログラミングAI

自然言語処理の分野が発達するにつれて、プログラミング言語も自然言語としてとらえて生成する強力なモデルが2021年頃から発表されはじめています。特に2022年初めに発表されたAlphaCodeは自然言語で指示された問題文を読みコードを生成します。そしてその能力は驚くべきことに、競技プログラミング参加者の中央値の得点を取得しています。競技プログラミングに参加するプログラマーの時点である程度プログラミングスキルは平均よりあると推定されるので、その中での中央値ということはまずまずのプログラミングができる能力があるということができるのではないかと考えます。まだ複雑な問題が苦手であったり、単純なコーディングミスもありますが、今後コーディング能力が洗練されていく中で、2025年頃には小規模（数十行）のコード生成ならほとんど確実に行えるようになっていると予測します。

Metaculusの以下の予測では1万行を超えるコーディングを誤りなく行う能力が2030年以前にAIにあるかという質問で、50%の確信度でyesにふられています。少し余裕を見ても2035年までには要件定義さえちゃんとすればほとんどどんなコーディングも規模によらずに生成してくれるAIが存在し、リリースされている可能性が高いと考えています。
（https://www.metaculus.com/questions/11188/ai-as-a-competent-programmer-before-2030/）

またプログラミングとは直接関係はないにせよ、先ほど説明したMinervaという数学問題を解く言語モデルはポーランドの高校レベルの数学試験を平均以上取得しており、順調にいけば2030年頃までには数学オリンピックで優勝してしまうレベルにまで達しているとMetaculusにて推測されています（2022年7月4日時点）。数学オリンピックに優勝するレベルのAIが2030年に存在するならば、コーディングレベルもトップレベルになっていても不思議ではないでしょう。
（https://www.metaculus.com/questions/6728/ai-wins-imo-gold-medal/）

ここからはプログラミングAIができることの年代別推移を想定していきます。おおよそ規模にもよりますが、小規模(数十行)なプログラミングは2025年、中規模（数百行~千行）なプログラミングは2030年、大規模（数万行）なプログラムは2035年（汎用人工知能実現予測時期あたり）にはほぼ確実に要件さえ与えれば実行可能になっているのではないかと考えています。

根拠は人間レベルの汎用人工知能実現時期の2035年までに、問題を与えられて回答するという形式の課題はほとんど確実にAIが遂行可能になっていくと考えているからです。つまり、そこから逆算して上記プログラムAIの発展度合いを想定しております。

2035年の汎用人工知能実現以降、要件定義さえも要望を聞き出して行うAIが誕生していくことになると考えますが、それ以前のプログラミングAIの発展も著しく、プログラマーは以下にうまく要件を定義するか、AIの作成したプログラムにバグなどはないかのテストをする作業に比重が傾いていくでしょう。

エンタメ向けAI

2021年初めにOpenAIから発表されたDALL-Eという自然言語を入力とした画像生成AIは2022年4月にもDALL-E2と進化し、続けざまにGoogleがImagen,PartiとDALL-E2の生成精度を超えるモデルを2022年5、6月頃発表しています。これらのAIは写実的な写真からアニメ風のタッチまでありとあらゆる文脈を自然言語で把握して画像として出力するモデルとなっており、実際の写真だったり、人間が書いたイラストや絵画と区別がつかないレベルになりつつあります。(https://imagen.research.google/)

また2022年には数秒程度の映像を自然言語から出力するCogVideoと呼ばれるモデルが清華大学とBAAIから発表されています。まだ映像については洗練が必要なレベルですが、徐々に実用的な映像が生成されていくものと思われます。(https://github.com/THUDM/CogVideo)

音楽生成技術も著しく進化しており、ジャンル、アーティスト、歌詞を入力すると自動で音楽を歌詞付で生成するJukeBoxからクラシック音楽を生成するPerceiver AR等も進んでいます。(https://www.deepmind.com/publications/perceiver-ar-general-purpose-long-context-autoregressive-generation)

時系列な分映像、次に音楽の生成が写真の生成よりも難しいと考えられますが、発展具合を見ると画像生成における2015年（GANと呼ばれる画像生成モデルAIが発表された年）を映像生成における2022年だとして、2025年に画像生成AIが完璧に自然言語から洗練された画像を生成するようになると仮定すれば、単純計算すれば2022年から10年後の2032年ごろ短編映像程度ならほぼ完ぺきなレベルで生成するAIが出現しているのではないでしょうか。

実際以下Metaculusの「AIの作成した長編映画がストリーミングサービスで人気になる年代の予測」では2022年7月4日時点で2035年程度と予測されており、2032年頃のAIによる映像生成技術の完成度は高いと見積もってもよいでしょう。(https://www.metaculus.com/questions/10955/ai-generated-film-ranked-1-in-streaming/)

短編映像の洗練され実用的なレベルの生成AIが2032年開発されるとして、他メディアの生成AIを逆算すると、写真が2025年、音楽が2027年、漫画作品生成が2030年といったイメージで進展していくかもしれません。

※漫画作品のAIによる生成について、「週刊少年ジャンプにて10ページ以上何等かAIが関与した作品をいつ載せるか？」という質問ではおよそ予測時期の中央値が2028年頃となっていることを鑑みてもその二年後あたりに実用的な漫画生成AIが実現されているのではと予想します。(https://www.metaculus.com/questions/7483/ai-artist-to-be-credited-in-shonen-jump/)

またあるメディアの洗練された生成AIが発表されてから3年程度後に世界中で人気または話題になる作品がAIから生まれるとしたら、写真・イラスト・絵画は2028年、音楽は2030年、漫画は2033年、短編映像は2035年頃に、AIが人間のクリエイターの強力なライバルになってくると推測できます。

そこからはAIが徐々に実力をつけ、それを加速させていくことになるでしょう。人間はヒットする作品を作るというところはAIに任せて、2030年代後半からはあるコミュニティに受け入れられる作品をこじんまり作成するようになっていくかもしれません。

【再結】2030年代からは世界がSFになる

以上説明したチャットボットAI,汎用ロボット、プログラミングAI、エンタメ向けAIが2030年代半ばまでに世界中である意味猛威を振るって「2020年代まで続いた人類史の転回点」になっていくでしょう。

人類はこれから初めて人類と同じような知性を持つ存在＝AIが社会にあふれ出していく有史以来の事態に巻き込まれていき、世界観は大きく変わってサイエンスフィクションのような世界が現実になっていくでしょう。日常的にAIと携帯端末を通して話しながら旅行を一緒にしたり、映画を一緒に見て楽しみあったり、恋人をバーチャルに作ったり、汎用ロボットがさまざまな軽作業をこなすようになり、自動運転タクシーサービスが普及しているでしょう。それがまさに2035年頃までに起こることだと私は強く確信しています。

そこからは既存の人間の価値観はある種、別の知的存在＝AIによって相対化され、昔からある偏見や価値観は瓦解していくことになると思います。その一方でAIによる差別・ハッキングやプライバシー等新たな問題も多数出てくるでしょう。

しかし、2030年代の人類史の転換点ともいえる急激なテクノロジーの変化にわくわくしませんか？既存の社会システムで苦しむ人々も、AIがどんどん人間の能力を追い抜いていくことで、人間同士の比較にあまり意味がなくなっていき、社会システムそのものが変化していくことで息苦しさが緩和されていくことは大いに考えられるでしょう。

今後のテクノロジーの発展の行く末、労働問題がいつなくなっていくか、VRやARやフルダイブの未来、はたまた超遠未来までの人類史のシナリオなどについてはまた別の記事で書きたいと思っています。

ご拝読ありがとうございました。

Futurist（フューチャリスト）コミュニティについて

Futurist（フューチャリスト）が集まるコミュニティ。「未来は “待つ” ものではなく “歩む” ものである」を掲げる。都内複数拠点で月1程度で活動。slackやZoomでは日常的に交流。各々がバックキャストするFuturist活動の相互支援やFuturism探求の視察・企画・共有会なども実施。 [ 活動内容の参考は こちら ]