AIにゲーム実況をさせてみよう！ AIプレイも含めて考える

こんにちは、ニケです。

皆さん、AIにゲームを遊ばせて実況までやらせてみたいと思ったことはありますか？
私は以前からそういうのを作って遊んでいて、2024年の11月には何でも生成AI展示会で展示したこともあります（詳細は以下のnoteからどうぞ）。

⚠ この記事は展示会後の24/11/17（日）に加筆修正してます。こんにちは、ニケです。皆さん、24/11/16（土）に開かれる『生成AIなんでも展示会』には参加されましたでしょうか？生成AIなんでも展示会は、生成AI系個人開発者のデモ会です（個人である点がポイント）。生成AI系の開発者が集まり、制作物・実験結果などをブースで展示することで、技術を通じて交流を深めることが目的とのこと｡生成AIなんでも展示会 Vol.2｜IT勉強会・イベントならTECH PLAY［テックプレイ］ 2024/11/16（土）開催生成AIなんでも展示会 Vol.2 イベント概要

note.com

この記事は、AI実況を作ってみたい個人開発者や、AITuber的な配信構成を考えている人向けに書いています。

このシステムでは、プレイ担当 と 実況担当 の2つ仕組みが連携して動く構成でした。
プレイ側がゲーム画面を見て操作を決め、その情報から実況側が場面にあったリアルタイムのコメントを生成して喋る、という分業です。

展示会で動かすには何とか成立したものの、今になって振り返るといろいろと無理のある作りでした。

今回は、あれから1年半くらい経って状況がかなり変わったので、最近ならこう作るよ という3つのやり方をまとめていこうと思います。

昔の構成と、何が課題だったか

まず当時の実況の仕組みを簡単におさらいします。

ゲームを操作するプレイシステムが別に動いていて、実況システムはそのログを元にセリフを生成する、という2段構えでした。実況システムの流れはこんな感じです。

ゲーム画面のスクリーンショットをマルチモーダルAI（GPT-4o）に渡す
状況を解析してもらい、その場面にあった実況セリフを生成
Style-Bert-VITS2 で音声合成して喋らせる

2024年11月版の実況システム構成図

以下が実際の動画です。

これで何とか成立はしていたんですが、今振り返るとかなり無理のある構成でした。

実況として最大の課題は遅さです。
画面を見てから実際に発話するまでに、おおよそ20〜30秒かかっていました。そのほとんどがマルチモーダルAIの処理時間です。

実況なのに、今の場面を見てから発話するまでに数十秒かかる。
その間に盤面は間違いなく変わってしまいます。

コストの問題もありました。マルチモーダルAPIの料金が1時間あたり10数ドル。
配信で何時間も回したら、それだけで高額のAPI代になります。

というわけで、ここからが本題です。これを2026年現在ならどう解決するか、という話をします。
今回紹介する3つのやり方のうち、案1と案2は人間がプレイする映像にAI実況を付けるアプローチです。案3はAIがプレイも実況も両方こなす、より踏み込んだアプローチです。

案1: ゲーム映像と音を遅延させる

1つ目は、ちょっと逆転の発想みたいなやり方です。

AIを速くするんじゃなくて、視聴側の映像と音をAIの応答時間分だけ遅らせます。

AIがマルチモーダルで画面を解析して返答を生成するのに数秒かかるなら、プレイ映像と音声を同じだけ遅延させて配信すればOK、という考え方です。
視聴者からすると、AIの実況とゲーム画面がちゃんと噛み合っているように見えます。

ローカルLLMとOBS遅延を組み合わせた構成図

遅延の具体的な秒数はモデルによりますが、最近発表された gemma4:e4b を Mac mini で試したところ5〜10秒ほどでした。
ローカルモデルでこの速度が出るのは最近の話で、少し前なら同じことをするにはクラウドAPIに頼るしかなかったと思います。

遅延部分は自前で映像バッファを組まなくても、OBSの組み込み機能だけでいけます。

ローカルLLMの gemma4:e4b でデモンズソウルを遅延付き実況

わかりやすいようにAIが見ている映像と視聴者に見せる映像を並べてみた（今回は8秒遅延）

ある程度違和感無く発言できるようになってると思う pic.twitter.com/ADCEMrg0m9
— ニケちゃん (@tegnike) April 24, 2026

返答までの時間は定まっていないので、この映像では固定で8秒遅延させています。
コツは平均応答時間よりも少し短めに設定することです。映像の状況より少し早く話し始めてしまっても、発話している間にその場面に到達するため、視聴者からは違和感なく見えやすくなります。

この方式のいいところは、遅延を入れるだけなので既存の構成をほぼ変えなくていい ところです。
ローカルLLMで完結すれば API 課金も発生しないので、長く運用したい個人開発者にはうれしい組み合わせですね。

逆にマイナスな点は、リアルタイム性を捨てているところ。
コラボ配信のように相手の映像とリアルタイムで同期が必要な場面には向きません。

案2: 最新の高速マルチモーダルにそのまま投げる

2つめは、真っ直ぐな解決策です。

単純に、最新の速いマルチモーダルモデルを使います。

ここ半年くらいで、各社のマルチモーダルモデルがとにかく速くなっています。
私が最近試して一番手応えがあったのは gemini-3.1-flash-lite-preview で、画像込みでも 速いときは2秒ほどで返答が返ってきます。

以前撮影した gemini-3.1-flash-lite-preview を使ってカービィのエアライダーを実況した動画、どれくらいの速度で発話できてたのかちゃんと調べてみた

LLM応答（マルチモーダル込み）: 2.2秒くらい
LLM応答 + TTSの合計 : 4.4秒くらい

うーん、速い
4秒の遅延なら許容できるゲームは割とありそう pic.twitter.com/pw4gKhhoXW
— ニケちゃん (@tegnike) April 22, 2026

旧記事で20秒かかっていた処理が一桁秒で終わるわけですね。技術の進歩すごい。

速いだけじゃなくて、回答のクオリティも昔の高級マルチモーダルより明らかに良いです。
「遅い・壊れやすい」という問題をモデルの差し替えだけで一気に緩和できます。

このパターンの強みは、旧来の構成のまま中身のモデルを差し替えるだけで済む ところです。
画面キャプチャ → マルチモーダル送信 → セリフ生成・発話、のパイプライン自体はそのまま使えるので、すでに旧構成を持っている人ならほぼ書き換えゼロでいけます。

弱点はここまで速いモデルがこれ一択なところ。
クラウドモデル依存なので、値上げされたり提供終了したりしたら一気に計画が狂う可能性があります。

応用: バックグラウンドで状況を先読みする仕組み

案2の高速マルチモーダルをベースにした、もう一歩踏み込んだ応用の話もします。

ここまで紹介してきたやり方では、セリフ生成のタイミングで渡す画像は1枚だけでした。
ただし1枚だと、ちょうど映像の途中や画面が切り替わる瞬間を切り取ってしまうケースもあり、場面によっては状況を正確に読み取れずズレたセリフが出てしまうことがあります。

そこで、発話中の空き時間を活用することにしました。
音声合成が終わって再生が終わるまでの数秒間、システムは何もしていないので、ここを使います。

具体的に以下のような仕組みを取り入れました。

発話中（音声合成〜再生の間）、裏で数秒ごとにゲーム画面をキャプチャしてLLMに投げる
LLMは画像を見て、その状況を短いテキストに変換して返す
次のセリフを生成するとき、この「状況テキスト」をプロンプトに含める

こうすると、セリフを生成する段階で「今どういう状況か」が文字で渡せるので、画面情報を1つだけ渡していたよりも文脈にあったセリフが作れるようになります。
高速マルチモーダルがあるから成立する話で、発話中の数秒間に数回分のキャプチャ → テキスト化を終わらせられるのがポイントです。

以前試した gemini-3.1-flash-lite-preview を使ってポケモンチャンピオンズを実況した動画のリトライ

画面状況は音声発話の裏で走らせて、数フレーム分を知覚できるように改良

それでもやっぱズレというか、頓珍漢な発言をするときがあるのは、指示が甘いか情報が足りていないか pic.twitter.com/EpI6CELkUQ
— ニケちゃん (@tegnike) April 23, 2026

案3: テキストで状態が取れるゲームを選ぶ

ここまでは「人間がプレイする映像にAI実況を付ける」話でしたが、3つめは視点を変えて、AIがゲームのプレイ自体も担当するアプローチです。

冒頭で紹介したシステムでは、マルチモーダルAIで画面を解析して操作を決め、Arduinoでコントローラー入力をエミュレートする仕組みでプレイしていました。

昔のAIプレイシステム構成図

この仕組みには課題がいくつもありました。

マルチモーダルAIの処理で1ターンに30秒以上かかるうえ、ゲームごとに画面の状態や操作方法をあらかじめDBとして手動で用意する必要があります。
また画面認識が一度失敗すると詰まってしまうリスクもあり、安定して動かすのが難しい構成でした。

これらはすべて、「画面をマルチモーダルAIで解析する」ことへの依存から来る問題です。
オセロ・チェスのように、盤面や状態をテキストで取得できるゲームを選べば、このパイプラインが丸ごと不要になります。
実況も同様で、画面を解析する必要がなく、テキストのログをそのまま使えます。

まず試したのは、ゲーム自体を自作してしまうアプローチです。
Vibe codingの普及でゲームを作ること自体のハードルが下がった今、テキスト前提の設計を最初から組み込んだゲームを作るのは以前より現実的な選択肢になっています。

AIのゲーム実況に関して、遅延や誤認識が嫌なら画像・音声は使わず全てテキストで完結させようという試み

これは自作のカードゲームをプレイさせているところ

情報はすべてLLMが生成するテキストで完結し、操作も発言もLLMの出力をそのまま解釈して処理しているので速度も精度も気にならない（はず） pic.twitter.com/zy6ecdGqsG
— ニケちゃん (@tegnike) April 24, 2026

自作ゲームなら、情報のやり取りをゼロからテキスト前提で設計できます。
操作も実況セリフもLLMの出力をそのまま解釈して処理するので、画面認識由来の遅延や誤認識が入り込む余地がありません。

既存のゲームでも、状態をテキストで取得できるものなら同じことができます。例えば Pokémon Showdown です。

Pokémon Showdown! battle simulator