Dictionary Term

マルチモーダル (Multimodal / 多才な能力)

一言でいうと？

文字だけでなく、画像、動画、音声、プログラムなど、多種多様な情報を一度に理解し、処理できる「多才な能力」のことです。

これまでのAIは「耳の聞こえない読書家」のような存在で、テキストしか扱えませんでした。しかし、マルチモーダルなGemini 3.1（ジェミニ）は、目（画像・動画）、耳（音声）、そして口（テキスト・音声合成）をすべて兼ね備えています。

例えば：

「この動画の中で、何が起きているか説明して」
「この手書き図面を元に、Webサイトを作って」といった、視覚や聴覚を伴う複雑な依頼が可能です。

なぜこれがすごいの？

人間が世界を感知するのと同じように、AIも世界を「立体的」に捉えられるようになったからです。これにより、コミュニケーションのギャップが埋まり、より高度で直感的なやり取りが可能になります。

🔗 関連キーワード

[[Gemini]] ：マルチモーダル機能の代表格。
[[Long Context]] ：大量の動画や音声を一度に読み込める広さ。
[[Image Generation]] ：言葉から画像を作る逆方向の能力。

Gemini 3.1 Pro のマルチモーダル機能 (Official)

← 用語集一覧に戻る

初めてAIに触れる方向けの辞書の完全版を手に入れませんか？

導入としてAI、Gemini、Antigravityの難しい技術用語を慣れ親しんだ例で解説をする「概念の翻訳書」をご準備しました。Obsidian用に活用できるmdファイルを購入特典として活用いただけます。