Dictionary Term

マルチモーダル (Multimodal / 多才な能力)

一言でいうと?

文字だけでなく、画像、動画、音声、プログラムなど、多種多様な情報を一度に理解し、処理できる「多才な能力」のことです。

これまでのAIは「耳の聞こえない読書家」のような存在で、テキストしか扱えませんでした。しかし、マルチモーダルなGemini 3.1(ジェミニ)は、目(画像・動画)、耳(音声)、そして口(テキスト・音声合成)をすべて兼ね備えています。

例えば:

  • 「この動画の中で、何が起きているか説明して」
  • 「この手書き図面を元に、Webサイトを作って」 といった、視覚や聴覚を伴う複雑な依頼が可能です。

なぜこれがすごいの?

人間が世界を感知するのと同じように、AIも世界を「立体的」に捉えられるようになったからです。これにより、コミュニケーションのギャップが埋まり、より高度で直感的なやり取りが可能になります。

🔗 関連キーワード

  • [[Gemini]] :マルチモーダル機能の代表格。
  • [[Long Context]] :大量の動画や音声を一度に読み込める広さ。
  • [[Image Generation]] :言葉から画像を作る逆方向の能力。

Gemini 3.1 Pro のマルチモーダル機能 (Official)

初めてAIに触れる方向けの辞書の完全版を手に入れませんか?

導入としてAI、Gemini、Antigravityの難しい技術用語を慣れ親しんだ例で解説をする「概念の翻訳書」をご準備しました。Obsidian用に活用できるmdファイルを購入特典として活用いただけます。