文字だけでなく、画像、動画、音声、プログラムなど、多種多様な情報を一度に理解し、処理できる「多才な能力」のことです。
これまでのAIは「耳の聞こえない読書家」のような存在で、テキストしか扱えませんでした。しかし、マルチモーダルなGemini 3.1(ジェミニ)は、目(画像・動画)、耳(音声)、そして口(テキスト・音声合成)をすべて兼ね備えています。
例えば:
人間が世界を感知するのと同じように、AIも世界を「立体的」に捉えられるようになったからです。これにより、コミュニケーションのギャップが埋まり、より高度で直感的なやり取りが可能になります。
導入としてAI、Gemini、Antigravityの難しい技術用語を慣れ親しんだ例で解説をする「概念の翻訳書」をご準備しました。Obsidian用に活用できるmdファイルを購入特典として活用いただけます。