マルチモーダル
テキスト・画像・音声など複数の形式を同時に扱えるAI。
テキストだけでなく、画像・音声・動画・PDFなど複数のデータ形式(モダリティ)を入出力として扱えるAIシステム。GPT-4oやGeminiなどが代表例。「この画像の内容を説明して」「このグラフから示唆を教えて」といった操作が可能になります。
会議の録音から議事録を自動生成、製品写真から商品説明文を作成、資料のスクリーンショットから内容を抽出・分析するなど活用の幅が広がります。