#マルチモーダルの記事

Google I/O 2026開幕——Gemini Intelligenceで全デバイスAI化、Android XRグラス今年発売

Google I/O 2026が5月19日10AM PTに開幕。新agentic AI「Gemini Intelligence」がAndroid・Chrome・Wear OS・Auto・XR・PC全てに横断展開し、Android XRグラスが2026年内に発売。Apple Vision Pro/Meta Ray-Banとの比較、日本市場への影響、Pixel・ドコモ/au/SoftBank戦略まで深掘り。

AI Gemini Google Cloud AIエージェントマルチモーダル

AKOOL、AI動画推論を10〜20倍高速化——リアルタイム動画AIが世界規模で実現へ

AKOOLがプロダクション級AI動画推論エンジンを発表。従来比10〜20倍の高速化でリアルタイムAI動画が世界規模で可能に。HeyGen/Sora/Runwayとの比較や日本での活用法も解説。

AI 動画生成スタートアップマルチモーダル

Gemini 3 Flashが全ユーザー無料解放——Agentも始動でChatGPTに反撃

GoogleがGemini 3 Flashを全ユーザーに無料展開、同時にGemini AgentをUltra加入者向けに開放。フロンティア性能の無料化と$249.99エージェントの二段構えでChatGPT/Claudeに本気で挑む。

AI Gemini LLM AIエージェントマルチモーダル

xAI Grok 4.3 API正式提供——40%値下げ・1Mトークン・動画入力対応

xAIがGrok 4.3 APIを正式提供開始。入力$1.25/出力$2.50で約40%値下げ、1Mトークン文脈、動画ネイティブ入力、PDF/Office生成に対応。Intelligence Index 53で同価格帯中央値35を大幅に超える「攻めの価格」戦略を解説。

AI LLM xAI マルチエージェントマルチモーダル

GPT-5.4 Thinkingが人間超え——デスクトップ操作で75%のスコア達成

OpenAIのGPT-5.4 ThinkingがOSWorldベンチマークで75.0%を記録し、人間平均72.4%を初めて超過。テスト時計算統合の仕組みと各社モデルとの比較を解説

AI LLM AIエージェントマルチモーダル

LTX-2.3が4K動画+音声を同時生成——OSSで商用利用OKの衝撃

LightricksがLTX-2.3を公開。22Bパラメータで4K・50FPS・音声同時生成のオープンソース動画AIモデル。Apache 2.0で商用利用可能。

AI オープンソース動画生成マルチモーダル

Gemini 3 Deep Thinkが大幅強化——HLE 48.4%、ARC-AGI-2 84.6%で推論AI首位に

Google Gemini 3 Deep Thinkが大幅アップグレード。Humanity's Last Exam 48.4%、ARC-AGI-2 84.6%、Codeforces 3455 Eloで推論AI首位。科学研究での活用法を解説。

AI Gemini LLM マルチモーダル

MiniMax M2.5が登場——中国発マルチモーダルAIの実力と野望

中国AIスタートアップMiniMaxがマルチモーダルモデルM2.5をリリース。テキスト・画像・音声・動画を統合処理する次世代AIの実力を徹底解説

AI LLM 中国テックマルチモーダル

Qwen 3.5 Small——Alibabaが放つ小型マルチモーダルOSSの衝撃

Alibabaが0.8B〜9Bの4サイズでリリースしたQwen 3.5 Smallファミリー。ネイティブマルチモーダル対応、Apache 2.0ライセンス、GPQA Diamond 81.7の衝撃

AI LLM オープンソース中国テックマルチモーダル

MicrosoftのMAI-Image-2が画像生成AIトップ3にランクイン

Microsoft MAI-Image-2がArena.aiで画像生成AI世界3位に。Copilot統合、DALL-E 3との違い、競合比較を解説。

AI Microsoft マルチモーダル

AI先駆者フェイフェイ・リーのWorld Labsが$1B追加調達——「空間知能」で3D世界を理解するAI

ImageNet創設者フェイフェイ・リーのWorld Labsが$1B調達。3D空間を理解する「空間知能」AIの技術とロボティクス・AR/VRへの応用を解説。

AI スタートアップマルチモーダル資金調達

Adobe Fireflyが動画生成とカスタムモデルに拡張——エンタープライズ向け生成AIの本命

Adobe Fireflyが動画生成とカスタムモデル機能を追加。著作権クリアなエンタープライズ向け生成AIとしてMidjourney・Runwayとの差別化を解説。

AI 動画生成マルチモーダルエンタープライズ

LTX 2.3が映像と音声を同時生成——22Bパラメータで4K/50fps対応のオープンソースAI

Lightricks LTX 2.3は22BパラメータのDiffusion Transformerで映像と音声を同時生成。4K/50fps対応のオープンソースモデルの技術と競合比較を解説。

AI 動画生成オープンソースマルチモーダル

Mistral Small 4が119Bパラメータで登場——Apache 2.0のオープンソースMoEモデル

Mistral Small 4は119Bパラメータ・128エキスパートのMoEモデルをApache 2.0で公開。推論・マルチモーダル・コーディングを1モデルに統合した革新を解説。

AI LLM オープンソース開発ツールマルチモーダル

DeepSeek V4が1兆パラメータで登場——オープンソースAIの新王者

DeepSeek V4は1兆パラメータのMoEアーキテクチャとマルチモーダル対応を備えたオープンソースAIモデル。GPT-5やClaude Opus 4.6との比較と日本への影響を解説。

AI DeepSeek オープンソースマルチモーダル