Microsoftは小型言語モデル(SLM)のPhiファミリーに、新モデル「Phi-4-multimodal」と「Phi-4-mini」を追加したことを発表しました。これらのモデルは、開発者に高度なAI機能を提供することを目的としています。
「Phi-4-multimodal」は、音声、視覚、テキストを同時に処理できる初のマルチモーダル言語モデルです。このモデルは、5.6Bパラメータを備え、複数の入力形式を統合的に処理する能力を持ちます。例えば、音声認識や画像解析、テキスト理解を単一のモデルで効率的に実行でき、スマートデバイスやエッジコンピューティングでの利用に最適化されています。HuggingFaceのOpenASRリーダーボードでは、単語エラー率6.14%を記録し、従来のトップモデルを上回る性能を達成しました。これにより、リアルタイム翻訳や視覚情報を伴う質問応答など、次世代アプリケーションの開発が現実的なものとなります。

一方、「Phi-4-mini」は3.8Bパラメータのコンパクトなモデルでありながら、テキスト処理における高い精度とスケーラビリティを発揮します。最大128,000トークンのシーケンスをサポートし、数学的推論やコーディング、命令追従といったタスクで優れたパフォーマンスを示します。エッジ環境での運用を考慮した設計により、ネットワークが不安定な状況でも高い効率性を維持することが可能です。
これらのモデルは、Azure AI FoundryやHuggingFace、NVIDIA API Catalogで利用可能となっており、開発者は手軽に実験や応用を始めることができます。特に「Phi-4-multimodal」は、自動車の車載アシスタントやスマートフォンでの高度なAI機能の実装、金融サービスにおける多言語対応など、さまざまな業界での活用が期待されています。
マイクロソフトは、セキュリティと安全性にも注力しており、AI Red Teamによる厳格なテストを経てこれらのモデルをリリースしました。開発者は、Phiファミリーの新モデルを活用することで、効率的かつ革新的なソリューションを迅速に市場に投入できるでしょう。
引用