微软宣布推出了新版小型语言模型 Phi-3,这款模型能够查看图片并告诉你图片中有什么。
Phi-3-vision 是一种多模态模型,也就是说它能同时处理文本和图像,而且最适合在移动设备上使用。微软表示,现已提供预览的 Phi-3-vision 是一个拥有 42 亿参数的模型(参数指的是模型的复杂程度以及它对训练内容的理解程度),能够执行一般的视觉推理任务,比如对图表或图片提出问题。
但是,Phi-3-vision 的规模远小于其他以图像为中心的人工智能模型,比如 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion。与这些模型不同,Phi-3-vision 并不生成图像,但它能理解图像中的内容,并为用户分析这些内容。