微软推出了一个小型语言模型，能够分析图片内容

微软宣布推出了新版小型语言模型 Phi-3，这款模型能够查看图片并告诉你图片中有什么。

Phi-3-vision 是一种多模态模型，也就是说它能同时处理文本和图像，而且最适合在移动设备上使用。微软表示，现已提供预览的 Phi-3-vision 是一个拥有 42 亿参数的模型（参数指的是模型的复杂程度以及它对训练内容的理解程度），能够执行一般的视觉推理任务，比如对图表或图片提出问题。

但是，Phi-3-vision 的规模远小于其他以图像为中心的人工智能模型，比如 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion。与这些模型不同，Phi-3-vision 并不生成图像，但它能理解图像中的内容，并为用户分析这些内容。