MiniGPT-4发布，开源，多模态模型

2023-04-29 21:59:21

项目的名称叫做MiniGPT4 是来自阿布杜拉国王科技大学的几位博士做的，它能够提供类似于GPT4的图像理解，以及对话的能力，让你抢先一步感受到图像对话的强大之处。那我们先来看一下它的演示视频，这个项目有几个特点：

第一就是多模态也就是能够读懂图片在这个示例中呢它可以回答图片是关于什么内容的有多少种颜色甚至能够说明这个图片是属于什么风格的。GPT-4 先进的多模态生成能力的主要原因在于使用了更先进的大型语言模型 (LLM)。MiniGPT-4，它仅使用一个投影层将冻结的视觉编码器与冻结的 LLM Vicuna 对齐。我们的研究结果表明，MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能，例如详细的图像描述生成和从手写草稿创建网站。此外，我们还观察到 MiniGPT-4 中的其他新兴功能，包括根据给定的图像写故事和诗歌，为图像中显示的问题提供解决方案，教用户如何根据食物照片做饭等。

第二点高级大型语言模型，增强视觉语言理解。

第三点低成本，仅仅用了4块的A100GPU，训练了仅仅10个小时，绝对称得上是迷你。

第四点就是整个项目是开源的。

MiniGPT-4 由一个带有预训练 ViT 和 Q-Former 的视觉编码器、一个线性投影层和一个高级 Vicuna 大型语言模型组成。

它使用了更先进的大模型语言，也就是说未来在图像声音视频等等领域呢，基于这些大模型所制造出来的应用，实际的效果呢应该都不会太差。这个项目也证实了，大语言模型在图像领域的可行性。接下来呢相信应该会有不少的开发者跑步入场，将GPT4的能力进一步的往音频视频等等领域延伸，让我们可以看到更多有趣令人惊艳的AI应用程序。