GPT-4 识图功能迟迟不凋谢,终于有人禁不住自己入手做了一个。
MiniGPT-4 来了 ,Demo 凋谢在线可玩。
传一张海鲜大餐照片下来 ,就能直接取患上菜谱 。
手绘一个网页 ,可能给出对于应的 HTML 代码
可能说,GPT-4 宣告时揭示过的功能 ,MiniGPT-4 根基也都有了。
这下网友直接把 Demo 效率器挤爆 ,开拓团队连开 4 台备用效率器 ,都有多少十人在排队 。
除了钻研团队给出的示例,网友也用 MiniGPT-4 玩出了各种花着
有人上传自己画的画,让 AI 评估评估。
有人上传一张从车道拍摄的飞机坠毁瞬间,让 MiniGPT-4 尽可能详细地形貌 ,并思考自动驾驶 AI 能不能清晰这个时事。
做到这么好的下场,MiniGPT-4 实现起来却并不重大 。
把图像编码器与开源语言模子 Vicuna(小羊驼)整合起来,而且解冻了两者的大部份参数 ,惟独要磨炼很少一部份。
传统预磨炼阶段,运用 4 张 A100 在 10 个小时内即可实现,此时磨炼进去的 Vicuna 已经可能清晰图像,但天在行腕受到很大影响。
为处置这个下场 ,团队让 MiniGPT-4 与 ChatGPT 相助建树了 3500 个图像文本的高品质数据集,也一并开源。
用新的数据集微调可能清晰后退模子的天生坚贞性以及部份可用性,而且合计功能很高,运用单个 A100 惟独要 7 分钟 。
而且团队正在豫备一个更轻量级的版本 ,部署起来惟独要 23GB 显存 。
也便是破费级显卡中具备 24GB 显存的 3090 或者 4090 就能当地运行了。
MiniGPT-4 开拓团队来自 KAUST(沙特阿卜杜拉国王科技大学) ,搜罗 4 位华人成员以及他们的导师 Mohamed Elhoseiny。
两位正在读博的配合一作还在 GitHub 页面上特意标注正在找使命。
分心向的公司要放松抢人了~
在线 Demo:
https://minigpt-4.github.io
开源代码:
https://github.com/Vision-CAIR/MiniGPT-4
论文:
https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
本文来自微信公共号:量子位 (ID:QbitAI),作者:梦晨