这个免费良心的国产开源大模型,在16项基准测试中超过GPT-4V

近日,又有一款多模态大模型宣布开源。并且据官方称,它已经能和GPT-4V掰腕子了。

在功能上,它不仅可以智能识图。

可以图文创作。

还能一键生成网页。

这款大模型就是由上海AI实验室开发的书生·浦语灵笔2.5。

和其他大模型一样,书生·浦语灵笔也是会取名的。该名字取自“书生·浦语”和“灵笔”的结合,前者指代其底座大模型“书生·浦语2.5”,后者是说其“下笔有灵”,文笔不错。

据悉,浦语灵笔2.5在今年的WAIC大会上正式开源。相较于今年1月开源的2.0版本,2.5版本除了多模态对话外,又新增了生成图文并茂的文章和一键制作网页两项功能,这也使它成为国内独一份的图文混合创作大模型。

可以说,它在理解模型领域(输入端)和生成模型领域(输出端),都具备多模态功能了。

目前,浦语灵笔2.5已上线Huggingface。“AI新榜”也火速赶去体验了一番,看看它到底整出了什么新花样。

附体验地址:

实测浦语灵笔2.5,一键解锁图文混合创作能力

多模态对话

与其他大模型不同的是,浦语灵笔2.5提供了较高自由度的参数设置。用户既可以自行调节回复的字数上限、集束大小,也可以设置“重复惩罚”的数值,以减少大模型生成重复答案的几率。

由于单图识别已经很常见,我们选择直接测试多图识别,一次性上传了三张电车图片,分别是蔚来ES6、特斯拉ModelY和小米su7,让大模型从中推荐一款最具性价比的。

它给出的答案是特斯拉Model3,并给出了较为中肯的理由。

不过这款车型并不在给定范围之内,为了避免它在蒙题,我们要求它说出三张图的识别结果。

由于浦语灵笔2.5不能联网,它将小米su7错认成了特斯拉Model3,不过能准确认出特斯拉ModelY和蔚来ES6已经足够惊喜。

同样的问题我们也问了为数不多支持多图识别的kimi,它并没有直接给出具体的车辆信息。相比之下,浦语灵笔2.5的确更胜一筹。

从回答来看,它完成得不错,美中不足的可能是生成速度稍慢了点。

图文混合创作

浦语灵笔2.5的第二个功能是支持同时生成文章和配图,这也是它的一大亮点。

需要注意的是,目前大模型默认的仍是纯文本写作,我们需要事先关闭这个选项。

从生成的回复来看,浦语灵笔2.5没有泛泛而谈,还是写出了不少干货的。尤其是在讨论无人驾驶的安全问责时,它不仅切实讨论了问责主体的若干可能性,还提供了许多法律视角,说服力瞬间高了不少。

之后,我们又要求它围绕“又见敦煌”的话题,写一篇散文风旅游攻略,并要求在文章中插入5张图片。

几分钟之后,我们得到了一篇不够散文但足够实用的敦煌攻略。文章不仅覆盖了景点、美食、购物、住宿、交通等事项,配图也都比较精准。(由于长度关系,仅上传部分)

此外,用户如果想生成更个性化的文章,还可以提前上传想在文章中插入的图片。

网页生成

除了上述功能外,浦语灵笔2.5还是一个免费且实用的网页生成器。

目前,用户可以通过上传简历、上传截图、输入文字描述这三种方式,一键生成网页。

我们先在网上找了一张光与夜之恋游戏里的角色简历,然后上传给了浦语灵笔2.5。(PS:大模型要求简历为pdf格式)

图源小红书用户“娇咩咩”

鉴于截图生网页的情形与之类似,我们就不再重复,而是直接测试了由文本描述生成网页的做法。

在这里,我们使用了系统自带的文本描述,要求大模型生成一个上海AI实验室的网页。

在这个任务中,它生成的网页还是比较中规中矩。这可能与它使用的TailwindCSS模式有关,只支持生成简洁的排版。

此外,浦语灵笔2.5不支持查看历史记录。如果用户没有及时保存生成的内容,后续可能无法找回。

仅用7B后端就能媲美GPT-4V,浦语灵笔2.5是怎么做到的?

目前浦语灵笔2.5开源了应用场景最广的轻量级7B版本,模型兼顾速度、效率和性能表现。

仅使用7BLLM后端就能媲美GPT-4V,浦语灵笔2.5到底是怎么做到的?我们看了看它的技术报告。

据介绍,浦语灵笔2.5遵循了浦语灵笔2.0的动态图像分区和全局设计,并进一步将图片的分辨率从490X490提高到560X560,使得每个子图像能有400个标记,从而实现了超高分辨率理解。

其次,为了解锁“下笔有灵”的长文本能力,它借助到了底座大模型“书生·浦语2.5”的语言建模技术。后者不仅拥有百万词元的超长文本窗口及领先的推理能力,也支持自主规划和在线信息整合。

在网页生成上,研究团队还提出了一种利用CNN和RNN实现UI到代码转换的端到端解决方案。这种方法在应用于现实世界的UI时,可以应对复杂的视觉编码和广泛的文本解码所带来的挑战。

不过相比于技术路径,开源可能才是它真正的重头戏。

也许是背靠科研院所的关系,浦语灵笔从诞生之初就拥抱开源,并提供免费的商用授权。

它的底层大模型书生·浦语也是首发于阿里云魔搭社区,率先和国内最大的开源社区实现了强强联合。

这意味着上海AI实验室希望“把大模型做成生态”,让“低成本,高应用”的时代更早到来。

据“AI新榜”观察,上海AI实验室也颇有成为开源平台的态势。

不完全统计显示,仅书生大模型系列就包括:

同时,仅书生·浦语系列开源以来,开发者社区及产学研界已利用它的工具体系开发出近1000个创新项目。

基于此,我们完全有理由期待国产的开源大模型能继续赋能创新,引领AI时代。

免责声明:本文章如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系