书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

用户投稿 7 0

商汤科技开源多模态多任务通用大模型“书生(INTERN)25

3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破。目前,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源(https://github.com/OpenGVLab/InternImage)。

“书生(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布,并持续联合研发。

据了解,“书生2.5”拥有30亿参数,是世界上开源模型中ImageNet准确度最高、规模最大的模型,也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。

“书生2.5”可接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务,促进不同模态和任务之间在表示学习方面的协作,逐步实现通用人工智能领域的融会贯通。

大幅提升通用场景感知和理解能力

在当今快速增长的各式应用场景需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

此次发布的“书生2.5”,实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下,可以大幅提升场景感知理解能力,准确地辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆的决策规划提供有效信息输入。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25
利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务
书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25
利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除了解决例如自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可以解决纷繁复杂的日常生活中的常见任务,满足各种需求。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

除了全图级别的以图生文,“书生2.5”通用大模型同样可以根据物体边框更精细化定位任务需求。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

“书生2.5”同时具备AIGC“以文生图”的能力,可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

“书生2.5”还可根据文本快速检索出视觉内容。例如,可在相册中返回文本所指定的相关图像,或是在视频中,检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,可实现开放世界视频或图像中物体检测及视觉定位。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效的多任务协作能力。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型,值得一提的是,谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确度最高、规模最大的模型。

除了高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,其取得了65.4的mAP,是世界上唯一超过65.0 mAP的模型。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25
在20余个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

加速学术和产业界多模态通用模型研发

即日起,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源,成为目前开源模型社区能提供的性能最强的多模态大模型。

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供了坚实的支撑。

在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据的采集成本。

在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可以提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。通过开源社区的建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

当前,“书生”还在持续学习、不断进步,致力于实现多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

书生·浦语灵笔 20 正式开源,能力全面升级,支持个性化高质量图文创作

继1月17日发布书生·浦语2.0(InternLM2)大语言模型之后,上海人工智能实验室(上海AI实验室)近日推出全面升级的图文混合创作大模型书生·浦语灵笔2.0(InternLM-XComposer2),在大模型落地应用的探索上再迈进一步。

书生·浦语灵笔2.0是在书生·浦语2.0的基础上通过图文拓展训练获得的。得益于InternLM2强大的语言建模能力,浦语灵笔2.0的图文理解和创作能力显著提升,可为用户提供更精准、更个性、更丰富、更专业的图文创作体验,在12项图文能力评测中大幅领先同量级开源模型,在部分维度可比肩国际领先水平。

书生·浦语灵笔2.0开源了图文创作大模型(InternLM-XComposer2-7B)和它背后的图文理解与问答模型(InternLM-XComposer2-VL-7B),均提供免费商用。

开源仓库(包括模型和代码):

https://github.com/InternLM/InternLM-XComposer

技术报告:

https://github.com/InternLM/InternLM-XComposer/blob/InternLM-XComposer2/InternLM-XComposer2-Report.pdf

更全面的图文混合创作能力

浦语灵笔2.0具有更全面的图文混合创作能力,并提供完善的图文内容编辑工具,支持用户灵活定制专属文章。相比上一代版本,浦语灵笔2.0带来四个维度的用户体验提升。

更精准:准确遵循用户指令

浦语灵笔2.0可准确理解自然语言指令,用户可通过输入内容梗概、文章大纲、关键词等框架和要点,实现对文章内容更精准的控制,使生成文章符合用户预期。

例如要求浦语灵笔2.0撰写一篇关于大熊猫的科普文章,首先介绍大熊猫的基本特征,其次探讨大熊猫的自然栖息地及面临的环境挑战,之后讨论大熊猫的保护工作现状,最后分析大熊猫的文化符号意义。浦语灵笔2.0根据上述写作要求,精准地完成了图文文章创作。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

更个性:支持用户定制化素材输入

为实现用户的个性化创作需求,浦语灵笔2.0支持用户上传图像和文本素材,并根据用户要求,使用规定素材定制图文文章,保证用户的内容原创性需求。

例如,根据图片素材和文字要求,让浦语灵笔创2.0作一篇文笔细腻温暖的哈尔滨游记。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

更丰富:支持各种体裁、场景的内容需求

浦语灵笔2.0不仅大幅提升了写作水平,还支持多样化体裁和实用场景的文章写作。根据用户要求,浦语灵笔2.0可生成如知乎问答、小红书笔记等网络跟帖、实用公文、节日祝福、古体诗等多样化风格的内容类型,满足不同场景的使用需求。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

更专业:提供完善的图文内容编辑工具

在支持用户创作高质量图文内容的同时,浦语灵笔2.0也提供了完善的内容智能修改和编辑工具,可对文章内容缩写、扩写、根据用户指令改写等,通过提升交互能力,助力用户高效创作。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

图文理解能力显著提升,多项表现比肩多模态模型标杆

在大模型评测平台OpenCompass的创作能力评测集CreationBench上,浦语灵笔2.0的平均成绩接近GPT-4,其中“内容丰富度”单项评测中,表现超越了GPT-4,并综合领先其他高性能开源模型。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

高质量的图文写作,离不开强大的图文理解能力的支持。如下图所示,在包括MMMU、MME、MMBench在内的12个主流评测集上,InternLM-XComposer2-VL大幅领先同量级开源模型(参见右图),在MME、MMBench、MathVista等6项评测中取得比GPT-4V和Gemini Pro更好的成绩。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

更多评测细节和分数,请见开源代码仓库:https://github.com/InternLM/InternLM-XComposer?tab=readme-ov-file#evaluation

在实测对话表现方面,浦语灵笔2.0能对图像进行精细理解,体现了模型丰富的多模态知识和强大的推理能力。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

全新多模态架构Partial-LoRA

浦语灵笔2.0可以同时兼顾图文创作和多模态理解能力,得益于浦语灵笔团队提出的全新多模态模型架构Partial-LoRA (P-LoRA)。

在此架构下,对于输入的文字词牌(Text Token),P-LoRA使用原本模型结构进行推理;对于图像编码(Image Token),通过额外的P-LoRA参数赋予模型对图像内容的深刻理解。通过上述方式使模型在实现多模态性能领先的同时,高效地保留了语言基座的能力。

书生软件下载 商汤科技开源多模态多任务通用大模型“书生(INTERN)25

相关问答

书生阅读器7.1是否支持win7?

1不支持win72书生阅读器7.1不支持win7是因为它的系统要求是更高版本的操作系统,可能是基于win8或者更高版本的系统进行开发和优化的。3如果你使用win7的操...

书生阅读器不能打开GW文件?

网页链接,下载这个全套资料程序,然后安装后,找到suersenReader的安装的文件夹,选择SursenReader尾缀exe文件后,单击右键,选择”属性”,切换到“兼容性”...

书生阅读器转换成word?

书生阅读器不能转换word或是pdf,它只是一款阅读软件。书生阅读器是一款优秀的电子文档阅读器,该阅读器界面简洁大方,使用操作简单,拥有文件、编辑、视图、工...

请问gd文件怎么打开?安装了书生阅读器也打不开,不知为什么?...

安装了书生阅读器也打不开,不知为什么?跪求。讨论回答(4)graphicdevice...网上下载的不好使,邮箱我发给你我们单位,人行现在传来的文件全是这个格式的。...

书生之家的图书能下载?怎么下载啊?-ZOL问答

书生之家的图书能下载?怎么下载啊?讨论回答(3)第一步:下载并安装书生阅读器>>这里下载第二步:在主页左栏的图书分类中打开您所需的子类,如要进行检索,在"图...

请问怎么打开gd文件啊?急!书生阅读器打不开啊,说是不支持的文件类型呢?

1、在电脑上安装福昕阅读器时勾选安装虚拟打印机后会在电脑上安装一个叫做FoxitReaderPDFPrinter的虚拟打印机。2、用书生阅读器打开gd文档,点击打印后在...

用什么方法或是软件可以把书生软件生成的GD文件转成word文档?

以前用EXCEL&VBA弄了一个,这几天正在重新搞,添加一些新功能(优先出题功能等)几天后可以完成。1、这是主界面的样子,可以生成word、生成手机阅卷的题卡(网...

请问怎么打开gd文件啊?急!书生阅读器打不开啊,说是不能用的...

书生阅读器打不开啊,说是不能用的文件类型呢!讨论回答(3)我也打不开,楼主后来打开了没啊?我们单位,人行现在传来的文件全是这个格式的。网上下载的不好使...

MicrosoftEdge关联了书生之家的阅读器,使得不能用专用阅...

(http://www.du8.com/或者http://222.198.130.45:88/stat/logindex.vm本大学的书生之家服务网址或者http://edu.21dmedia.co...

pt平台娱乐真人稳定版下载/手机免费版通用版APPv8.9.16-图吧地图

pt平台娱乐真人稳定版下载🎍💌💨元宇宙是否已然「熄火」?虚拟现实与AI是什么关系?如何科学地认知当下虚拟现实的发展现状?元宇宙实现还有多久?……针对这些业界...

抱歉,评论功能暂时关闭!