商汤大模型体系“日日新”带来什么惊喜？和ChatGPT之类比“会有一点差距，但可以很快追上。”_天天新要闻

新民晚报| 2023-04-11 10:04:15

在AGI（通用人工智能）火得发烫的这个春天，商汤科技没有缺席。

(相关资料图)

在上海临港的人工智能计算中心（AIDC），“日日新”大模型体系，正式问世。

“日日新”的名字来源于《礼记·大学》中的“苟日新，日日新，又日新”，体现大模型日新月异，不断进化之意。这一大模型体系可提供自然语言生成、内容生成、自动化数据标注、自定义模型训练等多种能力，同时结合决策智能大模型，助力实现AGI。

10日的技术交流日上，商汤不仅展示了“日日新”大模型体系下的语言大模型“商量”，还展示了文生图生成模型“秒画”、AI数字人视频生成平台“如影”、3D背景建筑生成平台“琼宇”和3D物体生成平台“格物”。

在商汤科技董事长兼CEO徐立看来，这是一次大模型的“超市开张”，提供了完整的产业链。

会处理问题也会学习新知

“帮我写一句语言大模型的广告标语，这个语言大模型的名字叫‘商量’。”

“与商量携手，让语言成为你的优势，开启无限可能。”对最新研发的语言大模型“商量”的表现，人们已然见怪不怪。

难度升级，程序员加载了专利法的PDF文件，提出了“专利法申请周期，今年的规定有没有新的变化？”的疑问，“迟疑”片刻，“商量”结合学习到的内容和更新的知识，给出了“最快可能在2年之内获得授权”的回答。

“这是拥有1800亿级参数的中文大语言模型，在互动式引导过程中精进判断力与创作智能，在多轮对话、问诊与编程等垂域表现突出，并全方位覆盖各种应用。”徐立介绍，“另外，‘商量’还能做到知识自动及时更新。”

“商量”的问诊本领更令人惊叹——“最近加班很辛苦，眼睛都黄了”，面对这一需求，“商量”没有直接给出答案，而是询问“还有其他不适的症状吗？”当人类告诉它，“手掌也有点黄，并持续一个多月后”，它谨慎地分析道：“可能是黄疸”“建议尽快预约肝功能检查”“提醒您注意休息和保持健康的生活方式”。

“‘商量’不断演进的语言能力和推演能力，将为与顶尖医院合作搭建未来医疗服务场景提供可能。与新华医院合作开发的随访，与嘉会医院搭建的互联网问诊等都已落地。”徐立说。

对了，“商量”还集成了“AI代码助手”功能。在公司内部实测中，它将代码编写效率提高了62%，在测试集上的一遍通过率达40.2%。“新的软件开发范式已经产生。在新的二八定律下，未来80％的代码将由AI生成，实现‘AI for AI’。”徐立感叹。

据悉，“日日新”大模型体系已面向合作伙伴开展内测，未来主要面向B端业务。

“有天赋的运动员”

在商汤科技联合创始人、首席科学家王晓刚看来，大模型是个非常有天赋的运动员，在教练——人的调教下，不需要一招一式来示范，只需要“点拨”一番，这个天赋异禀的运动员就能完成新的动作。

“日日新”体系下文生图创作平台“秒画”的展示印证了他的看法。面对“生成有80年代港风特点的女生”特点的图片需求，“秒画”的第一次创作只可谓差强人意。没关系，那就给几张港风范满满的图片，没过一会，“秒画”又创作了新的作品。这一次，台下掌声雷动。

同样惊艳的还有AI数字人视频生成平台“如影”——仅需一段5分钟的真人视频素材，就可以生成出声音及动作自然、口型准确、多语种精通的数字人分身。

相比之下，过去的一些模型则是领域内的“专属模型”，它是一个刻苦的运动员，天赋没那么高，得“耐心地教”：一种教法是人工标注大量的数据，另一种则是高天赋的运动员在掌握新动作后，自动产生了很多数据，再“喂”给专属模型去学习。

“通用人工智能大模型带来了人工智能范式的一个变化。”王晓刚认为，它以极低的成本、非常高效的方式不断解决各个领域里新出现的各种开放性任务，并大幅提升了研发效率和人工智能覆盖的范围。

要知道，此前ChatGPT和GPT-4 能表现出高超的图片和语言理解能力，就是因为“涌现现象”——大模型的数规模达到一定程度时，其解决问题的能力就会发生突变——打个比方来说就是“大力出奇迹”，或者说就是“开窍了”。“一个强大的模型，能通过强化学习和人类反馈不断解锁新的能力，从而更高效地解决海量的开放式任务，实现从‘数据飞轮’到‘智慧飞轮’的演进。”王晓刚解释，这最终会达到“人机共智”，就有了延续的“涌现现象”。

算力支撑提供模型即服务

一个回避不了的问题摆在了商汤科技联合创始人、大装置事业群副总裁陈宇恒面前：在大模型领域，国内和国外差了多少？

“会有一点差距，但这段差距是可以很快追上的。”陈宇恒显得很有信心，“大模型技术依托的几大要素即为大算力、大数据和模型设计。”

“在AI大模型时代，数据、算法和算力这三要素在经历新的演变，大模型参数量将以指数级速率提升，而数据量随着多模态的引入也将大规模增长，因此必然会导致对算力需求的剧增。”徐立补充道。

当前业界训练大模型，对大算力的需求非常旺盛，而真正好用的基础设施却十分稀缺。在技术交流日的举办地：临港AIDC，就是历时5年建成的AI大装置，共有27000块GPU芯片卡，可以输出5.0 exaFLOPS的总算力，是亚洲目前最大的智能计算平台之一。而基于大装置的能力，商汤目前已构建了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型，持续演进能力并广泛支持各种应用。

事实上，就在上个月，商汤发布了开源社区多模态多任务通用大模型“书生2.5”，其拥有30亿参数，可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

记者了解到，基于AI大装置和“日日新”大模型体系，商汤将面向行业伙伴提供涵盖自动化数据标注、自定义大模型训练、模型增量训练、模型推理部署、开发效率提升等多种大模型即服务。

“基于预训练大模型的自动化数据标注可实现相较于人工数据标注近百倍的效率提升。”陈宇恒介绍，“而模型推理部署服务可将大模型推理效率提高100%以上，降低用模型提供服务的成本。”此外，商汤也向行业开发人员开放大量预训练模型及AI开发工具链，全面赋能开发效率。

这两年，AI的热点很多，先有元宇宙，再来大模型。对此，陈宇恒表示，元宇宙是人工智能大模型极佳的应用场景，也是多种技术的结合体。其中一系列大模型驱动的技术能力，可以很好解决元宇宙中内容制作成本过高的痛点。

“AI企业要发挥自己的优势，避免盲目跟风，持续地积累和沉淀，但要在机会来临的时候，快速敏锐地抓住。”陈宇恒说。

新民晚报记者郜阳