版权声明:本文版权为网易汽车所有,转载请注明出处。
(资料图)
网易汽车4月3日报道 2023中国电动汽车百人会论坛期间,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,智能汽车是通用人工智能实现闭环的一个非常好的场景,我们已经有人机共驾。未来我们希望车和模型之间能够产生更有效的互动,那就完成了从人到车,到模型这样的一个互动的闭环,能够让通用人工智能为我们提供更好的驾乘体验,解锁无限的想象空间。
以下为王晓刚演讲实录:
各位同仁、各位嘉宾,大家上午好!我是商汤科技王晓刚,新年伊始,像ChatGPT,还有GPT-4掀起了通用人工智能的热潮,这是一场新的技术革命。今天我也是非常有幸能有这个机会跟大家一起探讨,通用人工智能和多模态大模型给智能汽车带来的机遇和挑战。
从2012年开始,过去十年,人工智能的技术革命是以深度学习不断去突破工业应用的红线为起点的,诞生了一系列的AI+场景的应用。那么基于每个场景都有不同的专属的模型,其中的研发成本比较高,周期比较长。
从2022年开始,新的通用人工智能,它是以非常高效的方式去解决海量的开放式任务,更加接近人的智能,而且能够产生有智慧的内容,它也带来了新的研究范式,即基于一个非常强大的多模态基模型,通过强化学习和人的反馈,不断解锁模型新的能力。
什么是通用人工智能呢?我们可以跟现有的人工智能系统做一个比较。现有的人工智能也能够接收多模态的数据,但是它输出的任务都是事先定义好的。如果我想给这个系统去增加一个新的任务,我就要对系统进行重新设计,还要采集大量样本。
在通用人工智能时代,我们通过输入提示词和多模态内容,它就可以去生成多模态的数据,更重要的是,它可以用自然语言去生成对任务的描述。自然语言即可以用非常灵活的方式去覆盖大量的长尾问题和开放性的任务,甚至包括一些主观描述。
比如说,在之前我们做一些特定场景的检索任务时,一个人工智能系统可能是有几十个标签。我们做过实验,如果要是用自然语言描述,我们可能有一万多个词,通过它们的组合去描述各种任务,实际上是非常强大,而且是灵活的。
那么,这里面举一个在自动驾驶中遇到的一个例子。给定一个图片,我们想去问我们是否需要减速?在我们现有的AI的系统里面,我们首先要做物体的检测,能够检测物体框,里面做文字的识别,最后做这样的一个决策。那么,其中所有的过程里面的每一个模块都是事先定义好的任务。
在通用人工智能下,给定图像,我们只需要用自然语言去问这个图像的问题,比方说,这个图标是什么意思,我们应该做什么?这个模型本身不会发生变化,它输出就会通过自然语言的方式,能够给我们一系列的这种逻辑的推理,最后给我们结论。比如说,它可以告诉我们这里面的限速是30公里每小时,前面100米是学校的区域,有小孩,你应该去小心,能够将车速降速到30公里每小时以下等等这一些。可以看到,这都是一些开放式的新的任务,可以对我们人工智能系统产生一个非常大的变革。
通用人工智能还有非常强的一点,它能够产生内容,而且是有智慧的内容。智能驾驶,或者自动驾驶汽车里面我们有“数据飞轮”的说法,我们的模型能够从驾驶终端采取高质量的数据,对模型进行更新,然后再去从终端提升数据的量和质。
在通用人工智能时代,它会有一个智慧的飞轮,这里面人和模型会产生互动,人会给模型输入什么呢?去输入Align With Human Intention,就是这个模型是很强大的,但是它其实不知道人需要它什么样的能力。通过人的反馈,它就更好的能够去理解人需要它展示什么样的能力,而去解锁这个模型更多的技能。同时,这个模型给人输出的是什么呢?是有智慧的一个内容。我们都知道,这些内容会激发人的各种创作和智慧的产生,所以这其中又会产生智慧的飞轮。
但是,AGI对算力的需求是非常大的。ChatGPT具备1750亿参数, 需要3000~5000张A100训练卡,而我们也可以看到ChatGPT一次训练的成本是上千万的美金。此外,今天它的推理的成本每天也有几百万美金高昂的成本在。
商汤从2021年在上海的临港建立了我们AIDC的超算中心,实际上是在这方面也有提前的这样的一个布局。SenseCore AI大装置基于2.7万块GPU的并行计算系统实现了5.0 exaFLOPS的算力输出,可支持最多20个千亿参数量超大模型(以千卡并行)同时训练。
从2019年开始,商汤从10亿参数的视觉模型研发,到今天有320亿全球最大规模的通用视觉的模型。在NLP领域,商汤当前也有接近2000亿参数的大模型,包括亦有能力去训练1800亿参数的多模态的模型。所以,未来通用人工智能基于多模态的基模型可以做视觉的感知,语言的理解、内容的生成和决策的推理。
商汤绝影是商汤下面做智能汽车的业务板块,我们坚持驾舱云三位一体的发展策略。我们希望能够通过驾舱融合,带来更好的驾乘体验;AI云能够去为自动驾驶提供数据闭环的服务,能够通过提供丰富的产品功能让智能座舱成为真正的第三生活空间。同时,商汤的AI云也为通用人工智能实现智能驾驶和智能座舱打下了非常强大的基础。
我们可以看到,在自动驾驶领域,BEV是我们当前主流的技术路线,未来可以朝多模态、通用人工智能的方向发展。我们通过AIGC可以去生成困难的样本,我们模型去输入多模态的这样的一些数据。其中,自动驾驶多模态的大模型可以做到感知和决策的一体化,输出则对3D的环境进行重建实现环境的可视化理解,我们的行为解码可以生成完整的路径的规划。同时,我们动机的解码器可以用自然语言去描述我们推理的过程,进而使我们自动驾驶的系统变得可以解释。
我们也是基于这些多模态的大模型可以做到数据的感知的闭环和决策的闭环,从前端自动的去采集高质量的数据,利用大模型自动的数据的标注,包括产品的检测,能够几百倍的去提升我们模型迭代的效率并降低它的成本。
在智能座舱板块,通用人工智能使我们基模型具备空间环境的理解、用户状态的感知,多模态的指令,还有多轮对话,内容生成等一系列的能力。它就可以去赋能,作为我们情绪的感知,智能助手,基于情感的对话、创意、内容的生成,个性的交互等等这一系列功能,不断地去提升我们的个性化的体验。也使我们的场景从上车、行车、停车、离车,进而拓展到娱乐、办公、购物、休息,这里面有很多的可以去探索的应用的场景。
实际上,智能汽车是通用人工智能实现闭环的一个非常好的场景,我们已经有人机共驾。未来我们希望车和模型之间能够产生更有效的互动,那就完成了从人到车,到模型这样的一个互动的闭环,能够让通用人工智能为我们提供更好的驾乘体验,解锁无限的想象空间。
最后,这个月商汤也在通用人工智能方面会有我们的技术日,去介绍一系列的多模态的大模型,包括语言的大模型、感知的大模型等等。我们希望去与我们的客户和合作伙伴共同迈向通用的人工智能,谢谢大家!
新化月报网报料热线:886 2395@qq.com
最近更新
- 天天观察:商汤王晓刚:AGI能为智能汽车提供更好的驾乘体验2023-04-03
- 河南镇平:加强经济运行调度 聚焦聚力项目建设|全球独家2023-04-03
- 当前动态:76年 19名连云港籍烈士“盼”来与亲人的第一次“团聚”2023-04-03
- 国家统计局:3月份制造业PMI为51.9%2023-04-03
- “茶叶2两、包装2斤”……过度包装何时休!|热头条2023-04-03
- 变味的“第三方测评”亟须规范发展 世界微头条2023-04-03
- 浙江映甫科技聚焦细分赛道 用心浇筑“安防城墙”2023-04-03
- 恒源煤电: 恒源煤电第七届监事会第二十一次会议决议的更正公告|天天快播报2023-04-03
- 甘肃省歌剧院关爱特殊儿童公益演出在兰举行_全球新资讯2023-04-03
- 观察:甘肃省公安机关2万名民辅警深切缅怀英烈2023-04-03
- 【观兰】兰州百合、浆水酸菜有了食品安全地方标准2023-04-03
- 【观兰】2023兰州马拉松赛定档6月11日 4月3日报名启动2023-04-03
- 江西兴国:清明节倡导鲜花祭扫2023-04-03
- 环球今亮点!安徽省郎溪县新发市场监管所:打造一所一品牌 不断优化营商环境2023-04-03
- 南昌青山湖检察院:普及司法救助知识2023-04-03
- 星河珑府项认购名单出炉!如果名单有你,可以准备首付2023-04-03
- 200平方米以上大平层抢眼!4月,长沙将有34个楼盘入市|每日消息2023-04-03
- 【速看料】扎根社区 切实解决群众“急难愁”生活问题2023-04-03
- 阿坎吉:曼城队内有良性的竞争,这能激发我的好状态2023-04-03
- 深耕矿井提升机细分领域 湘煤立达科技助力产业高质量发展2023-04-03
- 《中考压轴题分类专项冲刺》丛书开售,微信搜“致辉图书”公众号就能买2023-04-03
- 山东烟台:斑海豹现身长岛海域2023-04-03
- 陇小南核桃油兰州办事处暨云仓+线下旗舰店正式开启! 全球观热点2023-04-03
- 郑州二环外取消限购 限售政策也调整2023-04-03
- 全球速讯:西安首家“未成年人综合保护示范基地”揭牌2023-04-03
- 甘肃:成立退役军人伤残评定委员会2023-04-03
- 实时焦点:观山湖区一企业产品亮相首届中国国际预制菜产业博览会2023-04-03
- 国网吉林经研院“三举措”支撑吉林省加快推进集中式储能规划建设 每日看点2023-04-03
- 当前观点:祭祀也应与时俱进2023-04-03
- 【世界新视野】楼市的这个新政,要钝刀割肉!2023-04-03