数据是新时代的新燃料,如何有效、高效地应用数据燃料,成为企业发展中竞争壁垒中的重要组成部分。然而现实是,标注行业认知的差别正在成为企业乃至行业的发展的挑战。
(资料图片)
对此,星尘数据创始人、CEO章磊提出了标注行业认知天梯的概念。他将数据认知分为初级认知、中级认知和高级认知:初级认知是标注行业是“人力工厂”,服务商用相对初级的标注工具、项目管理和海量人力就能干活,招标时低价者中标,存在交付风险;中级认知是,对项目管理的难度和标注工具的复杂度有一定认知,投入工具研发和项目管理成本,研发周期长,管理难度大,数据迭代效率低;高级认知是,重视平台的技术实力,使用高度自动化的标注平台,且与数据服务商一起迭代数据闭环和数据策略。
打破标注产业“人力工厂”认知
3月1日,星尘数据发布的Rosetta3.0平台就是要打破标注产业“人力工厂”认知。
星尘数据表示,其拥有行业内自动化水平最高的标注平台Rosetta平台,在算法种类、算法效率、算法接入能力、算法交互能力等方面均具领先优势,其数据闭环系统打通数据采集标注、数据预处理、自动化质检、人工质检、多轮质检、客户验收系统、数据管理、数据检索、数据可视化、场景挖掘等全链路,同时为客户提供数据策略专家服务,能够支持人机交互、主动学习、强化学习等主流数据策略。
据介绍,全面升级之后的Rosetta平台提升了算法加持能力,新增20+自研算法,点云标注效率较纯人工标注提升 5倍+,支持机器人标注及质检,支持交互式标注以及算法实时反馈;增强了自动驾驶数据标注能力,3D渲染50帧/秒以上,支持超长连续帧2000+ 流畅标注,支持2000W点点云平滑标注,支持BEV标注、3D重建标注、4D标注、毫米波标注;增强数据闭环支持能力,打通 DataOps 和 MLOps 链路,通过 API 对接实时发现难例,帮助客户实现主动学习和强化学习;通过架构模式全面升级提升平台能力,采用微服务架构模式,系统具备更高扩展性和可用性,可支持数万人同时作业,并引入流式计算等大数据技术,提升平台数据实时处理能力;提供面向第三方的开放服务能力,通过 OpenAPI 方式,和客户建立灵活的数据通路和算法服务通路,加速客户算法迭代速度;构建 5A 数据安全保障体系,从产品、技术双层面落地 5A 数据安全架构,实现端到端存储传输使用安全、信息隐私保护、数据隔离等;持续增强全方位、精细化质检能力,提供上百个行业通用质检规则服务和自研质检算法,为数据质量保驾护航,标注准确率可达 99.9%;强化数据管理能力,支持多源异构数据管理、版本管理、标签管理、场景管理,支持数据可视化、数据场景挖掘、多模态检索等。
能为自动驾驶带来什么?
作为自动驾驶的三驾马车之一,数据已经成为算法迭代、感智能提升不可或缺的一部分。然而,随着自动驾驶能力的提升,自动驾驶车辆的快速增长,数据标注的需求量也随之爆发。但许多数据标注企业仍停留在劳动密集型产业的定位中,简单粗暴的“人力工厂”已无法有效解决供应不足的行业痛点。
这一魔咒,正在被创新的标注技术不断打破。章磊指出,星尘数据开发了上百种辅助标注算法,为预标注、标注、质检环节提供多样化的算法辅助。以激光雷达点云标注为例,平台在渲染、自动贴合、自动映射、连续补间等功能上具备行业领先的性能,具备无延时切帧特点。
同时,算法的加入一是让平台自动化水平逐年提升,目前平台自动化率达到60%。高自动化率让标注效率和标注产能显著提升。二是让复杂标注需求得以解决。目前针对BEV、3D重建、4D融合等自动驾驶前沿算法的数据标注,Rosetta平台都可以实现。
截至目前,星尘数据服务了50多家头部的车厂和自动驾驶公司,包括了前80%的重要客户,数据闭环能够帮客户数据的算法迭代周期从三个月缩短到两周。整个过程的全部自动化极大缩短了沟通的时间,减少了60%以上的数据处理,有效提升标注效率。
自动驾驶客户的认可也从侧面证明了Rosetta平台强大的标注能力。目前星尘数据合作了90%头部自动驾驶客户。自动驾驶标注业务在营收占比高达70%-80%。
值得关注的是,随着自动驾驶新型传感器的上车,对自动驾驶标注数据的要求也在提高。章磊表示,L2标注主要就是各种细分的任务,比如说车道线,可行性区域红绿灯行人等。L4标注主要是激光雷达点云标注、2D/3D融合标注等。另外,BEV、3D场景重建、4D重建(3D+时序)正在成为自动驾驶研发热门方向。在具体的标注策略上面,系统看到的东西更加连续了,将会变成一个连续的大空间进行标注。这对于底层的标注能力、系统效率、系统加载大资源的效率、标注策略优化、标注管理能力等各方面都会提出了更高的要求。
在自动驾驶中,星尘数据可视化3D激光雷达点云标注工具可以帮助客户进行自动驾驶模型训练,支持物体的位置、大小、朝向等属性,以及多传感器融合及连续帧对象追踪。
对于无人驾驶行业来说,普遍缺乏数据的一站式解决方案,耗费大量的人力和时间成本。基于多年无人车领域数据采集和标注的经验,星尘数据针对这一痛点,打通无人车训练的闭环,提供从改装车、数据采集、数据标注、仿真测试到真车测试的一站式解决方案。
在发布会上,章磊介绍了星尘数据的数据闭环解决方案,这是Rosetta3.0平台的一大亮点。章磊表示,全流程闭环式AI数据系统将成为主流,星尘数据为此提早进行研发布局。
在一个完整的数据闭环训练中,客户可使用星尘提供的离线数据包进行基础版模型训练,星尘标注系统通过API与客户算法系统进行交互,动态感知客户模型效果,基于模型各版本迭代的效果,动态检索不确定性最大、信息量最大、损失最大、稀疏场景等有效数据。几次迭代后,不仅沉淀了有效数据,还节省了数据成本。同时,星尘还可以在海量数据中找到真正有价值的数据帮助客户训练模型,并利用自有数据集评测模型效果。模型上线后,行车数据可用于模型迭代,形成数据闭环。
章磊表示,未来星尘数据将专注AI数据服务,通过Autolabeling 技术、数据策略专家服务和数据闭环系统服务,为全球人工智能企业特别是自动驾驶行业提供“燃料”,最终实现AI的平民化。