■本报记者 占悦
“我们要做数据领域的‘英伟达’,创出驱动未来的‘淘金铲’。”当启数光轮科技(上海)有限公司创始人谢晨决定“卖数据”时,如同在平静湖面投下一颗石子,涟漪阵阵。
算力是把控人工智能(AI)发展未来的第一步,而支撑算力的是丰沛的、有价值的数据。谢晨带领团队在国际领域创新,将AIGC(生成式人工智能)与仿真技术深度融合,提供多模态、高质量、大规模、低成本的合成数据。
企业成立仅一年,“售卖”的数据解决了诸多业界难题,已获四轮融资,更获得头部创投机构经纬中国、奇绩创坛等的认可。“敢想、敢行动、敢挑战最高峰,以青年力量加速中国人工智能产业发展。”
五年验证“一个真理”
20年前,在北京大学读物理的谢晨不会想到,有朝一日专业也成了创业的敲门砖。
大学毕业后,谢晨赴海外攻读数量金融博士。之后,在英伟达负责自动驾驶仿真业务。当时,他发现要让自动驾驶变得更安全,就需要大量的训练数据,而这些真实数据不仅难以采集,而且存在利用率低、标注成本高和长尾场景缺乏等问题。
仿真模型是物理对象、系统或过程的虚拟表示,可预测其在不同场景中的行为和性能。在物理领域,研究者往往会用仿真的形式对复杂的系统和过程进行建模,但生成的数据真实度、泛化性与效率较低,无法解决现有难点。“能不能让物理仿真与人工智能相结合?”
结合自己所负责的自动驾驶业务,他开始验证AIGC与仿真技术融合的可能性。他持续优化代码、调整关键性能参数,有效生成了大量数据。借助先进AI算法,他对这些数据进行了深入细致的分析,逐一比对,以确立一套可量化的数据评估准则,从而找到符合项目需求的数据,使其被有效利用。
此后,他先后在蔚来等企业担任自动驾驶仿真负责人,继续在实践中“检验真理”。功夫不负有心人,五年的时间里,经反复验证,他终于找到了AIGC与仿真技术最佳融合方法,由此可以生成映射现实世界的合成数据——图像或视频,通过训练算法理解和学习现有数据便可生成3D、物理真实、可泛化的新数据。
带着自己确认的“真理”,谢晨在2023年毅然决然辞职创业。“物理是研究世界的底层逻辑,现在做合成数据,则是‘探听’未来世界的秘密。”
打一个“复合式”补丁
刚开始创业3个月,谢晨就成功完成“接单”。
有厂商反映,企业正在研制的自动驾驶有不少bug。比如,路边广告牌上有人物图案时,汽车会将其识别为真人,启动刹车。厂商的算法工程师直接给自动驾驶程序打“补丁”,即修改识别程序规则。“但一旦出现真的行人,又容易无法识别,从而出现安全隐患。”
谢晨的团队迅速开始提供数据服务,生成了数千个包含人像广告的各类场景,并从中挑选出带有精确标注的数据。这些数据随后用于算法训练,以增强自动驾驶模型的表现。
第一单生意,就此“谈成”,启数光轮就此一炮打响。“我们提供以数据为中心的解决方案,让企业以相对较低的成本实现高效率的数据迭代。”此后,谢晨搭建了国际领先的合成数据产线,为多家海内外知名自动驾驶公司、国内外主机厂提供产品交付并形成合作伙伴关系,今年以来已经签约国内数个头部主机厂,订单金额数百万。
“与其拥抱技术,不如保持开放态度去自我颠覆。”企业的研发也正高速运转着。目前研发团队正不断完善核心技术,就在不久前,谢晨还带领企业与上海人工智能实验室联合推出并开源自动驾驶3D Occupancy合成数据集“LightwheelOcc”,用于CVPR 2024自动驾驶挑战赛和China3DV 2024挑战赛。据悉,今年下半年,企业的合成数据将实现3至5天内,与自动驾驶解决方案供应商或主机厂的模型“适配”,攻克相关难题。
这支由谢晨执帅的团队,平均年龄28岁,技术人员占比超过90%,是合成数据、AIGC、仿真等领域技术大咖。能凝聚起这样一批优秀青年,谢晨说,靠的是共同的目标——以数据为内核,挑战未知的可能。
企业坐落于嘉定区,楼上是相关主机厂,楼下不远处是嘉定汽车城,所见之处都是创新机遇。“我们看好上海,上海也给了我们广阔的舞台,我们一定能在此逐梦圆梦,向新而行。”