海天瑞声7月4日发布投资者关系活动记录表,公司于2023年6月28日接受10家机构调研,机构类型为QFII、其他、海外机构、证券公司、阳光私募机构。 投资者关系活动主要内容介绍:
(相关资料图)
问:公司定增项目中的数据生产垂直大模型主要是做什么的?是否是单纯针对数据生产而推出的大模型?
答:公司将采用全栈自研的数据生产垂直大模型,可辅助完成面向多个下游任务的数据设计与处理规则,形成包括数据清洗方案设计、指令方案设计、指令泛化与迁移、指令数据验证、多模态数据方案等在内的多项生成能力,以及在上述方案下的原始数据及标注成果生成能力。本项目的研发将服务数据生产垂直方向,应对未来数据智能进一步发展的方向。
问:怎么看《生成式人工智能服务管理办法(征求意见稿)》对人工智能数据服务行业的影响?
答:《生成式人工智能服务管理办法(征求意见稿)》的拟定,对于促进我国生成式人工智能技术健康发展和规范应用将发挥引领性作用。《办法(征求意见稿)》当中的第七条、第八条、第十七条对生成式人工智能产品所涉及的训练数据来源的知识产权、征得个人信息主体同意、数据的真实性、准确性、客观性、多样性等合法性要求提出了明确要求,明确生成式人工智能产品提供者应当制定清晰、具体、可操作的标注规则,须对数据的来源、规模、类型、质量等进行描述,并必须要提供人工标注规则,人工标注数据的规模和类型等方面信息。 基于上述要求可以看出,《办法(征求意见稿)》对预训练数据、标注数据的合规问题等提出了更加严苛和复杂的要求,预期会使得预训练数据获取及标注成本的增加,出于投入产出比考虑,未来大模型厂商或将更倾向于将预训练数据采集、强化学习阶段数据标注工作交由第三方专业数据服务商完成,通过专业服务商的规模化应用降低数据使用成本。据此,高质量、规范化数据标注供给及know-how输出需求预期会逐渐增加。
问:请问大模型向多模态发展后,是否会对公司业务产生正向影响?
答:大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。
问:很多大模型已具有自动标注能力,请问这些公司推出的自动标注功能会不会让公司的业务不存在了?未来会对公司业务影响有多大?
答:自动化数据标注一直以来都是数据服务行业的发展趋势,同时也是数据服务企业的核心竞争能力之一,自动化标注的核心不是完全替代人类,而是提高人机协作效率,海天瑞声近年来在研发领域持续加大投入,不断提升公司数据生产的智能化水平。
问:大模型发展迅速,贵司是否考虑接入、使用大模型以提高数据处理效率?
答:大模型的发展不仅进一步抬升了AI市场空间,同时也为人工智能训练数据服务的发展提供了更好的便利条件。例如,大语言模型可在部分场景/领域的设计环节起到辅助作用;视觉类大模型也已具备通用物体的预识别及标注能力,从理论上,可更好辅助完成视觉类图片的预标注。未来,公司会持续积极探索,将适配于公司业务领域的大模型技术与公司的数据服务全流程进行更好的结合,以更好提升公司综合数据业务能力。
问:公司如何看待合成数据这个技术?今后是否会对公司的业务产生不利影响?或者说公司是否对此技术有所关注并进行了相应的技术储备?
答:在数据重要性凸显且数据需求快速增长的时代,合成数据可以认为是人工智能行业发展到一定阶段的必然产物。数据合成技术可以作为数据采集的有效辅助,但也存在较强的局限性,降低真实世界各类特征的训练效果,因此目前仅可作为数据采集的一种辅助方式。从目前数据服务行业来讲,以计算机视觉场景为例,合成数据主要应用于某些高危的、罕见的corner case的模拟训练当中,但合成数据毕竟是由机器生成的虚拟数据,其数据质量以及真实性仍无法替代真实场景数据,因此按照目前的技术路线,绝大多数企业仍在使用真实场景数据进行模型训练。但公司会紧密关注合成数据技术的发展,根据最新的行业动态及时调整公司业务布局。
问:大模型预训练阶段很大程度用的都是无监督学习,无监督学习下,公司的业务是否会受影响,或者会产生哪些新的数据机遇?
答:大模型是人工智能技术新的发展范式,该技术路线下将衍生出新型数据需求。例如,预训练阶段,数据服务公司需能根据客户的大模型需求,完成对海量数据(603138)清洗方案的设计以及执行,通过清洗出高质量数据,帮助客户高效完成模型预训练开发;同时,预训练想要达到更高阶的通用学习效果,需要更为丰富的高质量数据来源,例如各类版权数据等,因此,能聚集更为丰富的版权类数据、并以工程化和规模化地方式向客户提供相应服务的数据服务商将具有更高的市场竞争力。 此外,为使大模型能力更趋近于人类,大模型还将在完成预训练的基础上,通过有监督微调以及基于人类反馈的强化学习,实现模型在特定方向上的优化迭代。上述两个阶段均需深度人工参与,同时参与上述两阶段的数据处理人员将被要求有更高的认知水平和专业能力,以更好指导机器完成高阶能力优化。 大模型时代实质上是一个海量数据的时代,随之将产生海量的数据需求,数据服务模式也将由传统的数据标注向获得海量高质量数据、以及更强的数据处理能力转变,这对数据服务商提出了新的、更高的要求。因此,能够前瞻性布局大模型数据服务能力的服务商将优先获得市场机会,建立先行的护城河。
问:请问目前公司在智能驾驶领域的建设情况如何?
答:在智能驾驶业务方面,公司进一步升级了智能驾驶的数据服务能力,推出了新一代智能驾驶数据处理平台DOTS-AD。新平台可支持更多场景、更多传感器、以及更前沿的自动驾驶感知算法需求,可以覆盖市面上主流3D、2D-3D融合标注需求以及更为前沿的数据处理能力(包括:BEV鸟瞰图标注、点云叠加标注等);同时,算法中台功能更加完善,2D算法准确率持续提升,3D算法功能逐步完善;此外,平台操作的友好度同比提升,助力人工标注效率的提升。
问:决定智能驾驶数据业务市场需求空间的因素有哪些?未来智能驾驶的数据需求如何?
答:智能驾驶数据业务的市场需求主要与三个要素相关:1)车厂的车型及传感器丰富度。通常来说,不同车型、不同传感器会有不同的硬件配置方案,继而需要不同的数据解决方案,因此车型/传感器等硬件配置的多样性程度将会直接影响所需数据解决方案的数量;2)量产车数量。量产车的数量决定了整个的训练数据需求基数的大小;3)智能驾驶级别的逐渐提升。智能驾驶级别和渗透率的提升决定了数据处理场景的种类和体量。 这三个要素对训练数据需求的影响是相互叠加的。公司预测,随着智能驾驶相关政策的推出以及单车成本的不断下降,智能驾驶的商业化进程将加速,在上述三个因素的共同作用下,数据处理需求将呈现指数级增长趋势。
问:怎么看国家数据局成立对公司业务的影响?
答:国家数据局的组建意味着国家已将数据作为未来经济社会发展的重要动能之一,国家旨在通过组建专业化的高权限部门来推动数据产业发展,打通数据链路,实现数据整合,因此可以预期建立国家数据局将会进一步加速数据要素乃至数字经济的发展。海天瑞声作为人工智能训练数据领域的领跑者,将基于过往业务能力,通过数据提供者、数据增值者、数据赋能者三类角色服务于数据要素市场建设。具体来说,公司将力争参与到全国一体化政务大数据体系建设,并积极探索搭建基于政府共享数据的专业数据集,此外,还将通过提供数据生产及处理的平台工具等数字化技术,赋能政务数据资产化与价值化,海天将全方位挖掘探索据要素市场培育过程中的新业务、新模式,使之成为公司潜在的收入增长动能之一。
问:国家在推动数据交易所的建设,在重视数据建设的政策环境下,公司有何受益?
答:数据交易所建设、数据要素二十条发布、国家数据局组建等等都彰显了国家大力发展数字经济的决心。人工智能作为数据经济时代发展的核心技术,将会深度受益,而作为人工智能三大核心要素之一的数据,更将起到重要推动作用。此外,为进一步加速国家数据、行业数据、以及社会数据共享、利用和流通,国家投入大量资本以及政策引导产业发展,打开了数据利用和应用范畴,开拓了新的数据服务市场,公司目前正在积极与相关部门对接,力争参与到数据要素市场的早期拓展,用过硬的数据服务能力更好服务于国家战略;
调研参与机构详情如下:
参与单位名称 | 参与单位类别 | 参与人员姓名 |
---|---|---|
瑞银证券 | 证券公司 | 张维璇、曹海峰、王冠轶、陈雯 |
上海世诚投资管理有限公司 | 阳光私募机构 | 夏骏 |
永安国富资产管理有限公司 | 阳光私募机构 | 胡瑶 |
EASTIADE CHINA FUND | 海外机构 | 沈武杰 |
FRANCHISE CAPITAL | 海外机构 | Patrick Zhou |
凯思博 | QFII | 原祎 |
大成国际资产管理有限公司 | QFII | 张希 |
EFM Asset Management | 其他 | Eileen Deng |
彬元资本 | 其他 | 薛栋民 |
鸥翎投资 | 其他 | 马传永 |
标签:
X 关闭
X 关闭