时间: 2025-02-27 07:40:27 | 作者: 产品品类
披露接待调研公告,公司于2月12日接待新华资产、景顺长城、易方达、大家资管、华创证券等41家机构调研。
公告显示,海天瑞声参与本次接待的人员共2人,为董事会秘书张哲,投资者关系袁璐。调研接待地点为线下策略会。
据了解,海天瑞声在2024年的收入增长主要得益于大模型技术的快速发展和应用场景的落地,推动了智能语音和自然语言业务需求的大幅度增长。DeepSeek模型的推出并未降低AI行业对数据的需求,反而因其高质量数据的重要性,提升了模型的表达和推理能力,降低了噪音,确保了一致性,并提升了泛化能力。此外,海天瑞声的业务模式、技术平台能力、供应链资源管理能力和数据安全及合规能力构成了公司的核心竞争力。公司的主要竞争对手包括国内外的数据服务企业,而海天瑞声在产品积累、数据处理技术和平台、全球化供应链管理能力等方面具有非常明显优势。
据了解,海天瑞声的产品数据集业务与定制化服务业务有明显区别。产品数据集是基于公司对市场的判断和通用化需求的提取能力形成的模拟数据,属于一次性投入、未来重复授权销售的模式,对公司的营收和毛利有及其重要的作用。而定制业务则是按照每个客户的定向化需求提供服务,有些情况下使用客户提供的实网数据来进行加工。公司的训练数据产品和服务的定价模式包括成本加成定价法和需求导向定价法,以灵活适应市场和客户需求。
据了解,海天瑞声在采集业务中严格遵守《个人隐私信息保护法》和《数据安全法》等法律和法规,确保在采集终端人个人隐私信息时获得合法有效的授权,保护个人隐私信息安全及相关合法权益。公司在开展涉及个人信息采集的业务时,会事先准备好授权文件,供终端人了解项目情况及其权利,只有在终端人同意并签署授权文件后,公司才会开始相关采集作业。
受益于大模型技术的快速发展以及应用场景不断落地,以智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力建设。在此背景下,以多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐等为代表的自然语言业务需求同比均呈现大幅度增长,整体上驱动公司营业收入同比显著增加。
2、DeepSeek出来后,对数据需求的影响如何?是否会降低AI行业对数据的需求?
(1)Deepseek推出了一系列模型,其中V3模型依然使用了预训练、以及SFT等训练方式,其中预训练阶段的token使用量达到了14.8T,远超GPT4等同类可比大模型预训练阶段的数据使用量,且在后训练阶段也使用了一定规模的标注数据,这也更加说明海量以及高质量数据对于基础模型能力提升的重要意义。
(2)关于让大家震撼的R1模型,基于目前的公开信息来看,其部分优势体现在推理类任务上,尤其是那些具备较强的规则性、可以推导的任务类型上,确实不需要大量的人工标注,但是对其他领域(尤其是更为广阔的垂向领域)的复杂问题,依然需要观察,我们大家都认为高阶的数据专家的参与依然非常重要。
(3)此外,数据质量不仅影响模型获取和表达知识的能力,还决定了模型生成内容的风格和准确性,帮助DeepSeek实现了在输出端的文采能力提升。
其一,高质量数据能提高模型表达和推理能力。优质数据包含准确、连贯且富有表现力的语言样本。例如,包含CoT数据可以引导模型在推理时进行反思,进而在生成回答时展现出清晰的逻辑和优美的语言表达。这正是DeepSeek模型能够生成既准确又具有华丽文风的重要的条件之一。
其二,高质量数据能够更好的降低噪音和确保一致性。数据中的错误、噪音或不一致信息会导致模型生成内容出现语法或逻辑问题。高质量的数据则能有实际效果的减少这样一些问题,使模型更好地学习到语言规律,来提升整体生成质量。
其三,高质量数据能提高泛化能力。数据的多样性和全面性使得模型在面对不相同的领域和任务时都能生成高质量的回答。丰富且准确的样本帮助模型在多种场景下自如切换风格,无论是精炼的技术解答还是文采斐然的创意写作,都能游刃有余。
(4)往未来看,Deepseek模型的出现,有望进一步助推模型向产业端发展,真正让大模型技术深入滲透到各个行业中,这一过程中必将凸显专业相关知识的直要性,需要更多数据、以及数据专家的参与,因此我们看好并期待未来大模型在各行业百花齐放的局面。
可用的训练数据面临枯竭主要指的是网络上可以直接获取的数据,而在具有更大价值量、更大体量的数据并未在互联网进行公开展示,例如政务数据、公共数据、各垂类公司的私城数据、以及个人隐私信息数据等,但上述教据对于模型训练尤其是模型在向垂类以及细分场景拓展时,起到及其重要的作用,所以,并不会存在数据枯竭的问题。未来,随国家政策对公共数据开放、治理、流通支持力度的特续加大,以及国家对大模型行业化拓展的持续加码,训练数据源将会持续拓展,催生更大的训练数据市场。
产品数据集是先于客户的真实需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用化需求的提取能力,其属于是一次性投入、未来重复授权销售,对公司的营收、毛利有着及其重要的作用;而定制业务的需求来源是客户的定向化需求,有些定制业务的原始数据来源是客户提供的实网数据,企业来提供纯加工的服务。
客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,常常要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到咱们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。
定制服务定价模式:一般都会采用成本加成定价法。公司依据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。
产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定产品标准价格及价格区间,在销售过程中,按照每个客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终销售价格。训练数据产品通常以单个数据集为单位做定价,定价比较灵活。
(1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的大多数来自,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强判断力和较强的资金实力。截至2024年6月末,公司已积累超过1,650个自有知识产权的训练数据标准化产品,数据库存量稳居全球企业前列。
(2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全方面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样子就能够做大规模、提升效率、降低成本。
(3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会促进加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到非常明显提升,为客群拓展提供有力支撑。
(4)数据安全及合规能力:数据安全及合规能力慢慢的变成了了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识别和管理实践中,已形成了较为成熟的安全、合规管理体系。
从短期来看,公司竞对仍是传统模式下的数据服务企业,国内的主要竞争对手是一些品牌数据提供商,如数据堂、标贝以及一些新兴公司;国外的主要竞争对手是Appen。
与竞争对手相比,海天瑞声自身还是存在非常明显的竞争优势的,如丰富的产品积累、成熟的数据处理技术和平台、全球化的供应链管理能力等等。另外,从公司创业历程看,由于长期与国际性科技公司合作,对数据安全和合规的重视是深入到公司运作的方方面面的。而数据安全和合规是需要投入较高的成本建设的,在日益完善的法律环境下,这方面的投入为公司带来了新的竞争壁垒,也将会为公司未来在垂直行业和政企业务拓展形成有利优势。
但从长久来看,随着训练数据需求慢慢地向高品质、规模化、行业化方向转变,基于自身持续研发能力建设的数据生产智能化程度将成为数据服务商的核心竞争力,因此,未来诸如ScaleAI这类具有更强技术属性的同业公司将成为海天的主要竞争对手,为此海天自身慢慢的开始在研发、人才等方面大规模持续投入,为未来竞争提前布局。
有一些客户是会有自建团队的,客户自建团队主要解决其自身的部分数据需求,如敏感数据等,但受专业化分工的影响,客户仍然会大量购买数据服务提供商的数据,尤其是那些需要投入较高研发力量的复杂数据,以充实其算法模型训练的规模性需求。
是的,对于业务中所采集的终端人个人隐私信息,我们按照《个人隐私信息保护法》《数据安全法》等法律要求,依法依规进行采集。法律要求获得授权同意的,我们会事先取得合法有效的授权,以此来保护其个人隐私信息安全及相关合法权益。因此,公司在开展涉及个人信息采集的业务时,会根据所适用的法律要求,并结合项目详细情况,事先准备好授权文件,供终端人了解项目情况及其所享有的权利,终端人了解了授权文件的内容、同意作出授权并签署授权文件后,公司才会开始相关采集作业。