成果名称 完成单位 报告编号
  多模态语料数据智能平台 北京滴普科技有限公司 中促会评字[2024]第044号
成果简介
一、课题来源与背景
大数据时代,面对数据类型和来源的多样化,企业需要充分利用自然语言处理、音频、视频等领域的交叉融合技术,实现多模态数据的统一处理和分析。针对上述需求,本项目提供了有效的解决方案并完成了多模态语料数据智能平台的产品研发。

二、技术原理及性能指标
多模态语料数据智能平台是一款能在保证数据安全的基础上具备结构化、非结构化数据的全链路实时的采集、处理、存储、分析等功能的智能化数据管理产品。
1.在数据平台开发、分析等各环节引入大语言模型,省去人工配置的繁琐工序。
2.在结构化数据处理环节中,采用数据湖技术(Iceberg)作为结构化数据的统一表格式,比传统的hive表格式有更强的先进性;采用存算分离架构,有利于降低成本。
3.针对多模态数据的不同特点,选择对象存储作为平台的底层存储系统,成本低廉,且使用协议统一规范(S3协议),在云上容易获取,具备不同类型数据存储的特点,冷热数据分离既提高了存储效率也保证了存储容量的几乎无限制扩展。
4.云原生化能带来资源良好的隔离性和弹性,底层硬件和操作系统的适配标准化,具备了一处打包,多处运行的特质,使得平台的可移植性得到提高。

三、技术的创造性与先进性
1.主要创新点
(1)研发了一种数据全链路实时处理架构,实现了数据的实时抓取和智能分析;开发了冷温热数据自动分区的轻量级智能迁移技术,提高了多模态语料数据的实时存取效率。
(2)在原有的NLP to SQL基础上,结合企业级数据平台较为完整的指标体系特点,提出了Metric Query Language架构,实现了基于自然语言的多模态语料数据统一分析处理。
(3)研发了小文件动态智能合并子系统,提升了存储效率和查询速度。
(4)研制了结构化数据和非结构化数据的语料数据智能平台,在湖仓一体的架构里实现对多模态数据的动态存取和分析,支撑基于数据的业务决策场景。
2.主要技术优势
(1)该平台解决了大型央国企的核心数据平台多级管理的问题,采用了多湖联邦的技术架构,可以大幅降低数据ETL成本,减少数据迁移,实现多级数据湖之间的跨湖访问及管控治理。
(2)该平台采用体系化的湖仓一体的架构,实现了Direct lake方式降低出湖建仓成本,资源利用率从30%提升到60%,并以多云存储的技术架构来实现流批统一存储,降低数据存储成本;并基于Data Fabric的技术架构理念,实现一站式的数据开发治理分析平台,降低维护成本。
(3)该平台支持了Gateway智能路由计算网关,在此基础上实现了支持分布式和多租户,统一SQL接口对接不同工作负载,用于在Lakehouse上提供Serverless SQL,为用户提供更好的数据服务。
(4)多模态语料数据智能平台在技术架构上提供了统一的用户体验,以低代码方式开发指标,实现业务和数据的口径一致;并实现开发治理一体化,从根源上保障数据质量;在智能化方面通过大模型智能助手实现语义化智能分析。

四、技术的成熟程度,适用范围和安全性
经过三年的科学研究与技术创新工作,该技术性能指标达到任务书要求,创新使用多模态数据源安全沙箱,实现了数据安全、模型安全、应用安全,产品授权了20余项技术专利、拥有25项软件著作权登记、获得了中国信通院“可信研创”认证,代码自主率达到94.31%;并具备云原生、低成本存储、高性能计算、简单易用、安全可靠等特点。该产品已达到成熟应用阶段,应用于200+大中型企业。

五、应用情况及存在的问题
目前,该产品已经在大型国央企、装备军工、半导体、能源、工程设计、基础制造、商业综合等行业领域超200+企业实现了产品配套及应用落地,为企业数字化转型搭建了数据智能基础设施。
(1)大型国央企:如华润、交通集团、深圳/佛山/无锡市区大数据局等地方国企数据平台底座;
(2)装备军工:如航空发动机的设计(624)、发动机的生产制造(420)、航发维修(5719)等军工装备产业链企业,贯穿从需求、设计、制造、供应链、销售到售后全业务过程;
(3)能源行业:中石油、中海油、中石化全面进入,从勘探开发、炼化、销售、运营等能源全链条产业的数据智能服务;
(4)基础制造:如长安新能源汽车、巴扎海船舶、纳爱斯集团、四川重庆机电、陕药集团、威高集团等企业全链路业务数据管理与分析服务。

六、历年获奖情况
2023大数据“星河”案例奖、2022年中国北京创新创业大赛第十一届中国创新创业大赛北京赛区成长组一等奖、国家标准企业竞争力5A级、2019及2020年中关村前沿大赛第四名、HICOOL2023全球创业大赛优胜奖等。
成果完成人
1.赵杰辉  2.杨磊  3.王兵  4.柏海峰  5.冯森  6.马欢  7.冯吉坤  8.张赵中  9.刘波  10.许俊雄  11.俞志刚  12.王永进  13.王琳  14.红乐  15.李畅  
成果评价情况
  评价单位: 中国民营科技促进会 报告编号: 中促会评字[2024]第044号 评价日期: 2024-04-02
  组织单位: 中国民营科技促进会科技成果转化办公室 项目负责: 张研 成果管理: 18911978313
评价意见
1.项目提供的评价资料齐全,符合评价要求。
2.项目的创新点和技术特点如下:
(1)研发了一种数据全链路实时处理架构,实现了数据的实时抓取和智能分析;开发了冷温热数据自动分区的轻量级智能迁移技术,提高了多模态语料数据的实时存取效率。
(2)在原有的 NLP to SQL基础上,结合企业级数据平台较为完整的指标体系特点,提出了Metric Query Language架构,实现了基于自然语言的多模态语料数据统一分析处理。
(3)研发了小文件动态智能合并子系统,提升了存储效率和查询速度。
(4)研制了结构化数据和非结构化数据的语料数据智能平台,在湖仓一体的架构里实现对多模态数据的动态存取和分析,支撑基于数据的业务决策场景。
3.项目产品已通过中国赛宝实验室软件测试。
4.该项目已获得发明专利授权20件,软件著作权25项。
5.该技术成果已在中国航发成都发动机公司、中核装备技术研究(上海)有限公司、重庆长安新能源汽车科技有限公司、四川九洲电器集团有限责任公司、四川航天烽火伺服控制技术有限公司(国营7111厂)、中航工业燃气涡轮研究院(624所)、航天工业发展股份有限公司、上海集成电路研发中心、北京奕斯伟科技集团有限公司、广汽集团等应用。
评价委员会认为该项目综合技术达到国内领先水平,一致同意通过科技成果评价。
评价专家
姓名 工作单位 职称 从事专业
张向阳 中国科学院北京软件工程研制中心 正高软件
宫云战 北京邮电大学计算机学院 正高软件
李红辉 北京交通大学网络管理研究中心 正高软件
周迎 科技部火炬中心 正高科技管理
张序国 北京大学国家高新区发展战略研究院 正高科技管理
WeChat 微信公众号
WeChat
Hotline 服务热线
Hotline