复杂文本数据(产业政策文本)的算法优化和技术实现
合作区域: 国内
拟投入总金额: 500.0万元
所属地域: 首南街道
技术领域: 网络信息获取与处理
技术交易金额: 万元
截止日期: 2025-08-13
信息描述
研发背景:

数字经济基础是数据,关键是算法,核心是平台。我国正加快实施数字经济发展战略,习总书记二十大报告中指出,要站在统筹中华民族伟大复兴战略全局和世界百年未有之大变局高度,充分发挥海量数据和丰富应用场景优势,不断做强做优做大我国数字经济。浙江省把数字经济作为“一号工程”,促进数字经济创新发展宁波市提出超常规发展数字经济,助力打造“六个之”。

数据智能处理技术中,海量复杂文本数据(例如产业政策、产业资讯等文本数据)处理是全球性难题如果人工处理、标注,不经济、不可行,目前的深度学习、NLP等技术存在两大先天的技术缺陷:模型优化依赖清洗、标注准确的大样本素材清洗、标注规则变化以后,系统不能自适应规则变化,需要新的大样本素材支持。因此,深度学习、自然语义分析等技术存在技术路径瓶颈和技术缺陷虽然部分解决了复杂文本数据的自动处理问题,特别是在场景简单的情况下,机器对简单文本的语义分析理解、数据处理还能够很好满足需求,比如游戏、电商、视觉检测等领域,深度学习的技术水平已经能够达到90%以上的判定准确率;但是,受数据处理的准确性、技术路线等因素限制,复杂文本的数据处理、复杂的语义理解更为困难,机器学习的准确率普遍在80%左右,还达不到实用程度,使得数据处理后不好用、不可用,机器处理后仍然需要人工进行二次审核,无法满足海量数据处理的场景应用。

复杂文本的数据处理,华为、百度、拓尔思等国内互联网、人工智能大厂也没有完善的技术方案,为用户开发的数据平台,应用了网络爬虫,使用了NLP等技术,但是受准确率的影响,数据最后一步仍然需要人工审核、维护,造成政府、产业园区、协会/联盟/学会、公共服务平台、企业等官网、平台、APP无法实现数据自动更新维护,网络上出现了大量的僵尸数据、僵尸网站、僵尸平台。例如,华为承建的宁波新材云创入选浙江省数字化改革最佳应用,实际上其产业政策和产业资讯两大模块,应用了爬虫采集却无法自动清洗、自动标注,需人工审核和维护,造成项目未验收就已成僵尸网站、僵尸数据;又如,中国电子信息产业联合会网站的产业政策、产业资讯、企业动态等栏目中,数据维护停留在数年之前,都已经是僵尸数据。

优策研发了海量复杂文本数据处理的原创算法,基于算法、规则、词库,构建了国内数据量最大的产业政策大数据平台,并且架构支持以云架构为第三方定制产业政策大数据平台(搜索引擎)。但是,受技术路径和技术水平局限,目前数据处理的算法难以完全满足海量复杂文本数据处理的效率、准确率要求,很难满足场景拓展的需要,并且系统不支持自学习功能;目前的技术架构存在较大的优化空间,大平台和定制子平台业务逻辑、数据耦合紧密,子平台定制速度、主平台和子平台的数据同步响应速度慢,技术架构只能支持小规模商业场景应用,系统架构、并发能力难以满足大规模商业场景和业务逻辑的需求,影响商业场景和市场业务拓展。

目前,人工智能技术领域,大模型、生成式人工智能是未来重要发展方向,融合新一代人工智能技术实现复杂文本数据处理是重要研究方向。结合产业政策的特定应用场景,基于分布式、小算力和特定垂直场景,实现算法优化、系统架构创新和迭代这是一条成本经济、技术可行得技术路线。

主要内容:

技术需求1:复杂文本数据处理的算法优化和改进。基于产业政策的清洗和标注需求,基于优策开发的算法和数据基座,研究开发海量复杂文本数据处理的优化算法,或通过与深度学习、NLP等技术协同融合,进一步提高数据标注的准确率。基于新的算法模型,或者新的技术路线,构建相应的词库、知识图谱,实现数据清洗、属性标注的自动处理,在保证数据处理准确率的前提下,攻克深度学习、NLP等技术存在的两大先天技术缺陷和技术瓶颈,解决数据处理的大样本依赖、规则自适应两大技术难题,有效解决数据处理的准确率、实时性等难题,实质性提高数据处理效率、准确率,率先在产业政策领域突破海量复杂文本数据处理的最后一公里,主平台和定制的子平台,无需人工审核维护。

技术需求2:系统架构优化和改进。分析诊断优策产业政策目前大数据平台架构存在的问题,提出系统架构优化方案,实施、迁移新架构,提高计算资源使用效率和系统运行性能。研发云原生、微服务、容器等云架构和技术,基于分布式、小算力、特定场景,实现系统架构创新和迭代,系统实现松耦合、可弹性伸缩。研发数据根中台、技术根中台等两大数据基座,用户能以云架构、零代码模式,通过简单的参数设置,灵活定制各类区域、行业、主题类大数据平台、搜索引擎,实时赋能数据,赋能原创算法、搜索引擎等核心技术,降低用户技术门槛,节省系统建设和数据维护成本。

技术需求3:基于新算法和新架构,支持各类新应用场景拓展。基于产业政策数据底座,围绕数字经济、软件产业、新材料、智能网联汽车、绿色石化、工业互联网等行业、领域,面向政府、产业园、孵化器、高端智库、公共服务平台等用户,可以云架构、零代码模式构建各类大数据平台,构建垂直搜索引擎、水平搜索引擎,定制各类参考实现平台,拓展各类商业用户。通过算法创新、数据基座、模式创新、生态构建,促进我国数据智能处理技术领域的科技进步,提高数据处理的生产效率,赋能数字经济发展,推动数字化改革。

前期研究开发基础:

目前,公司利用网络爬虫技术,抓取各个中央部委、省市区县各个政策部门的政策,采用独有的原创算法,剔除非产业政策类信息,对政策分类、技术领域、政策区域、技术专题等产业政策属性进行机器标记,初步构建了产业政策大数据基座,积累了标注基本准确的垂直产业政策大样本,可以进一步基于该大样本素材和数据集基座,进行算法优化和架构优化。系统已经在政府、产业园区、公共服务平台、科研机构、行业智库、服务机构等用户示范应用,产生了良好的经济和社会效益。但是,目前产业政策数据处理的算法有待优化,数据处理的准确率还有提升空间,数据处理的效率需进一步提高;平台的架构需要进一步优化,满足规模商业应用场景和业务拓展需求。

现有的生产和研发的设备:
攻关目标:

1基于优策目前标注规则构建的产业政策大数据平台和垂直政策大样本数据参阅网站www.spolicy.cn实施时提供接口支持),利用开源或闭源的算法模式,进一步优化数据处理算法,应用机器学习等人工智能技术实现系统的自学习能力,显著提高数据处理的效率和准确率

2研发云原生、微服务、容器等云架构和技术,基于分布式、小算力、特定场景,优化系统架构,提高系统技术性能和指标要求,支撑各类应用场景,满足规模化得商业应用场景支撑市场拓展需求    

3产业政策的画像方法和算法模型,提出技术实现路径,结合企业画像,满足政策的企业匹配通用需求

4、(选择性)借助ChatGPT或其他开源大语言模型的强大文本处理能力,以产业政策数据为基础,训练面向政策领域的问答模型,满足来自各行各业不同层级用户对于政策的不同需求,向量化解析问题并根据训练的权重召回相关政策数据,综合生成有可靠内容来源的回答。

成果形式:

专利、论文;