明日情报

查看详情

元数据融合

在大数据时代,与科技相关的各类文献和互联网信息呈爆炸性增长,要从中迅速发现高价值情报、准确把握发展态势,必须大力发展科技情报挖掘技术。海量科技文献融合技术是科技情报挖掘技术体系中信息组织与集成技术的重要组成。

目前,通过多种渠道搜集获取的文献资源存在描述元数据异构、数据条目重复等问题,再加上标注文献数据资源的缺乏,造成海量科技文献元数据融合程度较低。本技术旨在从已收集到的前沿科技文献资源元数据中归一作者、机构、研究主题等信息并挖掘关联关系,为构建高质量前沿科技信息资源体系提供支撑。

文献元数据去重归一技术
针对海量、低质量的中英文科技文献元数据,研发高效的文献查重算法;研发作者机构层级关系、地址等信息的识别算法;研发作者、作者机构名称归一算法;研发将引文与科技文献进行高效映射的算法。

文献元数据中重点关联关系挖掘技术
针对海量、低质量的中英文科技文献元数据,研发文献作者及其所属机构关系的挖掘算法;研发挖掘作者之间、机构之间协作关系的算法;研发基于文献题名、关键词和摘要等信息,挖掘作者和机构从事领域的算法。

文献元数据融合工具包
集成以上所有任务中提出的算法,开发前沿科技文献元数据清洗与融合工具包,实现对书目、作者、机构和引文信息去重归一和重点关联关系挖掘。

文献元数据清洗与融合技术
利用项目成果,针对用户方提供的不少于1亿篇中英文科技文献元数据,开展清洗、融合工作。

基于元数据的文献查重F1值高于0.97。千万量级文献数据库查重平均每条耗时5ms以内

作者机构名称与地址信息的切分F1值高于0.9,支持至少3层作者机构层级关系的识别。每秒支持对至少100条机构信息进行地址切分和层级识别

作者、作者机构名称归并F1值高于0.95

引文和科技文献映射F1值高于0.9

工具包支持跨平台使用,提供支持Java或Python程序调用的API接口

对1亿篇中英文科技文献元数据进行清洗和融合的时间少于5天