明日情报

查看详情

命名实体识别

在大数据时代,与科技相关的各类文献和互联网信息呈爆炸性增长,要从中迅速发现高价值情报、准确把握发展态势,必须大力发展科技情报挖掘技术。中文命名实体与科技术语识别技术是科技情报挖掘技术体系中信息组织与集成技术的重要组成。

目前,中文前沿科技信息中包含大量机构、装备、报告、标准、倡议等实体名称和专业技术术语,识别这些要素对提升中文信息资源的开发利用水平具有重要意义。本技术旨在研发技术手段,从中文前沿科技文本信息中高效识别命名实体和技术术语,提升对中文信息资源的组织能力。

中文命名实体识别技术
针对中文前沿科技信息,研发命名实体自动识别算法,涉及的实体包括但不限于人员、机构(细分政府部门、军方、公司、学校、研究院所等) 、地点、装备、项目(含基金、工程)、报告、规划、标准、倡议等类型。

中文科技术语识别技术
针对中文前沿科技信息,研发技术以及技术相关的名词性短语或专有名词(如新发现的物质、概念、方法名等)自动识别算法。

中文实体链接技术
研发将识别出的中文命名实体和科技术语链接到知识库的算法。

工具包
集成以上所有任务中提出的算法开发工具包。

人员、地点识别F1值高于0.95;项目、报告等识别F1值高于0.85;一级机构识别F1值高于0.9

技术及科技相关的术语识别F1值高于0.8

实体链接F1值高于0.85

工具包支持跨平台使用,提供支持Java或Python程序调用的API接口,提供Web Service接口

应用工具包同时抽取命名实体和科技术语并进行实体链接的效率需超过10KB/s

采取随机采样的方式,标注不少于1000篇新闻数据、500篇科技文献、5000条社交媒体数据