明日情报

查看详情

自动分类与推荐

在大数据时代,与科技相关的各类文献和互联网信息呈爆炸性增长,要从中迅速发现高价值情报、准确把握发展态势,必须大力发展科技情报挖掘技术。文本自动标引与推荐技术是科技情报挖掘技术体系中信息组织与集成技术、情报服务技术的重要组成。

近年来,前沿科技信息机构采集了大量的网络信息,这些信息组织程度较低,极大影响了用户对其的利用效率。本技术旨在研发技术手段,实现对前沿科技领域文本信息的关键词自动标注和自动分类,以及基于用户行为的个性化推荐,有效提升对文本型信息资源的组织能力。

关键词自动标注技术< br> 针对前沿科技领域科技文献和新闻信息,研发高效的关键词自动标注算法。

多层级自动分类技术< br> 基于前沿科技领域分类体系,研发样本数量不均衡、样本稀疏等情况下的文本多层级自动分类算法。

个性化信息推荐技术< br> 研发基于用户浏览日志等行为记录的个性化信息推荐算法。

工具包< br> 集成以上所有任务中提出的算法开发工具包。

关键词自动标注F1值高于0.6

针对给定的前沿科技领域分类体系,一级分类F1值高于0.9,二级分类F1值高于0.9

工具包支持跨平台使用,提供支持Java或Python程序调用的API接口;关键词自动标注和自动分类应提供Web Service接口

应用工具包同时进行关键词自动标注和自动分类时效率要高于10KB/s

采取随机采样的方式,标注不少于2000条样本数据