明日情报

查看详情

分布式主题建模

在大数据时代,与科技相关的各类文献和互联网信息呈爆炸性增长,要从中迅速发现高价值情报、准确把握发展态势,必须大力发展科技情报挖掘技术。海量动态前沿科技信息分布式主题建模技术是科技情报挖掘技术体系中信息组织与集成技术的重要组成。

近年来,随着科学技术的快速发展,前沿科技信息资源呈爆炸性增长,传统人工处理方式已难以满足需求。如何从类型多样、数量庞大的信息资源中发现内在的主题分布,成为海量信息资源组织面临的难题之一。本技术旨对海量动态前沿科技信息建立分布式的增量主题模型,实现对不断增长的前沿科技信息的高效在线挖掘,为基于主题的前沿科技信息分析提供支撑。

增量式主题建模技术
研发基于主题模型的海量动态前沿科技信息增量式挖掘算法,设计面向主题聚类的增量式机器学习及其并行化技术机制,实现对不断增长的海量前沿科技信息的高效在线挖掘。

模型并行与数据并行方法
研究面向海量动态前沿科技信息主题分析算法的模型并行和数据并行方法,设计相关的分布式参数存储和迭代更新机制,为基于主题建模的海量动态前沿科技信息分析挖掘提供可扩展的计算环境支撑。

分布式主题建模工具
开发海量动态前沿科技信息的分布式主题建模工具。

支持对亿级文档进行100万级别主题数目的离线建模

支持主题模型在线更新,对文档流进行在线主题建模每分钟处理文档数不少于5000篇

支持主题模型的分布式容错存储与异步更新

支持自适应的数据分布策略

分布式主题建模工具支持在主流Linux服务器上使用,提供支持Java或Python程序调用的API接口