基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏.提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测.实验表明,此方法具有良好的召回率和准确率,可以将内容完全重复的文档、部分段落内容重复的文档及打乱段落顺序重组文档的重复性均检测出来,检测精度高且占用系统资源少.
推荐文章
基于Simhash的大规模文档去重改进算法研究
Web大数据
Simhash
近似文本检测
多维度
二次哈希
大数据下MongoDB数据库档案文档存储去重研究
MongoDB
MD5
大数据
档案文档去重
GridFs
基于RZF的大规模MIMO系统容量优化算法
RZF预编码
系统容量
参数优化
二分法
基于公交IC卡数据的大规模OD矩阵推导算法研究
IC卡
OD矩阵推导
自适应算法
贪心生长算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于语言节奏的大规模文档去重算法研究
来源期刊 计算机工程与应用 学科 工学
关键词 文档重复性检测 语言节奏 标点
年,卷(期) 2011,(11) 所属期刊栏目 博士论坛
研究方向 页码范围 15-18,33
页数 分类号 TP18
字数 6245字 语种 中文
DOI 10.3778/j.issn.1002-8331.2011.11.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 冯志勇 天津大学计算机科学与软件学院 146 1072 17.0 24.0
2 李晓红 天津大学计算机科学与软件学院 40 675 14.0 25.0
3 赵庚 13 50 5.0 6.0
4 陈钒 天津大学计算机科学与软件学院 4 47 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (23)
共引文献  (213)
参考文献  (6)
节点文献
引证文献  (4)
同被引文献  (6)
二级引证文献  (6)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(4)
  • 参考文献(2)
  • 二级参考文献(2)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(5)
  • 参考文献(1)
  • 二级参考文献(4)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(4)
  • 引证文献(2)
  • 二级引证文献(2)
2014(2)
  • 引证文献(1)
  • 二级引证文献(1)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文档重复性检测
语言节奏
标点
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导