基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据.这些重复数据给搜索引擎、观点挖掘等许多web应用带来了严峻的问题.目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况.而句子级别的重复检测正是解决这类问题的一个必要步骤.该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的shingle特征以表示句子内容.真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度.
推荐文章
基于位置敏感哈希的网络视频重复检测
网络视频
重复检测
位置敏感哈希
镜头层比较
重复检验在进口羊毛检验中的应用
进口羊毛
审核检验
重复检验
最大复验允差范围
基于内存索引的多源POI重复检测方法研究
多源POI
内存空间索引
分词
POI相似度
重复检测
一种句子级别的中文文本复制检测方法
复制检测
句子级别
倒排索引
中文信息处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Low-IDF-SIG的句子重复检测
来源期刊 中文信息学报 学科 工学
关键词 近似重复检测 特征抽取 Low-IDF-SIG
年,卷(期) 2011,(1) 所属期刊栏目
研究方向 页码范围 123-128
页数 分类号 TP391
字数 5207字 语种 中文
DOI 10.3969/j.issn.1003-0077.2011.01.020
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄萱菁 复旦大学计算机科学与技术学院 49 2106 18.0 45.0
2 张奇 复旦大学计算机科学与技术学院 13 311 7.0 13.0
3 俞昊旻 复旦大学计算机科学与技术学院 2 7 2.0 2.0
4 张玥 复旦大学计算机科学与技术学院 6 9 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
近似重复检测
特征抽取
Low-IDF-SIG
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导