作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前,随着信息技术的发展,互联网上的信息量越来越庞大,造成部分内容或全部内容重复的网页文件大量存在于网络中.这些文件不仅给网络带来很多冗余的信息,而且增加了额外的储存空间及过滤特殊信息的耗时,进而降低了网页信息检索的效率.本文提出一种新的对相似HTML文件的检测方法,将模糊集模型引入其中.该检测方法通过利用任意两个文件的优势比来确定文档的相似度,结果用图表显示文档中相似语句的位置.本文提出的检测类似文件的方法能够处理大量的不同大小的网页,且不需要静态单词列表,因此,它可应用于不同领域的不同网页文件之中.
推荐文章
基于模糊集的隐私保护方法研究
隐私保护
模糊集
模糊化
隶属函数
隶属度
k-匿名
基于动态模糊聚类分析的模糊集划分新方法
模糊集划分
蒙特卡罗分析
动态模糊聚类分析
基于模糊集图像阴影区域的检测与分割
模糊集
边缘检测
图像分割
阴影分割
阴影检测
模糊集与粗糙集的互补定义方法
粗糙集
模糊集
互补
定义
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于模糊集模型的相似HTML文件检测方法
来源期刊 中国公共安全(学术版) 学科 工学
关键词 模糊集模型 网络信息检索 相似检测 HTML文件 优势比
年,卷(期) 2011,(1) 所属期刊栏目 网络安全
研究方向 页码范围 107-111
页数 分类号 TP183
字数 4909字 语种 中文
DOI 10.3969/j.issn.1672-2396.2011.01.024
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (11)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1991(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(2)
  • 二级参考文献(1)
2009(3)
  • 参考文献(2)
  • 二级参考文献(1)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
模糊集模型
网络信息检索
相似检测
HTML文件
优势比
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国公共安全(学术版)
季刊
1672-2396
44-1499/N
16开
广东省深圳市
2005
chi
出版文献量(篇)
2045
总下载数(次)
9
总被引数(次)
8343
论文1v1指导