作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR).首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阔值检测出垃圾网页.在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的SpamFactor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点,spam比例(前三个桶)分别提高了15个百分点和10个百分点.因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能.
推荐文章
一种基于主题相关度的网页排序算法
网页排序
主题相关度
链接分析
向量空间模型
基于维基百科和网页相似度分析的主题爬行策略
维基百科
文本相关性
链接分析
相似度计算
改进填补法和多权重相似度相结合的推荐算法
推荐算法
二部图关联度
社交网络相似度
个性化推荐
隐式反馈场景中结合信任与相似度的排序推荐
推荐系统
信任传播
冷启动
矩阵分解
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 主题相似度与链接权重相结合的垃圾网页排序检测
来源期刊 计算机应用 学科 工学
关键词 垃圾网页检测 链接作弊 排序算法 主题相似度 非信任值传播
年,卷(期) 2016,(3) 所属期刊栏目 人工智能
研究方向 页码范围 735-739
页数 5页 分类号 TP181
字数 5480字 语种 中文
DOI 10.11772/j.issn.1001-9081.2016.03.735
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱焱 西南交通大学信息科学与技术学院 33 248 8.0 14.0
2 韦莎 西南交通大学信息科学与技术学院 1 9 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (6)
参考文献  (5)
节点文献
引证文献  (9)
同被引文献  (19)
二级引证文献  (8)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(4)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(4)
  • 二级引证文献(0)
2016(4)
  • 引证文献(4)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(7)
  • 引证文献(3)
  • 二级引证文献(4)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
垃圾网页检测
链接作弊
排序算法
主题相似度
非信任值传播
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
总被引数(次)
209512
论文1v1指导