基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题.该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用LatentDirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论.通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用.
推荐文章
基于在线评论和改进LDA模型的新闻传播推荐技术研究
新闻传播
在线评论
LDA模型
推荐结果生成
相似度预测
关联度计算
基于 LDA 的结构-内容联合社团发现模型
社会网络
社团发现
LDA 模型
网络模型
基于LDA模型的餐馆评论排序
LDA模型
餐馆评论
排序
观点挖掘
逻辑回归
博客评论的人类行为动力学实证研究和建模
人类动力学
Poisson过程
幂律分布
博客帖子评论
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LDA模型的博客垃圾评论发现
来源期刊 中文信息学报 学科 工学
关键词 Blog 博文 LDA 主题 垃圾评论
年,卷(期) 2011,(1) 所属期刊栏目
研究方向 页码范围 41-47
页数 分类号 TP391
字数 7509字 语种 中文
DOI 10.3969/j.issn.1003-0077.2011.01.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 林鸿飞 大连理工大学信息检索研究室 214 3759 31.0 55.0
2 杨亮 大连理工大学信息检索研究室 49 510 10.0 22.0
3 刁宇峰 大连理工大学信息检索研究室 4 64 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (278)
参考文献  (5)
节点文献
引证文献  (60)
同被引文献  (95)
二级引证文献  (89)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(3)
  • 参考文献(1)
  • 二级参考文献(2)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(4)
  • 引证文献(3)
  • 二级引证文献(1)
2013(13)
  • 引证文献(8)
  • 二级引证文献(5)
2014(16)
  • 引证文献(9)
  • 二级引证文献(7)
2015(13)
  • 引证文献(6)
  • 二级引证文献(7)
2016(22)
  • 引证文献(10)
  • 二级引证文献(12)
2017(27)
  • 引证文献(15)
  • 二级引证文献(12)
2018(32)
  • 引证文献(5)
  • 二级引证文献(27)
2019(15)
  • 引证文献(2)
  • 二级引证文献(13)
2020(5)
  • 引证文献(0)
  • 二级引证文献(5)
研究主题发展历程
节点文献
Blog
博文
LDA
主题
垃圾评论
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
教育部留学回国人员科研启动基金
英文译名:the Scientific Research Foundation for the Returned Overseas Chinese Scholars, State Education Ministry
官方网址:http://www.csc.edu.cn/gb/
项目类型:
学科类型:
论文1v1指导