基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.
推荐文章
一种基于自动WEB数据抽取生成黄页的方法
行业黄页
WEB信息抽取
模式匹配
抽取规则
一种用于Web信息抽取的页面信息本体自动学习方法
本体学习
信息抽取
PAT-tree
关联规则
一种基于角色匹配的事件抽取方法
事件抽取
事件模式
语义角色标注
面向Deep Web数据自动抽取的模板生成方法
Deep,Web
数据抽取
模板生成
文法推断
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种Web评论自动抽取方法
来源期刊 软件学报 学科 工学
关键词 Web用户评论 结构化数据记录 Web数据抽取
年,卷(期) 2010,(12) 所属期刊栏目
研究方向 页码范围 3220-3236
页数 分类号 TP311
字数 12089字 语种 中文
DOI 10.3724/SP.J.1001.2010.03961
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 肖建国 北京大学计算机科学技术研究所 30 478 12.0 21.0
2 刘伟 422 5903 37.0 59.0
3 曾建勋 97 1038 17.0 26.0
4 严华梁 北京大学计算机科学技术研究所 2 31 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (25)
同被引文献  (26)
二级引证文献  (31)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(3)
  • 引证文献(3)
  • 二级引证文献(0)
2012(3)
  • 引证文献(3)
  • 二级引证文献(0)
2013(7)
  • 引证文献(6)
  • 二级引证文献(1)
2014(6)
  • 引证文献(1)
  • 二级引证文献(5)
2015(6)
  • 引证文献(0)
  • 二级引证文献(6)
2016(12)
  • 引证文献(6)
  • 二级引证文献(6)
2017(4)
  • 引证文献(2)
  • 二级引证文献(2)
2018(4)
  • 引证文献(2)
  • 二级引证文献(2)
2019(9)
  • 引证文献(1)
  • 二级引证文献(8)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Web用户评论
结构化数据记录
Web数据抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
论文1v1指导