原文服务方: 计算机应用研究       
摘要:
针对现有网页信息抽取方法普遍存在人工耗时大、抽取准确率低等问题,提出了一种基于加权频繁子树相似度的网页评论信息抽取方法WTS.首先通过视觉特征对网页进行剪枝处理;然后,通过深度加权的相似度度量方法抽取最佳频繁子树;最后,通过子树对齐方法抽取评论路径并解析评论内容.通过对京东、苏宁等网站的评论内容抽取实验,验证了WTS方法比D-EEM、POL等方法在抽取产品评论信息上具有一定的优势.
推荐文章
基于DOM的半结构化网页信息抽取算法
DOM
信忠抽取
半结构化
信息集成
基于页面分块与信息熵的评论发现及抽取
评论抽取
自动
语义块
基于网页日志的频繁模式挖掘
模式挖掘
序列挖掘
图形挖掘
网页日志挖掘
基于图数据的极大频繁子树挖掘算法研究
极大频繁子树
图数据集
候选子树
子树同构
半结构化数据集
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于加权频繁子树相似度的网页评论信息抽取
来源期刊 计算机应用研究 学科
关键词 产品评论 抽取 加权频繁子树
年,卷(期) 2017,(6) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1636-1639,1658
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2017.06.008
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郝志峰 广东工业大学计算机学院 166 940 14.0 20.0
3 蔡瑞初 广东工业大学计算机学院 66 279 10.0 13.0
4 温雯 广东工业大学计算机学院 48 272 10.0 14.0
7 袁琴 广东工业大学计算机学院 2 4 1.0 2.0
8 骆魁永 广东工业大学计算机学院 2 4 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (27)
参考文献  (5)
节点文献
引证文献  (3)
同被引文献  (12)
二级引证文献  (1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
产品评论
抽取
加权频繁子树
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导