原文服务方: 计算机应用研究       
摘要:
随着Internet网络的日益普及,Web上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足Web挖掘方法的通用性.通过对Web网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(content extraction characteristic symbols),结合相关度对网页主题内容进行提取.实验证明,所提算法具有很高的准确性和通用性.
推荐文章
一种基于模板的快速网页文本自动抽取算法
噪声
非结构化
文本抽取
模板
阈值
基于启发式规则的网页主题信息精确定位方法
启发式规则
信息抽取
主题信息定位
模板化网页
一种基于混沌粒子群算法的网页分类规则抽取方法
网页分类
规则抽取
混沌粒子群
基于加权频繁子树相似度的网页评论信息抽取
产品评论
抽取
加权频繁子树
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于特征符号的网页主题信息抽取方法
来源期刊 计算机应用研究 学科
关键词 生成树模型 特征符号 相关度 主题提取
年,卷(期) 2009,(12) 所属期刊栏目 算法研究探讨
研究方向 页码范围 4539-4541
页数 3页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2009.12.039
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱敏 四川大学计算机学院 79 472 12.0 18.0
2 赵瑜 四川大学计算机学院 13 43 3.0 6.0
3 王舒 四川大学计算机学院 8 35 4.0 5.0
4 张明 3 26 2.0 3.0
5 牛颢 四川大学计算机学院 3 13 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (188)
参考文献  (7)
节点文献
引证文献  (10)
同被引文献  (16)
二级引证文献  (6)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(8)
  • 参考文献(0)
  • 二级参考文献(8)
2005(4)
  • 参考文献(1)
  • 二级参考文献(3)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(4)
  • 参考文献(4)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(4)
  • 引证文献(4)
  • 二级引证文献(0)
2012(3)
  • 引证文献(1)
  • 二级引证文献(2)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
生成树模型
特征符号
相关度
主题提取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导