基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法.该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本.该方法的时间和空间复杂度均较低.实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性.
推荐文章
结合网页结构与文本特征的正文提取方法
正文提取
网页去噪
网页分块
主题爬行
信息检索
Web挖掘
基于文本块密度与标签路径等特征的正文提取
正文抽取
文本块
标签路径
文本密度
基于文本行特征的网页正文信息抽取方法研究
网页信息抽取
正文特征
网页去噪
正文抽取
基于文字密度提取网页正文
网页正文提取
文字密度函数
网页噪声
舆情分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 使用特征文本密度的网页正文提取
来源期刊 计算机工程与应用 学科 工学
关键词 文本密度 文本特征 信息抽取 网页
年,卷(期) 2010,(20) 所属期刊栏目
研究方向 页码范围 1-3,29
页数 分类号 TP393
字数 4531字 语种 中文
DOI 10.3778/j.issn.1002-8331.2010.20.001
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 董科军 中国科学院计算机网络信息中心 21 254 10.0 15.0
2 阎保平 中国科学院计算机网络信息中心 162 2464 23.0 43.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (2)
参考文献  (2)
节点文献
引证文献  (35)
同被引文献  (54)
二级引证文献  (41)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(5)
  • 引证文献(5)
  • 二级引证文献(0)
2012(5)
  • 引证文献(5)
  • 二级引证文献(0)
2013(11)
  • 引证文献(5)
  • 二级引证文献(6)
2014(12)
  • 引证文献(5)
  • 二级引证文献(7)
2015(12)
  • 引证文献(4)
  • 二级引证文献(8)
2016(6)
  • 引证文献(2)
  • 二级引证文献(4)
2017(5)
  • 引证文献(3)
  • 二级引证文献(2)
2018(11)
  • 引证文献(5)
  • 二级引证文献(6)
2019(7)
  • 引证文献(1)
  • 二级引证文献(6)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文本密度
文本特征
信息抽取
网页
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导