基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
The main content of a news web page is a source of data for Natural Language Processing(NLP)and Information Retrieval(IR),which contains large quantities of valuable information.This paper proposes a method that formulates the main content extraction problem as a DOM tree node classification problem.In terms of feature extraction,we use the DOM tree node to represent HTML document and then develop multiple features by using the DOM tree node properties,such as text length,tag path,tag properties and so on.In consideration that the essence of the problem is the classification model,we use Xgboost to help select nodes.Experimental results show that the proposed approach is effective and efficient in extracting main content of new web pages,and achieves about 98%accuracy over 1083 news pages from 10 different new sites,and the average processing time per page is within 10 ms.
推荐文章
WWW信息收集的ROBOT技术
万维网
搜索引擎
机器人
Rapid estimation of soil heavy metal nickel content based on optimized screening of near-infrared sp
Heavy metal
Band extraction
Partial least squares regression
Extreme learning machine
Near infrared spectroscopy
信息采集Robot的实现及应用
WWW
搜索引擎
Robot
Web Robot技术及其Java实现
Robot
机器人排斥标准
JAVA多线程
信息搜索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Intelligent Web Robot for Content Extraction
来源期刊 仪器仪表学报:英文版 学科 工学
关键词 Content Extraction DOM Machine Learning Xgboost
年,卷(期) 2019,(3) 所属期刊栏目
研究方向 页码范围 52-58
页数 7页 分类号 TP242.6
字数 语种
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Content
Extraction
DOM
Machine
Learning
Xgboost
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
仪器仪表学报:英文版
季刊
2095-7521
10-1206/TH
北京市
出版文献量(篇)
134
总下载数(次)
0
总被引数(次)
0
论文1v1指导