基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.
推荐文章
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
基于文本块密度与标签路径等特征的正文提取
正文抽取
文本块
标签路径
文本密度
基于几何覆盖率算法的传感器覆盖优化策略
几何覆盖率算法
圆弧并
判冗余机制
遗传算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于标签路径覆盖率和多文本 特征的正文抽取算法
来源期刊 大连交通大学学报 学科
关键词 文本块密度 标签路径覆盖率 正文抽取
年,卷(期) 2019,(5) 所属期刊栏目 电气信息工程
研究方向 页码范围 112-116
页数 5页 分类号
字数 4352字 语种 中文
DOI 10.13291/j.cnki.djdxac.2019.05.022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 宋旭东 大连交通大学软件学院 38 216 8.0 13.0
2 陈鑫影 大连交通大学软件学院 10 29 3.0 5.0
3 于林林 大连科技学院数字技术学院 15 4 1.0 1.0
4 郑野 大连交通大学软件学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (27)
共引文献  (15)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(5)
  • 参考文献(0)
  • 二级参考文献(5)
2014(8)
  • 参考文献(0)
  • 二级参考文献(8)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(4)
  • 参考文献(2)
  • 二级参考文献(2)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本块密度
标签路径覆盖率
正文抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
大连交通大学学报
双月刊
1673-9590
21-1550/U
大16开
大连市沙河口区黄河路794号
1980
chi
出版文献量(篇)
3012
总下载数(次)
3
总被引数(次)
12659
论文1v1指导