基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
通过分析当前Web文档抽取的主流方法以及存在的不足,提出了一种基于文本块的改进算法-BWTE (Block-base Web Text Extraction).该算法首先采用过滤的方法去除广告、超链接等比较明显的噪音信息,然后通过自底向上的文本块分块算法抽取出Web文档的正文.
推荐文章
基于本体的文档引文元数据信息抽取
信息抽取
语义网
本体
模式匹配
基于领域本体的文档向量空间模型构建
领域本体
向量空间模型
相似度
语义关系
基于领域本体向量空间模型
基于领域模型的Web数据抽取与集成
Web数据模型
Web数据模式
领域数据模型
数据抽取与集成
基于本体和语义距离的DBpedia领域知识抽取方法
DBpedia
领域本体
直接链接子图语义距离算法
知识抽取
抽取策略
筛选
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于领域本体的WEB文档正文的抽取算法
来源期刊 南昌大学学报(工科版) 学科 工学
关键词 本体 Web文档 自动 BWTE算法
年,卷(期) 2009,(1) 所属期刊栏目
研究方向 页码范围 40-44
页数 5页 分类号 TP393
字数 4882字 语种 中文
DOI 10.3969/j.issn.1006-0456.2009.01.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 成曦 东南大学信息科学与工程学院 6 51 4.0 6.0
2 陈海燕 华东政法大学信息科学技术学院 11 52 3.0 7.0
3 王麒 华东师范大学计算机应用研究所 2 8 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (38)
参考文献  (1)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
本体
Web文档
自动
BWTE算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
南昌大学学报(工科版)
季刊
1006-0456
36-1194/T
大16开
江西省南昌市南京东路235号南昌大学期刊社
44-38
1964
chi
出版文献量(篇)
1871
总下载数(次)
2
总被引数(次)
10734
相关基金
国家社会科学基金
英文译名:Philosophy and Social Science Foundation of China
官方网址:http://www.npopss-cn.gov.cn/
项目类型:重点项目
学科类型:马列·科社
论文1v1指导