基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较.
推荐文章
基于领域样本查询的Deep Web数据库分类
Deep Web
Web数据库
数据库分类
简单查询接口
基于上下文的Web服务动态组合
Web服务
上下文
动态服务组合
基于属性上下文可知的Web服务访问控制
属性
上下文可知
信任证
访问控制
基于OWL的上下文信息有效存储方法的研究
普适计算
本体
OWL
关系型数据库
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于网页上下文的Deep Web数据库分类
来源期刊 软件学报 学科 工学
关键词 deep Web 隐式Web 数据库分类 内容文本抽取 语义分类
年,卷(期) 2008,(2) 所属期刊栏目 Deep Web数据集成
研究方向 页码范围 267-274
页数 8页 分类号 TP393
字数 6330字 语种 中文
DOI 10.3724/SP.J.1001.2008.00267
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 马军 山东大学计算机科学与技术学院 74 980 15.0 29.0
2 宋玲 山东大学计算机科学与技术学院 7 185 5.0 7.0
3 韩晓晖 山东大学计算机科学与技术学院 5 115 4.0 5.0
4 闫泼 山东大学计算机科学与技术学院 1 78 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (6)
参考文献  (5)
节点文献
引证文献  (78)
同被引文献  (62)
二级引证文献  (110)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(4)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(4)
  • 二级引证文献(0)
2008(4)
  • 引证文献(4)
  • 二级引证文献(0)
2009(13)
  • 引证文献(13)
  • 二级引证文献(0)
2010(16)
  • 引证文献(14)
  • 二级引证文献(2)
2011(22)
  • 引证文献(11)
  • 二级引证文献(11)
2012(30)
  • 引证文献(14)
  • 二级引证文献(16)
2013(16)
  • 引证文献(5)
  • 二级引证文献(11)
2014(16)
  • 引证文献(7)
  • 二级引证文献(9)
2015(18)
  • 引证文献(3)
  • 二级引证文献(15)
2016(15)
  • 引证文献(4)
  • 二级引证文献(11)
2017(18)
  • 引证文献(3)
  • 二级引证文献(15)
2018(9)
  • 引证文献(0)
  • 二级引证文献(9)
2019(10)
  • 引证文献(0)
  • 二级引证文献(10)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
deep Web
隐式Web
数据库分类
内容文本抽取
语义分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
论文1v1指导