基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Deep Web自动分类是建立深网数据集成系统的前提和基础.提出了一种基于领域特征文本的Deep Web分类方法.首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类.对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性.
推荐文章
基于查询接口特征的Deep Web数据源自动分类
Deep Web
自动分类
机器学习
数据集成
基于领域样本查询的Deep Web数据库分类
Deep Web
Web数据库
数据库分类
简单查询接口
基于最优查询的多领域deep Web爬虫
deep Web
deep Web爬虫
最优查询
页面聚类
Deep Web入口探测与分类方法研究
Deep Web
网络爬虫
结构特征
维归约
双层分类模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于领域特征文本的Deep Web分类研究
来源期刊 计算机科学 学科 工学
关键词 特征文本 领域分类 向量空间模型 Deep Web
年,卷(期) 2012,(4) 所属期刊栏目 数据库与数据挖掘
研究方向 页码范围 177-180
页数 分类号 TP391
字数 5035字 语种 中文
DOI 10.3969/j.issn.1002-137X.2012.04.040
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 谢德体 西南大学资源环境学院 331 5365 37.0 57.0
2 吴春明 西南大学计算机与信息科学学院 20 774 6.0 20.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (35)
参考文献  (4)
节点文献
引证文献  (7)
同被引文献  (11)
二级引证文献  (12)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(3)
  • 参考文献(2)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(3)
  • 引证文献(2)
  • 二级引证文献(1)
2015(3)
  • 引证文献(1)
  • 二级引证文献(2)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(3)
  • 引证文献(0)
  • 二级引证文献(3)
2018(5)
  • 引证文献(1)
  • 二级引证文献(4)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
特征文本
领域分类
向量空间模型
Deep Web
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
总被引数(次)
150664
相关基金
重庆市自然科学基金
英文译名:
官方网址:http://law.ddvip.com/law/2006-09/11584979384040.html
项目类型:重点项目
学科类型:
论文1v1指导