基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了提高web文本搜索质量,提出了基于语义结构化数据的查询扩展方法.通过分析属性的语义特征(文档频率特征和辨识能力特征)将属性分为概念属性、背景属性和无用属性3类,并且提出了衡量属性语义相关度的标准.设计了trie-bitmap和pair pointer table数据结构来实现发掘属性语义特征和检测属性语义相关度的有效算法.通过使用合适的属性和它们的语义关系,可以为查询关键字生成扩展词并将它们嵌入到具有插值参数的向量空间模型中.实验使用IMDB电影数据库和真实文本数据集来比较所提方法和原始向量空间模型的性能.实验结果证明所提出的查询扩展方法可以有效地提高文本搜索性能,同时属性语义特征和属性语义相关度都具有良好的分类能力.
推荐文章
基于证券行业半结构化数据的抽取技术
数据抽取
半结构化
数据挖掘
证券投资
基于DOM的结构化搜索引擎
结构化检索
信息检索
搜索引擎
文件对象模式
文件处理
Web页面中结构化数据抽取的实现与应用
Web页面
结构化数据抽取
实现
应用
RE-OEM:一种半结构化生物数据的信息抽取模型
半结构化
生物数据
抽取模型
OEM数据模型
正则表达式
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 用于改善web搜索的结构化数据抽取技术
来源期刊 东南大学学报(英文版) 学科 工学
关键词 web 语义 属性关系 结构化数据 查询扩展
年,卷(期) 2008,(3) 所属期刊栏目
研究方向 页码范围 343-346
页数 4页 分类号 TP311
字数 488字 语种 英文
DOI 10.3969/j.issn.1003-7985.2008.03.022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于戈 东北大学信息科学与工程学院 426 6587 38.0 64.0
2 杨晓春 东北大学信息科学与工程学院 65 1090 16.0 32.0
3 郭茜 东北大学信息科学与工程学院 1 2 1.0 1.0
4 李广翱 东北大学信息科学与工程学院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (2)
同被引文献  (3)
二级引证文献  (2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2008(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(0)
  • 二级引证文献(1)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
web
语义
属性关系
结构化数据
查询扩展
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
东南大学学报(英文版)
季刊
1003-7985
32-1325/N
大16开
南京四牌楼2号
1984
eng
出版文献量(篇)
2004
总下载数(次)
1
总被引数(次)
8843
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导