原文服务方: 西安交通大学学报       
摘要:
通过研究有关基因的生物学文献特征,提出了一种能对生物基因文献进行自动标注与分类的方法.在 K 最邻近算法的基础上,采用了 Chi-Square 特征选择方案,并且在加权算法中突出了Chi-Square 的选择特点.另外,采用文档逻辑分块法,将额外的生物受控词汇表中的信息所形成的向量直接引入到了分类算法中,以提高分类和标注的效果.实验表明,所提算法优于常用的单词频率/逆文档频率加权方法,其在文本检索大会(TREC)数据集上的分类、标注效果分别比 TREC 公布的最好结果提高了3.14%和4.12%.
推荐文章
支持复杂资源环境信息集成的共享词汇表设计技术
复杂资源环境
信息集成
共享词汇表
信息编码
一种利用UML创建XML Schema词汇表的方法
统一建模语言
可扩展标记语言方案
可扩展标记语言词汇表
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 结合受控词汇表的生物基因本体标注与分类
来源期刊 西安交通大学学报 学科
关键词 基因本体 分类标注 最邻近算法
年,卷(期) 2008,(2) 所属期刊栏目 专题研究
研究方向 页码范围 171-174
页数 4页 分类号 TP319
字数 语种 中文
DOI 10.3321/j.issn:0253-987X.2008.02.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 冯博琴 西安交通大学电子与信息工程学院 171 3268 30.0 50.0
2 朱丹军 西安交通大学电子与信息工程学院 19 86 4.0 8.0
3 崔舒宁 西安交通大学电子与信息工程学院 14 34 3.0 4.0
4 昂正全 西安交通大学电子与信息工程学院 2 5 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (3)
同被引文献  (11)
二级引证文献  (11)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(2)
  • 引证文献(0)
  • 二级引证文献(2)
2014(2)
  • 引证文献(0)
  • 二级引证文献(2)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
基因本体
分类标注
最邻近算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西安交通大学学报
月刊
0253-987X
61-1069/T
大16开
1960-01-01
chi
出版文献量(篇)
7020
总下载数(次)
0
总被引数(次)
81310
相关基金
陕西省自然科学基金
英文译名:Natural Science Basic Research Plan in Shaanxi Province of China
官方网址:
项目类型:
学科类型:
论文1v1指导