基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对生物医学文献的特点及信息抽取的特殊要求,提出了基于前后文词形特征和有教师学习的句子边界识别算法.与针对一般英语书面语设计的句子边界识别算法不同,本文提出的算法不使用特殊的辅助词表和语法层面的特征信息,只使用前后文单词的词形信息作为句子边界识别和消歧的依据.利用这些特征设计了最大信息熵识别器和支持向量机识别器,并在Medline摘要上进行了实验,达到了超过99%的正确率.实验结果表明,最大信息熵法和支持向量机法在句子边界消歧问题上具有相近的性能,同时还表明,对生物医学文献句子边界识别,只使用词法层面的特征,不使用辅助词表和词性等语法层面的信息,仍可达到其它算法在一般英语书面语上利用辅助词表和词性信息所达到的性能.
推荐文章
构建生物医学文献相关性数据库
相关性
后缀树
向量空间模型
特征项权重
基于生物医学文献的知识发现研究
生物信息学
基于文献的知识发现
文本挖掘
知识发现
基于前后文n-gram模型的古汉语句子切分
n-gram模型
数据稀疏
平滑技术
基于前后文的n-gram模型
BioTrHMM:基于迁移学习的生物医学命名实体识别算法
迁移学习
隐马尔可夫模型
命名实体识别
文本挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于前后文词形特征的生物医学文献句子边界识别
来源期刊 小型微型计算机系统 学科 工学
关键词 自然语言处理 生物信息抽取 句子边界识别 机器学习
年,卷(期) 2006,(1) 所属期刊栏目 硬件技术与其它
研究方向 页码范围 180-184
页数 5页 分类号 TP391
字数 5575字 语种 中文
DOI 10.3969/j.issn.1000-1220.2006.01.041
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 唐常杰 四川大学计算机学院 164 2750 30.0 45.0
2 于中华 四川大学计算机学院 46 444 9.0 18.0
3 左劼 四川大学计算机学院 38 647 11.0 25.0
4 张天庆 四川大学计算机学院 12 314 8.0 12.0
5 张容 四川大学网络教育学院 2 54 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (1)
二级引证文献  (9)
1972(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(3)
  • 参考文献(3)
  • 二级参考文献(0)
2006(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(4)
  • 引证文献(0)
  • 二级引证文献(4)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
自然语言处理
生物信息抽取
句子边界识别
机器学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
小型微型计算机系统
月刊
1000-1220
21-1106/TP
大16开
辽宁省沈阳市东陵区南屏东路16号
8-108
1980
chi
出版文献量(篇)
11026
总下载数(次)
17
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导