基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对当前大多数词法分析系统"流水线"式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%.
推荐文章
基于最大匹配分词算法的中文词语粗分模型
最大匹配
粗分模型
中文分词
汉语分词和词性标注一体化分析的方法研究
汉语分词
词性标注
A*解码算法
基于LSTM网络的序列标注中文分词法
中文分词
LSTM
字嵌入
自然语言处理
基于LSTM网络的中文地址分词法的设计与实现
中文地址
分词
卡短时记忆
未标记数据集
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于最长次长匹配分词的一体化中文词法分析
来源期刊 大连理工大学学报 学科 工学
关键词 中文词法分析 一体化模型 最长次长匹配 未登录词 切分有向图
年,卷(期) 2010,(6) 所属期刊栏目
研究方向 页码范围 1028-1034
页数 分类号 TP391
字数 5523字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄德根 大连理工大学计算机科学与技术学院 70 1191 19.0 33.0
2 孙晓 大连理工大学计算机科学与技术学院 3 41 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (14)
共引文献  (269)
参考文献  (5)
节点文献
引证文献  (8)
同被引文献  (17)
二级引证文献  (25)
1989(2)
  • 参考文献(0)
  • 二级参考文献(2)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(4)
  • 参考文献(1)
  • 二级参考文献(3)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(3)
  • 参考文献(2)
  • 二级参考文献(1)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(3)
  • 引证文献(2)
  • 二级引证文献(1)
2013(5)
  • 引证文献(2)
  • 二级引证文献(3)
2014(5)
  • 引证文献(1)
  • 二级引证文献(4)
2015(5)
  • 引证文献(2)
  • 二级引证文献(3)
2016(2)
  • 引证文献(0)
  • 二级引证文献(2)
2017(4)
  • 引证文献(0)
  • 二级引证文献(4)
2018(4)
  • 引证文献(0)
  • 二级引证文献(4)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
中文词法分析
一体化模型
最长次长匹配
未登录词
切分有向图
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
大连理工大学学报
双月刊
1000-8608
21-1117/N
大16开
大连市理工大学出版社内
8-82
1950
chi
出版文献量(篇)
3166
总下载数(次)
3
总被引数(次)
39997
论文1v1指导