原文服务方: 计算机应用研究       
摘要:
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率.提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析.实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%.
推荐文章
基于混合互信息算法的文本情感分析
互信息
特征选择
正负相关性
词频信息
情感分析
基于最小互信息算法的跳频信号接收方法
互信息
盲源分离
跳频
调频干扰
结合互信息的多目标属性约简
粗糙集
互信息
核属性
属性约简
基于模糊互信息的多标签特征选择
特征选择
互信息
模糊互信息
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于互信息的维吾尔文自适应组词算法
来源期刊 计算机应用研究 学科
关键词 维吾尔文 传统分词 语义词 互信息 组词
年,卷(期) 2013,(2) 所属期刊栏目 算法研究探讨
研究方向 页码范围 429-431,435
页数 4页 分类号 TP351
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2013.02.030
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 艾斯卡尔·艾木都拉 新疆大学信息科学与工程学院 170 561 11.0 15.0
3 吐尔地·托合提 新疆大学信息科学与工程学院 19 115 7.0 10.0
5 艾克白尔·帕塔尔 新疆大学信息科学与工程学院 8 57 4.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (33)
共引文献  (148)
参考文献  (8)
节点文献
引证文献  (12)
同被引文献  (41)
二级引证文献  (6)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(3)
  • 参考文献(1)
  • 二级参考文献(2)
2006(3)
  • 参考文献(1)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(9)
  • 参考文献(1)
  • 二级参考文献(8)
2009(4)
  • 参考文献(1)
  • 二级参考文献(3)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(6)
  • 引证文献(5)
  • 二级引证文献(1)
2018(5)
  • 引证文献(2)
  • 二级引证文献(3)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
维吾尔文
传统分词
语义词
互信息
组词
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导