原文服务方: 西安交通大学学报       
摘要:
针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的.
推荐文章
基于遗传算法的图像分割的研究
图像分割
阈值计算
遗传算法
图像特征
基于并行遗传算法的双阈值图像分割方法
并行遗传算法
最大类间方差
双阈值
图像分割
遗传算法的群体分组并行研究
并行遗传算法
群体分组并行性
任务调度
迁移操作
并行遗传算法研究及其应用
遗传算法
并行遗传算法
马尔可夫链
背包问题
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 采用并行遗传算法的文本分割研究
来源期刊 西安交通大学学报 学科
关键词 中文信息处理 文本分割 遗传算法
年,卷(期) 2009,(12) 所属期刊栏目
研究方向 页码范围 40-44
页数 5页 分类号 TP39
字数 语种 中文
DOI 10.3321/j.issn:0253-987X.2009.12.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 蔡皖东 西北工业大学计算机学院 157 1423 21.0 28.0
2 樊娜 西北工业大学计算机学院 6 89 3.0 6.0
3 赵煜 西北工业大学计算机学院 12 128 5.0 11.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (64)
参考文献  (4)
节点文献
引证文献  (1)
同被引文献  (4)
二级引证文献  (4)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(2)
  • 二级参考文献(2)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
中文信息处理
文本分割
遗传算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西安交通大学学报
月刊
0253-987X
61-1069/T
大16开
1960-01-01
chi
出版文献量(篇)
7020
总下载数(次)
0
总被引数(次)
81310
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导