基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了提高95595工单智能分类的准确率,提出了基于LDA (Latent Dirichlet Allocation)的改进TFIDF算法.先对文本提取特征词,然后采用K-means算法进行聚类处理.构建LDA模型,获得概率分布函数θ和φ,求取语义影响力SI(semantic influence,SI)作为特征词的权重,该改进算法记作SI-TFIDF(semantic influence-term frequency inverse document frequency,SI-TFIDF).将SI-TFIDF算法与传统的TFIDF算法在sougou的数据库进行特征词提取,并采用K-means算进行聚类,对比结果显示,采用SI-TFIDF算法提取的特征词聚类效果优于TFIDF,验证了所提出方法的可靠性.在95598投诉工单上进行仿真实验,SI-TFIDF算法的投诉工单聚类准确率高于传统的TFIDF算法,验证了SI-TFIDF更适用于处理工单投诉的分类研究.
推荐文章
基于LDA-wSVM模型的文本分类研究
文本分类
潜在狄利克雷分布
支持向量机
权重计算
吉普斯抽样
基于权重微博链的改进LDA微博主题模型
短文本
主题挖掘
微博链
潜在狄利克雷分布
perplexity
基于语义关联和信息增益的TFIDF改进算法研究
词频反文档频率
特征提取
语义关联
信息增益
文本分类
基于文本数据挖掘技术的95598业务工单主题分析应用
95598业务工单
文本挖掘
主题分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LDA主题的改进TFIDF95598工单智能分类研究
来源期刊 微型电脑应用 学科 工学
关键词 95598 投诉工单 Latent dirichlet allocation term frequency inverse document frequency
年,卷(期) 2020,(3) 所属期刊栏目 研究与设计
研究方向 页码范围 87-90
页数 4页 分类号 TM73
字数 2808字 语种 中文
DOI 10.3969/j.issn.1007-757X.2020.03.026
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李洪宇 国网河北省电力有限公司电力科学研究院 4 0 0.0 0.0
2 柳长发 国网河北省电力有限公司电力科学研究院 6 0 0.0 0.0
3 李倩 国网河北省电力有限公司电力科学研究院 3 0 0.0 0.0
4 武光华 国网河北省电力有限公司电力科学研究院 3 0 0.0 0.0
5 刘二刚 国网河北省电力有限公司电力科学研究院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (94)
共引文献  (63)
参考文献  (11)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1966(1)
  • 参考文献(0)
  • 二级参考文献(1)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(8)
  • 参考文献(2)
  • 二级参考文献(6)
2013(5)
  • 参考文献(0)
  • 二级参考文献(5)
2014(7)
  • 参考文献(1)
  • 二级参考文献(6)
2015(9)
  • 参考文献(1)
  • 二级参考文献(8)
2016(12)
  • 参考文献(2)
  • 二级参考文献(10)
2017(11)
  • 参考文献(3)
  • 二级参考文献(8)
2018(4)
  • 参考文献(1)
  • 二级参考文献(3)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
95598
投诉工单
Latent dirichlet allocation
term frequency inverse document frequency
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
微型电脑应用
月刊
1007-757X
31-1634/TP
16开
上海市华山路1954号上海交通大学铸锻楼314室
4-506
1984
chi
出版文献量(篇)
6963
总下载数(次)
20
总被引数(次)
28091
论文1v1指导