原文服务方: 西安交通大学学报       
摘要:
针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法.该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串.实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%.实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高.
推荐文章
中文网络文本的语义信息处理研究综述
中文网络文本
网络词汇
网络语言
语义分析
知识库
博客语料的新词发现方法
新词
词串统计
上下文分析
分词
候选词
基于Trie树的词语左右熵和互信息新词发现算法
新词发现算法
左右熵
互信息
Trie树
算法设计
对比验证
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 利用信息传播特性的中文网络新词发现方法
来源期刊 西安交通大学学报 学科
关键词 新词发现 信息传播 用户行为 时间特性
年,卷(期) 2015,(12) 所属期刊栏目
研究方向 页码范围 59-64
页数 6页 分类号 TP393
字数 语种 中文
DOI 10.7652/xjtuxb201512010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 管晓宏 清华大学智能与网络化系统研究中心 94 2276 27.0 45.0
5 周亚东 西安交通大学智能网络与网络安全教育部重点实验室 15 192 7.0 13.0
6 孙立远 清华大学智能与网络化系统研究中心 2 8 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (32)
共引文献  (117)
参考文献  (8)
节点文献
引证文献  (8)
同被引文献  (42)
二级引证文献  (10)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(5)
  • 参考文献(0)
  • 二级参考文献(5)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(6)
  • 参考文献(2)
  • 二级参考文献(4)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(7)
  • 引证文献(4)
  • 二级引证文献(3)
2019(2)
  • 引证文献(1)
  • 二级引证文献(1)
2020(6)
  • 引证文献(1)
  • 二级引证文献(5)
研究主题发展历程
节点文献
新词发现
信息传播
用户行为
时间特性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西安交通大学学报
月刊
0253-987X
61-1069/T
大16开
1960-01-01
chi
出版文献量(篇)
7020
总下载数(次)
0
论文1v1指导