基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用.网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源.首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现.采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量.其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词.最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模.实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现.
推荐文章
基于HCSIPA的中英文混合语音合成
HMM混合语音合成
音标符号
HCSIPA符号
双语说话人
音色统一
中英文习语的文化差异
中英习语
文化差异
翻译技巧
基于LDA模型和HowNet的多粒度子话题划分方法
新闻报道
子话题划分
多粒度
狄利克雷分配模型
语义相似度计算
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于ICE-LDA模型的中英文跨语言话题发现研究
来源期刊 工程科学与技术 学科 工学
关键词 话题发现 跨英汉文本 ICE-LDA模型 TF-IDF特征提取 共现话题
年,卷(期) 2017,(2) 所属期刊栏目 第十届中国可信计算与信息安全学术会议(CTCIS 2016)推荐论文
研究方向 页码范围 100-106
页数 7页 分类号 TP391
字数 6069字 语种 中文
DOI 10.15961/j.jsuese.201601032
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈兴蜀 四川大学网络空间安全研究院 117 695 14.0 21.0
5 王文贤 四川大学网络空间安全研究院 60 732 13.0 25.0
9 王海舟 四川大学网络空间安全研究院 30 137 6.0 10.0
13 罗梁 四川大学计算机学院 3 17 3.0 3.0
14 高悦 四川大学计算机学院 3 17 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (110)
参考文献  (12)
节点文献
引证文献  (5)
同被引文献  (26)
二级引证文献  (13)
1949(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(8)
  • 参考文献(1)
  • 二级参考文献(7)
2007(8)
  • 参考文献(1)
  • 二级参考文献(7)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(3)
  • 参考文献(2)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(11)
  • 引证文献(3)
  • 二级引证文献(8)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
话题发现
跨英汉文本
ICE-LDA模型
TF-IDF特征提取
共现话题
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
工程科学与技术
双月刊
1009-3087
51-1773/TB
大16开
成都市一环路南一段24号
62-55
1957
chi
出版文献量(篇)
4421
总下载数(次)
4
总被引数(次)
42422
论文1v1指导