基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
进入20世纪90年代,伴随着机器学习技术的发展,文本分类技术已经朝向自动分类方向前进.国外开始涌现出一些分类理论,H.P.Luhn最早提出将词频用于文本特征提取中.而国内关于文本分类研究起步较晚,这源于中文和英文在表达方式上有很大区别.与普通中文文本不同,新闻文本虽然篇幅较小,但句子长,更具有公开性、针对性、传播性、时效性等特点.在对新闻文本分类之前,首先要挑选出文本中代表性的关键词,即特征选择阶段.此阶段通过特征选择算法实现降维,去除原文本中大量无用信息,挑选出的特征词的关键性程度决定了分类效果的好坏.而经常使用的信息增益、文本互信息、CHI计算等特征选择算法没有考虑特征词类间分布不均情况.基于此,文章对面向新闻文本的事件标注语料库构建进行研究,以供参考.
推荐文章
面向事件的多语平行语料库构建研究
语料收集原则
标注规范
可控多语语料库
构建大规模的汉英双语平行语料库
机器翻译
双语平行语料库
语料库构建
面向事件的多语平行语料库构建研究
语料收集原则
标注规范
可控多语语料库
基于语料库的商务英语新闻名词化研究
商务新闻
名词化
语篇功能
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向新闻文本的事件标注语料库构建
来源期刊 畅谈 学科
关键词 新闻文本 事件标注 语料库 构建方法
年,卷(期) 2021,(16) 所属期刊栏目 传媒论坛
研究方向 页码范围 124-126
页数 3页 分类号
字数 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
新闻文本
事件标注
语料库
构建方法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
畅谈
双周刊
chi
出版文献量(篇)
1731
总下载数(次)
0
论文1v1指导