基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对目前企业营销的不断深入,企业简称被各大新闻广泛使用,而作为新词又难以被有效识别的问题,提出一种基于构成模式和条件随机场(CRF)的企业简称预测方法.首先,从语言学的角度对企业全称和简称的构成规律进行了总结,并采用词库以及规则相结合的方式对Bi-gram算法进行改进,提出CBi-gram算法,实现了对企业全称的结构化切分,并提高了企业全称中核心词识别的准确性.然后,依据上述切分结果对企业类型进行再次细分,并通过人工总结和规则自学习的方法形成不同企业类型下的简称规则集.最后再基于规则生成企业的候选简称集,降低了不适用的规则对于不同类型的企业在生成简称过程中产生的噪声.另外,为了弥补单纯基于规则在解决全称缩写和简写缩写混合的局限性,引入CRF,从统计的角度对简称进行预测,并选取词、音调以及词在全称组成成分中的位置作为模型特征,进行模型训练,以实现两种方法的相互补充.实验结果显示,该方法具有较高的准确率,输出的企业简称集基本覆盖了企业的常用简称范围.
推荐文章
基于条件随机场进行蛋白质二级结构预测
二级结构预测
条件随机场
概率图模型
基于条件随机场的汉语分词系统
汉语分词
条件随机场
感知机
基于条件随机场的科研论文信息分层抽取
信息抽取
条件随机场
分层
基于SLIC与条件随机场的图像分割算法
条件随机场
简单线性迭代聚类
超像素
图像分割
参数估计
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于构成模式和条件随机场的企业简称预测
来源期刊 计算机应用 学科 工学
关键词 企业简称 构成模式 简称预测 核心词识别 条件随机场
年,卷(期) 2016,(2) 所属期刊栏目 第三届CCF大数据学术会议(CCF BigData 2015)
研究方向 页码范围 449-454
页数 6页 分类号 TP393
字数 7816字 语种 中文
DOI 10.11772/j.issn.1001-9081.2016.02.0449
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 过弋 华东理工大学信息科学与工程学院 12 23 2.0 4.0
5 孙丽萍 华东理工大学信息科学与工程学院 3 33 3.0 3.0
6 唐文武 华东理工大学信息科学与工程学院 2 5 1.0 2.0
7 徐永斌 华东理工大学信息科学与工程学院 2 5 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (86)
共引文献  (87)
参考文献  (15)
节点文献
引证文献  (5)
同被引文献  (13)
二级引证文献  (55)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(4)
  • 参考文献(0)
  • 二级参考文献(4)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(8)
  • 参考文献(0)
  • 二级参考文献(8)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(8)
  • 参考文献(0)
  • 二级参考文献(8)
2007(9)
  • 参考文献(1)
  • 二级参考文献(8)
2008(14)
  • 参考文献(1)
  • 二级参考文献(13)
2009(12)
  • 参考文献(0)
  • 二级参考文献(12)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(7)
  • 参考文献(5)
  • 二级参考文献(2)
2012(5)
  • 参考文献(3)
  • 二级参考文献(2)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2014(4)
  • 参考文献(4)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(4)
  • 引证文献(0)
  • 二级引证文献(4)
2018(16)
  • 引证文献(3)
  • 二级引证文献(13)
2019(25)
  • 引证文献(0)
  • 二级引证文献(25)
2020(14)
  • 引证文献(1)
  • 二级引证文献(13)
研究主题发展历程
节点文献
企业简称
构成模式
简称预测
核心词识别
条件随机场
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导