原文服务方: 计算机应用研究       
摘要:
搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题.为此,提出了一种自动获取机构全称和简称的方法.根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称.通过对1 287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明该方法效果良好.
推荐文章
基于分词信息的中文机构名简称自动生成方法
组织机构名
中文简称
中文分词
条件随机场
基于统计的中文机构名自动识别
自然语言处理
中文机构名识别
前部词
特征词
基于SVM和CRF的双层模型中文机构名识别
机构名识别
条件随机场(CRF)
支持向量机(SVM)
双层模型
基于支持向量机方法的中文组织机构名的识别
机构名识别
支持向量机
主动学习
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于网页信息和分词的中文机构名全称和简称提取方法
来源期刊 计算机应用研究 学科
关键词 机构名简称提取 机构名全称提取 网页分析 简称相似度计算
年,卷(期) 2017,(4) 所属期刊栏目 算法研究探讨
研究方向 页码范围 972-976
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2017.04.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李晓东 14 142 6.0 11.0
2 延志伟 14 49 4.0 6.0
3 耿光刚 16 109 7.0 10.0
4 张俊玲 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (48)
共引文献  (117)
参考文献  (11)
节点文献
引证文献  (4)
同被引文献  (41)
二级引证文献  (4)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(2)
  • 参考文献(1)
  • 二级参考文献(1)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(4)
  • 参考文献(1)
  • 二级参考文献(3)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(2)
  • 二级参考文献(2)
2008(7)
  • 参考文献(1)
  • 二级参考文献(6)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
机构名简称提取
机构名全称提取
网页分析
简称相似度计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导