原文服务方: 计算机应用研究       
摘要:
为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训练分词器。最后在 PKU、MSR 和山西大学数据集上进行测试,并与不确定选择策略进行比较。结果表明提出的分层选择策略在相同大小的训练语料下可以获得更高的分词准确率,同时还降低了人工标注的代价。
推荐文章
基于委员会投票选择方法的主动学习的研究
主动学习
委员会投票选择
投票熵
最大熵
一种基于双向LSTM的联合学习的中文分词方法
中文分词
大规模语料库
联合学习
双向长短时记忆模型
基于免疫算法的主动响应策略选择研究
网络安全
主动响应
免疫算法
响应策略
博弈理论
基于主动学习策略的半监督聚类算法研究
K-均值算法
主动学习策略
半监督学习
聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于分层选择策略的主动学习分词方法
来源期刊 计算机应用研究 学科
关键词 中文分词 主动学习 不确定性取样 分层取样策略
年,卷(期) 2015,(5) 所属期刊栏目 算法研究与探讨
研究方向 页码范围 1353-1356
页数 4页 分类号 TP181|TP311.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2015.05.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 顾磊 南京邮电大学计算机学院 25 149 4.0 12.0
2 梁喜涛 南京邮电大学计算机学院 4 123 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (61)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1948(1)
  • 参考文献(0)
  • 二级参考文献(1)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(5)
  • 参考文献(1)
  • 二级参考文献(4)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(7)
  • 参考文献(2)
  • 二级参考文献(5)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文分词
主动学习
不确定性取样
分层取样策略
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导