基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于中文人名用字具有的较强的性别区分性,提出一种利用朴素贝叶斯分类器对中文人名性别进行判定的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定。在412775个中文人名语料上采用10重交叉验证法进行训练和测试,对比了依据不同区分特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,字1+字2+字1字2(全部区分特征)构成的特征组合进行性别判定,平均判定准确率分别为72.75%,86.92%,88.84%,87.37%,89.35%,90.06%,取得的最好平均判定准确率为90.06%。
推荐文章
基于句义结构分析的中文人名消歧
人名消歧
社会关系
句义结构
辅助特征
聚类
一种基于本体论和规则匹配的中文人名识别方法
中文人名识别
命名实体识别
中文分词
本体
基于层次特征的藏文人名识别研究
人名识别
层次特征
藏文
条件随机场
基于多级阈值的中文人名识别
自然语言处理
未登录词识别
中文人名识别
多级阈值
3σ法则
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于中文人名用字特征的性别判定方法
来源期刊 山东大学学报(工学版) 学科 工学
关键词 中文人名 性别判定 朴素贝叶斯分类 用字特征 特征组合 区分特征
年,卷(期) 2014,(1) 所属期刊栏目 机器学习与数据挖掘
研究方向 页码范围 13-18,23
页数 7页 分类号 TP391
字数 4276字 语种 中文
DOI 10.6040/j.issn.1672-3961.2.2013.274
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 余正涛 昆明理工大学信息工程与自动化学院 122 877 17.0 24.0
2 于江德 安阳师范学院计算机与信息工程学院 33 345 10.0 17.0
3 赵红丹 安阳师范学院计算机与信息工程学院 13 55 4.0 7.0
4 郑勃举 安阳师范学院计算机与信息工程学院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (95)
共引文献  (215)
参考文献  (24)
节点文献
引证文献  (2)
同被引文献  (8)
二级引证文献  (3)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(2)
  • 参考文献(0)
  • 二级参考文献(2)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
1993(2)
  • 参考文献(0)
  • 二级参考文献(2)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(1)
  • 二级参考文献(1)
1997(11)
  • 参考文献(0)
  • 二级参考文献(11)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(6)
  • 参考文献(0)
  • 二级参考文献(6)
2001(5)
  • 参考文献(0)
  • 二级参考文献(5)
2002(9)
  • 参考文献(2)
  • 二级参考文献(7)
2003(6)
  • 参考文献(0)
  • 二级参考文献(6)
2004(8)
  • 参考文献(3)
  • 二级参考文献(5)
2005(11)
  • 参考文献(3)
  • 二级参考文献(8)
2006(10)
  • 参考文献(2)
  • 二级参考文献(8)
2007(3)
  • 参考文献(3)
  • 二级参考文献(0)
2008(7)
  • 参考文献(1)
  • 二级参考文献(6)
2009(7)
  • 参考文献(1)
  • 二级参考文献(6)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(7)
  • 参考文献(5)
  • 二级参考文献(2)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
中文人名
性别判定
朴素贝叶斯分类
用字特征
特征组合
区分特征
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
山东大学学报(工学版)
双月刊
1672-3961
37-1391/T
大16开
济南市经十路17923号
24-221
1956
chi
出版文献量(篇)
3095
总下载数(次)
14
总被引数(次)
24236
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导