基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
《红楼梦》是中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者,但由于历史原因,《红楼梦》在传播和保留过程中出现了令人遗憾的缺失,目前公认的版本是前80回为曹雪芹本著,高鹗续后40回,现通过建模佐证前80回与后40回作者不同.用朴素叶贝斯分类器通过字的频率,判别《红楼梦》的章回作者不同.首先,对每一章节进行分词,建立词频矩阵;接着使用非参数检验剔除显著性不大的人称代词;然后筛选出所有在每一章回出现大于6次的字;最后将频繁出现的字创建指示特征,利用红、玉等125个特征,训练朴素叶贝斯分类器,成功预测出作者的不同,预测正确率高达97%.针对词的判断,首先引入红楼梦词语等细胞词库,使章回分词更加精确;接着,筛选出与文章情节关联不大的词语,计算词在每一章出现的频率的标准差,选择标准差小于0.9的词语作为特征;最后利用"宝玉","咱们"等256个词语作为特征训练建立的朴素叶贝斯分类器,成功预测出作者的不同,正确率高达95%.
推荐文章
我读《红楼梦》
《红楼梦》
人物塑造
《好了歌》
《红楼梦》人物刻画的特色分析
《红楼梦》
人物刻画
特色
高中全程导读《红楼梦》新探
《红楼梦》
高中语文教学
阅读教学,师生共读
全程导读
课外阅读
试论《红楼梦》的世界观
《红楼梦》
宗教意识
精神寄托
神话架构
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于机器学习的红楼梦作者鉴定
来源期刊 新一代信息技术 学科
关键词 朴素贝叶斯分类器 R语言 词频 数据预处理
年,卷(期) 2018,(3) 所属期刊栏目
研究方向 页码范围 41-47
页数 7页 分类号
字数 3952字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴宇航 华北理工大学数学建模创新实验室 15 4 1.0 2.0
3 车东宇 华北理工大学理学院 3 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (60)
共引文献  (80)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(3)
  • 参考文献(0)
  • 二级参考文献(3)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(4)
  • 参考文献(0)
  • 二级参考文献(4)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(7)
  • 参考文献(1)
  • 二级参考文献(6)
2009(8)
  • 参考文献(0)
  • 二级参考文献(8)
2010(7)
  • 参考文献(2)
  • 二级参考文献(5)
2011(6)
  • 参考文献(0)
  • 二级参考文献(6)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(2)
  • 参考文献(1)
  • 二级参考文献(1)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(4)
  • 参考文献(2)
  • 二级参考文献(2)
2019(3)
  • 参考文献(0)
  • 二级参考文献(3)
2018(4)
  • 参考文献(2)
  • 二级参考文献(2)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
朴素贝叶斯分类器
R语言
词频
数据预处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
新一代信息技术
半月刊
2096-6091
10-1581/TP
北京市海淀区玉渊潭南路普惠南里13号楼
chi
出版文献量(篇)
639
总下载数(次)
4
总被引数(次)
21
论文1v1指导