作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
信息时代作者版权的保护问题已受到越来越多的关注.针对部分小说存在的文本大面积相似问题,提出基于语言模型和特征分类的方法.统计文本二元~六元的语言模型并且绘制拓扑图,通过计算重合概率和词性比来分析词语的重合程度和语法信息,在此基础上利用主成分分析和随机森林的方法,进行分类判别.机器学习的结果表明,该方法能够有效地鉴别小说是否存在抄袭现象.
推荐文章
特征选择和聚类分析的图像分类模型
图像处理
原始特征
聚类分析算法
图像分类器
基于多特征融合和神经网络的电子音乐分类模型
多特征融合
神经网络
电子音乐
分类模型
自适应多特征融合
多层感知分类
基于复合特征和FOAGRNN的心电图分类
果蝇算法
广义回归神经网络
核独立主元分析
小波包
心电图分类
特征提取
基于卷积神经网络和贝叶斯分类器的句子分类模型
深度学习
句子分类
卷积神经网络
主成分分析法
贝叶斯分类器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于语言模型和特征分类的抄袭判定
来源期刊 计算机工程 学科 工学
关键词 抄袭判定 语言模型 语法信息 主成分分析 随机森林 分类
年,卷(期) 2013,(5) 所属期刊栏目 人工智能及识别技术
研究方向 页码范围 230-234
页数 5页 分类号 TP311
字数 4599字 语种 中文
DOI 10.3969/j.issn.1000-3428.2013.05.051
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘颖 清华大学中国语言文学系 50 235 9.0 12.0
2 李惠 清华大学中国语言文学系 3 14 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (44)
共引文献  (241)
参考文献  (8)
节点文献
引证文献  (6)
同被引文献  (9)
二级引证文献  (0)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(7)
  • 参考文献(1)
  • 二级参考文献(6)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(10)
  • 参考文献(1)
  • 二级参考文献(9)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(5)
  • 参考文献(3)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
抄袭判定
语言模型
语法信息
主成分分析
随机森林
分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
论文1v1指导