基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文分词是搜索引擎面临的主要挑战之一.本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试.实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%.
推荐文章
从“庖丁解牛”看庄子的语言及生存哲学
庖丁解牛
不可言说
主-客体
生命
Nutch中文分词的研究和改进
Nutch
搜索引擎
中文分词
Paoding's Knives
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Nutch中庖丁解牛中文分词的实现与评测
来源期刊 计算机与现代化 学科 工学
关键词 中文分词 评分机制 庖丁解牛
年,卷(期) 2010,(6) 所属期刊栏目 应用与开发
研究方向 页码范围 187-190
页数 分类号 TP311.1
字数 2397字 语种 中文
DOI 10.3969/j.issn.1006-2475.2010.06.053
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 魏海平 辽宁石油化工大学计算机与通讯工程学院 55 352 10.0 17.0
2 陈岩 辽宁石油化工大学研究生学院 5 50 3.0 5.0
3 孙殿哲 辽宁石油化工大学研究生学院 2 41 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (31)
共引文献  (110)
参考文献  (10)
节点文献
引证文献  (36)
同被引文献  (42)
二级引证文献  (48)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(2)
  • 参考文献(1)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(6)
  • 参考文献(0)
  • 二级参考文献(6)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(5)
  • 参考文献(1)
  • 二级参考文献(4)
2007(5)
  • 参考文献(3)
  • 二级参考文献(2)
2009(4)
  • 参考文献(4)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(7)
  • 引证文献(7)
  • 二级引证文献(0)
2013(7)
  • 引证文献(5)
  • 二级引证文献(2)
2014(9)
  • 引证文献(4)
  • 二级引证文献(5)
2015(11)
  • 引证文献(3)
  • 二级引证文献(8)
2016(11)
  • 引证文献(6)
  • 二级引证文献(5)
2017(10)
  • 引证文献(2)
  • 二级引证文献(8)
2018(11)
  • 引证文献(2)
  • 二级引证文献(9)
2019(16)
  • 引证文献(5)
  • 二级引证文献(11)
研究主题发展历程
节点文献
中文分词
评分机制
庖丁解牛
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导