基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳.本文主要在词条化等方面对分词原理进行深入的分析,并且对如何构造智能分词词典进行了探讨.同时,对分词内部结构进行研究,在分词数目和速率方面对目前主流的中文分词器进行了比较,并运用htmlparser库对北京邮电大学的网站进行解析,采用分词工具Paoding Analysis建立索引文件存入本地,利用solr4.0全文搜索服务器给出运用中文分词后的查询效果图,实现对北京邮电大学网站的全文搜索功能.
推荐文章
一种基于Lucene的影片搜索引擎的研究和应用
Lucene
搜索引擎
双字哈希
中文分词
倒排索引
Web中文搜索引擎研究
搜索引擎
信息检索
互联网
网络信息量
基于字表的中文搜索引擎分词系统的设计与实现
中文
搜索引擎
分词
宇表
查询
探讨Java搜索引擎Nutch中文搜索技术
Nutch Java代码
中文搜索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 开源中文分词器在web搜索引擎中的应用
来源期刊 软件 学科 工学
关键词 分词器 web搜索 信息检索 智能分词 全文搜索
年,卷(期) 2013,(3) 所属期刊栏目 理论计算机科学
研究方向 页码范围 80-83
页数 4页 分类号 TP391.3
字数 3722字 语种 中文
DOI 10.3969/j.issn.1003-6970.2013.03.023
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘晓婉 北京邮电大学电子工程学院 1 32 1.0 1.0
2 胡燕祝 北京邮电大学自动化学院 11 59 4.0 7.0
3 艾新波 北京邮电大学自动化学院 4 41 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (11)
共引文献  (72)
参考文献  (4)
节点文献
引证文献  (32)
同被引文献  (52)
二级引证文献  (45)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(3)
  • 引证文献(3)
  • 二级引证文献(0)
2015(6)
  • 引证文献(2)
  • 二级引证文献(4)
2016(10)
  • 引证文献(6)
  • 二级引证文献(4)
2017(25)
  • 引证文献(14)
  • 二级引证文献(11)
2018(16)
  • 引证文献(5)
  • 二级引证文献(11)
2019(14)
  • 引证文献(0)
  • 二级引证文献(14)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
分词器
web搜索
信息检索
智能分词
全文搜索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件
月刊
1003-6970
12-1151/TP
16开
北京市3108信箱
1979
chi
出版文献量(篇)
9374
总下载数(次)
40
总被引数(次)
23629
论文1v1指导