基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
搜索引擎有很多的关健技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领城的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测.实脸结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与中文字符特征编码相符率达100,可以广泛应用于搜索领城.
推荐文章
后缀树聚类算法在元搜索引擎中的应用
元搜索引擎
文本聚类
后缀树
基于混合模型的多搜索引擎融合
相关分值
混合模型
搜索引擎融合
分值合并
基于遗传算法的搜索引擎调度
WWW
互联网
搜索引擎
遗传算法
智能代理
基于Intranet的搜索引擎
Intranet
搜索引擎
Robot
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 搜索引擎中基于密度聚类的混合编码检测算法
来源期刊 数据采集与处理 学科 工学
关键词 搜索引攀 密度聚类 字符编码
年,卷(期) 2011,(1) 所属期刊栏目
研究方向 页码范围 95-100
页数 分类号 TB319
字数 4278字 语种 中文
DOI 10.3969/j.issn.1004-9037.2011.01.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 潘雪增 浙江大学计算机科学与技术学院 89 1318 17.0 34.0
2 章晟 浙江大学计算机科学与技术学院 1 1 1.0 1.0
3 张启飞 浙江大学计算机科学与技术学院 7 10 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (146)
参考文献  (10)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(3)
  • 参考文献(2)
  • 二级参考文献(1)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(2)
  • 参考文献(2)
  • 二级参考文献(0)
2006(4)
  • 参考文献(2)
  • 二级参考文献(2)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
搜索引攀
密度聚类
字符编码
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数据采集与处理
双月刊
1004-9037
32-1367/TN
大16开
南京市御道街29号1016信箱
28-235
1986
chi
出版文献量(篇)
3235
总下载数(次)
7
总被引数(次)
25271
论文1v1指导