原文服务方: 科技与创新       
摘要:
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面.实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率.由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术.
推荐文章
基于Web的文本挖掘研究
文本挖掘
文本分类
文本聚类
特征提取
基于Web的数据挖掘技术
数据挖掘
Web挖掘
信息提取
Web应用
个性化信息服务
Web数据挖掘技术的研究
数据挖掘
Web数据挖掘
XML
Web数据挖掘技术研究
信息检索
数据挖掘
Web内容挖掘
Web结构挖掘
Web访问信息挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 针对小文本的Web数据挖掘技术及其应用
来源期刊 科技与创新 学科
关键词 智能搜索 Web数据挖掘 小文本 用户兴趣
年,卷(期) 2006,(21) 所属期刊栏目 数据库 数据仓库 数据挖掘
研究方向 页码范围 203-205
页数 3页 分类号 TP3
字数 语种 中文
DOI 10.3969/j.issn.1008-0570.2006.21.071
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (72)
参考文献  (5)
节点文献
引证文献  (20)
同被引文献  (14)
二级引证文献  (41)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(2)
  • 参考文献(2)
  • 二级参考文献(0)
2006(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2006(1)
  • 引证文献(1)
  • 二级引证文献(0)
2007(5)
  • 引证文献(5)
  • 二级引证文献(0)
2008(5)
  • 引证文献(5)
  • 二级引证文献(0)
2009(7)
  • 引证文献(2)
  • 二级引证文献(5)
2010(6)
  • 引证文献(2)
  • 二级引证文献(4)
2011(3)
  • 引证文献(1)
  • 二级引证文献(2)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(4)
  • 引证文献(1)
  • 二级引证文献(3)
2014(3)
  • 引证文献(0)
  • 二级引证文献(3)
2015(3)
  • 引证文献(0)
  • 二级引证文献(3)
2016(4)
  • 引证文献(1)
  • 二级引证文献(3)
2017(6)
  • 引证文献(1)
  • 二级引证文献(5)
2018(6)
  • 引证文献(0)
  • 二级引证文献(6)
2019(7)
  • 引证文献(0)
  • 二级引证文献(7)
研究主题发展历程
节点文献
智能搜索
Web数据挖掘
小文本
用户兴趣
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
科技与创新
半月刊
2095-6835
14-1369/N
大16开
2014-01-01
chi
出版文献量(篇)
41653
总下载数(次)
0
总被引数(次)
202805
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导