基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识.随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用.因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题.该文利用搜索引擎Google获取相关Web页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用Episode进行事件识别和信息抽取,数据集成及数据挖掘,从而实现知识发现.最后给出了原型系统,对知识发现进行实践检验,收到了很好的效果.
推荐文章
基于网络蜘蛛的搜索引擎自动发现
元搜索引擎
自动发现
网络蜘蛛
元信息
基于搜索引擎的Web服务发现系统
Web Service
UDDI
搜索引擎
发现
基于Intranet的搜索引擎
Intranet
搜索引擎
Robot
基于Nutch专题搜索引擎的研究
Nutch
搜索引擎
中文分词
专题搜索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于搜索引擎的知识发现
来源期刊 计算机工程与应用 学科 工学
关键词 搜索引擎 文本聚类 episode 信息抽取 知识发现
年,卷(期) 2004,(30) 所属期刊栏目 数据库与信息处理
研究方向 页码范围 178-180,220
页数 4页 分类号 TP311
字数 5255字 语种 中文
DOI 10.3321/j.issn:1002-8331.2004.30.055
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 宋瀚涛 北京理工大学计算机系 124 2643 28.0 47.0
2 马玉春 北京理工大学计算机系 6 242 4.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (8)
同被引文献  (11)
二级引证文献  (53)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2005(3)
  • 引证文献(2)
  • 二级引证文献(1)
2006(6)
  • 引证文献(2)
  • 二级引证文献(4)
2007(9)
  • 引证文献(1)
  • 二级引证文献(8)
2008(6)
  • 引证文献(0)
  • 二级引证文献(6)
2009(9)
  • 引证文献(2)
  • 二级引证文献(7)
2010(4)
  • 引证文献(0)
  • 二级引证文献(4)
2011(4)
  • 引证文献(1)
  • 二级引证文献(3)
2012(6)
  • 引证文献(0)
  • 二级引证文献(6)
2013(4)
  • 引证文献(0)
  • 二级引证文献(4)
2014(3)
  • 引证文献(0)
  • 二级引证文献(3)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(4)
  • 引证文献(0)
  • 二级引证文献(4)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
搜索引擎
文本聚类
episode
信息抽取
知识发现
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导