基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数,如果记数大于某一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数.算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同.算法3通过采用Spider技术可以实现从整个网站中自动挖掘数据记录.实验表明所提算法比已有算法可挖掘更完整的数据记录.从同构页中挖掘数据记录是一种有效的方法.
推荐文章
从气象网站数据自动传输看程序设计
数据
自动传输
程序
设计
WEB日志挖掘实现网站优化
数据挖掘
Web日志挖掘
网站优化
直接从空间数据中挖掘频繁模式
空间数据
频繁模式
关联规则
空间分析
机器学习算法在数据挖掘中的应用
数据挖掘
BP 神经网络
遗传优化算法
空压机故障诊断
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 从网站中自动挖掘数据记录的算法
来源期刊 东南大学学报(英文版) 学科 工学
关键词 数据挖掘 数据记录 网站 同构网页
年,卷(期) 2006,(3) 所属期刊栏目
研究方向 页码范围 423-425
页数 3页 分类号 TP3
字数 379字 语种 英文
DOI 10.3969/j.issn.1003-7985.2006.03.029
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 兰永杰 山东工商学院信息与电子工程学院 8 25 3.0 4.0
2 邱勇 山东工商学院信息与电子工程学院 6 21 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2008(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据挖掘
数据记录
网站
同构网页
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
东南大学学报(英文版)
季刊
1003-7985
32-1325/N
大16开
南京四牌楼2号
1984
eng
出版文献量(篇)
2004
总下载数(次)
1
总被引数(次)
8843
论文1v1指导