基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段.现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的PrefixSpan算法会产生大量的投影数据库,占用较大的内存.针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法(PXFP,Prefix-based XML Frequent Path Mining Algorithm).PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为"节点:父节点"的形式,这种序列化的方式减少了节点冗余.在序列挖掘阶段借鉴PrefixSpan算法中前缀的概念,但不产生投影数据库,仅得到直接后缀(即前缀的子节点),通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描.实验结果表明,PXFP算法取得了比PrefixSpan算法更高的时间和空间效率.
推荐文章
基于最长前缀频繁子路径树的Web日志挖掘算法
Web日志挖掘
频繁访问路径
访问路径树
基于XML数据的频繁模式挖掘算法
XML
数据挖掘
频繁模式
算法
一种基于前缀节点的频繁子图挖掘算法
数据挖掘
频繁子图
同构类
规范化形式
前缀节点
基于DHP的频繁遍历路径挖掘算法
频繁遍历路径
数据挖掘
序列模式
关联规则
候选项目集
整枝技术
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于序列前缀技术的XML频繁路径挖掘算法
来源期刊 计算机系统应用 学科
关键词 XML频繁路径挖掘 序列化 位置信息 前缀
年,卷(期) 2018,(1) 所属期刊栏目 软件技术·算法
研究方向 页码范围 78-85
页数 8页 分类号
字数 7773字 语种 中文
DOI 10.15888/j.cnki.csa.006166
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 毛国君 中央财经大学信息学院 12 51 4.0 7.0
2 张洁 中央财经大学信息学院 4 4 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (35)
共引文献  (34)
参考文献  (8)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(7)
  • 参考文献(0)
  • 二级参考文献(7)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(3)
  • 参考文献(1)
  • 二级参考文献(2)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(3)
  • 参考文献(2)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
XML频繁路径挖掘
序列化
位置信息
前缀
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
总被引数(次)
57078
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导