基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着有序时间序列数据的出现,序列模式挖掘成为数据挖掘领域的一个分支.其中带通配符的序列模式挖掘又是该领域中一个重要的研究问题,同时随着数据规模越来越大,算法的挖掘效率尤为重要.现有算法多采用树型结构来实现数据的压缩表示,树的结构和模式匹配方法对挖掘效率有决定性的影响.该文首先设计一个新的树结构索引树I-Tree(Index-Tree)来维护原始序列数据以及序列模式和模式索引信息;然后在索引树的基础上,提出一个新的带通配符的序列模式挖掘算法ITM(Index-Tree based sequential pattern Mining).算法ITM主要用4个策略提高算法的挖掘效率:(1)将原始序列中相同项压缩到一个节点上,该节点只记录项在原始序列中的索引;(2)采用迭代的方式,长度k+1的序列模式是用长度k(k>0)的候选序列模式产生;(3)采用前缀树的结构,逐层将k+1的候选序列模式压缩到索引树上,叶子节点上记录序列模式最后一项的索引;(4)整个挖掘过程,只用一棵索引树.算法ITM通过采用以上索引树压缩原始序列数据以及存储候选序列模式,有效地缩小搜索空间,从而算法效率得到显著提升.另一种提高挖掘效率的思路,是在挖掘过程中允许有小部分的模式丢失,来换取挖掘效率的大幅度提升,即所谓的近似模式挖掘.该文也给出了一个近似序列模式挖掘算法AITM(Approximate Index-Tree based sequential pattern Mining),该近似算法通过估计超序列模式的支持数,将非候选节点提前删掉,减少索引树上的节点个数,从而提高算法的时空效率;但是也因为估计的支持数可能会小于实际值,从而丢失了部分频繁的序列模式.该文实验中,提出的两个算法分别与算法MGCS、MAPB和MAPD进行了对比实验,采用3个典型数据序列进行测试,并设计了3组实验:(1)不同的最小支持度对算法的效率影响;(2)算法的扩展性;(3)通配符长度对算法效率的影响.实验结果验证了该文提出算法的有效性,时空效率得到一定的提高;针对不同的阈值,最小支持度越小、原始序列长度越长、通配符长度越长,算法的时间效率提高幅度越大;同时近似挖掘算法的精确度接近100%.
推荐文章
一种有效的带通配符约束的频繁序列模式挖掘算法
序列数据库
数据挖掘
频繁序列模式
通配符
基于二级索引结构无候选项闭合序列模式挖掘算法
数据挖掘
序列模式挖掘
闭合序列
CloSpan
基于 MapReduce 的序列模式挖掘算法
数据挖掘
GSP 算法
序列模式
MapReduce
子序列数据库
带通配符的多序列模式挖掘
多序列
间隔约束
通配符,one-off条件
频繁模式
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于索引树的带通配符序列模式挖掘算法
来源期刊 计算机学报 学科 工学
关键词 数据挖掘 序列模式 通配符 模式匹配 索引树
年,卷(期) 2019,(3) 所属期刊栏目 人工智能
研究方向 页码范围 554-565
页数 12页 分类号 TP18
字数 8590字 语种 中文
DOI 10.11897/SP.J.1016.2019.00554
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王乐 宁波财经学院信息工程学院 17 151 9.0 12.0
3 刘胜蓝 大连理工大学创新创业学院 15 129 7.0 11.0
6 王水 宁波财经学院信息工程学院 1 1 1.0 1.0
7 王辉兵 大连理工大学创新创业学院 5 32 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (40)
共引文献  (37)
参考文献  (18)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(3)
  • 参考文献(1)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(6)
  • 参考文献(2)
  • 二级参考文献(4)
2012(8)
  • 参考文献(4)
  • 二级参考文献(4)
2013(14)
  • 参考文献(3)
  • 二级参考文献(11)
2014(5)
  • 参考文献(2)
  • 二级参考文献(3)
2015(5)
  • 参考文献(5)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据挖掘
序列模式
通配符
模式匹配
索引树
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
中国软科学 价值工程 科技管理研究 中小企业管理与科技 财经界 中国高新技术企业 系统工程 中国管理信息化 管理科学学报 现代管理科学 合作经济与科技 企业改革与管理 低碳世界 中外企业家 产业与科技论坛 内蒙古科技与经济 民营科技 管理观察 山西财经大学学报 企业导报 知识经济 工业工程与管理 财会学习 系统工程学报 经济体制改革 东方企业文化 现代城市研究 科学管理研究 财会月刊 系统管理学报 中国石油和化工标准与质量 科技经济市场 中国乡镇企业会计 财会月刊(理论版) 财务与会计 物流工程与管理 企业技术开发(下半月) 职业 行政事业资产与财务 财会月刊(综合版) 安徽农业科学 中国农学通报 中国农业科学 现代农业科技 生态学杂志 江苏农业科学 华北农学报 湖北农业科学 广东农业科学 安徽农学通报 干旱地区农业研究 西南农业学报 西北农业学报 民营科技 河南农业科学 江西农业学报 贵州农业科学 农业与技术 山东农业科学 新疆农业科学 湖南农业科学 农村经济与科技 浙江农业学报 山西农业科学 江苏农业学报 浙江农业科学 中国农业科技导报 河北农业科学 黑龙江农业科学 陕西农业科学 北方农业学报 北京农业 农业科技通讯 甘肃农业 福建农业学报 上海农业学报 天津农业科学 农业科技与信息 农业科技管理 甘肃农业科技 计算机工程与应用 计算机工程 计算机应用研究 软件学报 计算机应用 计算机学报 系统仿真学报 计算机研究与发展 计算机工程与设计 计算机科学 控制与决策 电脑知识与技术 计算机集成制造系统 计算机仿真 自动化学报 计算机技术与发展 计算机应用与软件 计算机辅助设计与图形学学报 小型微型计算机系统 控制理论与应用 控制理论与应用 遥感学报 传感器与微系统 传感技术学报 制造业自动化 微电子学与计算机 计算机工程与科学 机器人 计算机系统应用 计算机与现代化 测控技术 计算机与数字工程 工业控制计算机 测绘与空间地理信息 电机与控制学报 中文信息学报 福建电脑 控制工程 遥感技术与应用 信息与控制
论文1v1指导