原文服务方: 计算机应用研究       
摘要:
提出了一种基于TreeMiner算法挖掘频繁子树的文档结构相似度量方法,解决了传统的距离编辑法计算代价高而路径匹配法无法处理重复标签的问题.该方法架构了一个新的检索模型-频繁结构向量模型,给出了文档的结构向量表示和权重函数,构造了XML文档结构相似度量计算公式;同时从数据结构和挖掘程序上对TreeMiner 算法进行了改进,使其更适合大文档数据集的结构挖掘.实验结果表明,该方法具有很高的计算精度和准确率.
推荐文章
XML文档相似性度量方法研究
XML文档
相似性
约束
编辑距离
XML文档结构相似测度研究
可扩展标记语言
结构相似测度
编辑距离
基于XML Schema XML文档验证算法
XMLSchema
XML
文档验证算法
语法错误
错误信息处理
错误位置追踪
综合结构和内容的 XML文档相似度计算方法
内容相似度
结构相似度
XML相似度
向量空间模型
路径频率
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于TreeMiner算法的XML文档结构相似度量方法
来源期刊 计算机应用研究 学科
关键词 频繁结构向量模型 嵌入子树 频繁子树 结构挖掘
年,卷(期) 2009,(5) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1706-1709,1722
页数 5页 分类号 TP311
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2009.05.030
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李敏强 天津大学管理学院 194 5707 40.0 69.0
2 刘保相 河北理工大学理学院 31 169 7.0 11.0
3 阎红灿 天津大学管理学院 20 42 4.0 5.0
5 朱晓亮 河北理工大学计算中心 6 7 1.0 2.0
8 王淑芬 河北理工大学计算中心 5 10 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (10)
参考文献  (2)
节点文献
引证文献  (1)
同被引文献  (5)
二级引证文献  (0)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
频繁结构向量模型
嵌入子树
频繁子树
结构挖掘
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
相关基金
河北省自然科学基金
英文译名:
官方网址:
项目类型:
学科类型:
高等学校博士学科点专项科研基金
英文译名:
官方网址:http://std.nankai.edu.cn/kyjh-bsd/1.htm
项目类型:面上课题
学科类型:
论文1v1指导