基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并且根据辨别实体的分辨力,为每个特征词汇赋予合理的权重,使记录的特征向量对辨别实体更具代表性,最终提高聚类结果的细粒度,很好地解决了非结构化数据的记录关联合并问题.实验结果表明:该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升.
推荐文章
一种实时鲁棒的非结构化道路检测算法
非结构化道路检测
混合高斯模型
B样条曲线
图像处理
一种基于Graham扫描算法的空间点云结构化算法研究
过度包装
散乱点云
Graham扫描算法
Denaunay三角化
凸包算法
点云结构化
HotRank:热度敏感的非结构化数据检索排名算法
非结构化数据
检索
排名
热度
一种求解不可压N-S方程的非结构化网格方法
非结构化网格
压力修正
纳维尔-斯托克斯方程
同位网格
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 TrigSigs:一种有效的非结构化记录关联合并算法
来源期刊 浙江大学学报(工学版) 学科 工学
关键词 记录关联合并 非结构化数据 触发对 属性关联度 信息分布集中度
年,卷(期) 2010,(12) 所属期刊栏目
研究方向 页码范围 2284-2290,2308
页数 8页 分类号 TP393.08
字数 语种 中文
DOI 10.3785/j.issn.1008-973X.2010.12.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈刚 204 2984 32.0 47.0
2 盛振华 2 10 1.0 2.0
3 吴羽 5 10 1.0 3.0
4 寿黎但 16 34 4.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (17)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1969(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
记录关联合并
非结构化数据
触发对
属性关联度
信息分布集中度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
浙江大学学报(工学版)
月刊
1008-973X
33-1245/T
大16开
杭州市浙大路38号
32-40
1956
chi
出版文献量(篇)
6865
总下载数(次)
6
总被引数(次)
81907
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导