基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
从非结构化商品描述文本中抽取结构化属性信息,对于电子商务实现商品的对比与推荐及用户需求预测等功能具有重要意义.现有结构化方法大多采用监督或半监督的分类方法抽取属性值与属性名,通过文法分析器分析属性值与属性名之间的文法依存关系,并根据关联规则实现属性值与属性名的匹配.这些方法存在以下不足:(1)需要人工标记部分属性值、属性名及它们之间的对应关系;(2)属性值-属性名匹配的准确度受到语言习惯、句意逻辑、语料库及属性名候选集质量的严重制约.提出了一种无监督的中文商品属性结构化方法.该方法借助搜索引擎,基于小概率事件原理分析文法关系来抽取属性值与属性名.同时,提出相对不选取条件概率场,并使用PageRank算法来计算属性值与属性名的配对概率.该方法无需人工标记的开销,且无论商品描述中是否显式地包含相应的属性名,该方法都能自动抽取到属性值并匹配相应的属性名.使用百度搜索引擎上的真实语料,针对4类商品的中文描述进行了实验.实验结果验证了对于候选属性名的自动生成,所提出的基于搜索引擎搜索属性值,并在包含属性值的搜索结果中抽取一般名词的候选属性名生成方法与只在描述句中抽取一般名词的候选属性名生成方法相比,查全率提高了20%以上;对于非量化类属性,所提出的基于相对不选取条件概率场的属性值-属性名匹配方法与基于依存关联的方法相比,Rank-1的准确率提高了30%以上,平均MRR提高了0.3以上.
推荐文章
面向结构化数据集的敏感属性识别与分级算法
隐私保护
敏感属性识别与分级
最大熵
关联规则
互信息
基于对象-关系-属性数据模型的空间半结构化数据存储管理研究
对象-关系-属性数据模型
空间半结构化数据
嵌套关系
关系型数据库
非结构化数据的ETL设计
非结构化数据
结构化数据
CWM
ETL
面向对象方法与结构化方法的比较
面向对象程序设计
结构化程序设计
可重用性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 无监督的中文商品属性结构化方法
来源期刊 软件学报 学科 工学
关键词 结构化 相对不选取条件概率场 Page Rank 基于概率的文法分析 搜索引擎
年,卷(期) 2017,(2) 所属期刊栏目 数据库技术
研究方向 页码范围 262-277
页数 16页 分类号 TP311
字数 15521字 语种 中文
DOI 10.13328/j.cnki.j0s.005018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李战怀 西北工业大学计算机学院 254 2139 21.0 35.0
2 陈群 西北工业大学计算机学院 54 495 11.0 20.0
3 杨婧颖 西北工业大学计算机学院 2 18 2.0 2.0
4 侯博议 西北工业大学计算机学院 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (25)
参考文献  (5)
节点文献
引证文献  (8)
同被引文献  (3)
二级引证文献  (3)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(4)
  • 引证文献(4)
  • 二级引证文献(0)
2019(5)
  • 引证文献(2)
  • 二级引证文献(3)
研究主题发展历程
节点文献
结构化
相对不选取条件概率场
Page Rank
基于概率的文法分析
搜索引擎
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导