基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信患,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.
推荐文章
一种自动抽取Web数据对象的方法
数据抽取
信息检索
Web挖掘
知识获取
基于Web Service的数据抽取研究与设计
Web Service数据抽取
抽取线程
数据库
基于WEB的数据抽取及应用实例
基于WEB
数据抽取
XML
实例
基于 XML的Web数据抽取模型研究
KDW
XML
Web数据抽取
语义Web技术
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Web数据反馈的搭配抽取方法
来源期刊 哈尔滨工业大学学报 学科 工学
关键词 搭配 共现频率 互信息 卡方检验 语料库 Web
年,卷(期) 2010,(2) 所属期刊栏目
研究方向 页码范围 281-285
页数 5页 分类号 TF391
字数 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (20)
共引文献  (26)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(4)
  • 参考文献(1)
  • 二级参考文献(3)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
搭配
共现频率
互信息
卡方检验
语料库
Web
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
哈尔滨工业大学学报
月刊
0367-6234
23-1235/T
大16开
哈尔滨市南岗区西大直街92号
14-67
1954
chi
出版文献量(篇)
7855
总下载数(次)
10
总被引数(次)
88544
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导