基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
准确提取网上信息报道的最早发布时间,对于使用计算机辅助的社会科学研究来说具有重要价值.数据表明,有40%的信息报道无法从网页中直接提取出文章发布时间,此时,如果单纯依靠搜集时间和HTTP协议提供的网页文件最后修改时间信息来估计文章发布时间,就会造成较大误差.提出了两种能够提高计算精度的方法:链接分析法和拷贝分析法.大数据量实验表明,这两种方法具有很小的出错概率,是切实可用的.其中,链接分析法能够在一定程度上减少计算误差.而拷贝分析法则具有决定性的作用.当一篇信息报道能在网上找到多个拷贝(转载)时,就会有很大的概率准确推断出该报道在网上的最早发布时间.
推荐文章
浅谈移动互联网上的网络文化新现象
网络文化
移动互联网
赫胥黎
互联网
探析"互联网+"背景下地方电视新闻深度报道
互联网+
地方电视新闻
深度报道
互联网时代新闻报道新思维
互联网时代
传统新闻媒体
开创新思维
顺应互联网时代趋势
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 互联网上信息报道的最早发布时间检测
来源期刊 计算机科学与探索 学科 工学
关键词 文章发布时间检测 网络信息挖掘 网页内容分析 文本消重
年,卷(期) 2009,(1) 所属期刊栏目 综述·探索
研究方向 页码范围 51-59
页数 9页 分类号 TP393.09
字数 10026字 语种 中文
DOI 10.3778/j.issn.1673-9418.2009.01.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张燕 北京大学信息科学技术学院 107 1361 18.0 34.0
2 李晓明 北京大学信息科学技术学院 127 2603 27.0 49.0
3 黄连恩 北京大学信息科学技术学院 2 9 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (8)
参考文献  (4)
节点文献
引证文献  (6)
同被引文献  (8)
二级引证文献  (8)
1986(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2009(2)
  • 引证文献(2)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(2)
  • 引证文献(1)
  • 二级引证文献(1)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(0)
  • 二级引证文献(3)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文章发布时间检测
网络信息挖掘
网页内容分析
文本消重
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导