作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文首先简要介绍了网页清洗技术,然后指出了新闻网页的特征并做了结构分析,在此基础上使用了正则表达式来解析批量新闻网页中的HTML代码,并最终获得新闻文本内容.本文研究所获取的实验数据可以为WEB中新闻的信息检索和挖掘工作服务.
推荐文章
网页清洗系统基于静态正则表达式的实现
网页清洗
,静态正则表达式
Xpressive
基于Bloom filter的高效正则表达式匹配算法
正则表达式
确定有限自动机
布鲁姆过滤器
比特向量
确定字符串
匹配概率
匹配速率
基于正则表达式的协议行为审计技术研究
协议行为审计
正则表达式
协议解析
安全审计
信息安全
面向网络流的自适应正则表达式分组匹配算法
深度包检测
正则表达式
分组
有限自动机
伸展树
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 正则表达式在批量新闻网页处理中的应用
来源期刊 福建电脑 学科 工学
关键词 网页清洗 正则表达式 批量网页文本
年,卷(期) 2008,(3) 所属期刊栏目 应用与开发
研究方向 页码范围 117-118
页数 2页 分类号 TP3
字数 2848字 语种 中文
DOI 10.3969/j.issn.1673-2782.2008.03.072
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (22)
参考文献  (2)
节点文献
引证文献  (2)
同被引文献  (1)
二级引证文献  (3)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(5)
  • 参考文献(0)
  • 二级参考文献(5)
2000(3)
  • 参考文献(1)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2008(1)
  • 引证文献(1)
  • 二级引证文献(0)
2009(2)
  • 引证文献(0)
  • 二级引证文献(2)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
网页清洗
正则表达式
批量网页文本
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
福建电脑
月刊
1673-2782
35-1115/TP
大16开
福州市华林邮局29号信箱
1985
chi
出版文献量(篇)
21147
总下载数(次)
86
总被引数(次)
44699
论文1v1指导