原文服务方: 科技与创新       
摘要:
本文介绍了一种新的基于c++模板技术实现的正则表达式引擎:Xpressive.并通过应用Xpressive技术中的静态正则表达式来实现网页清洗.该实现有效的避免了传统方法分析网页DOM树算法复杂不易实现的缺点,在保证算法简单和结果正确的同时,还以测试数据证明应用静态正则表达式运行速度上的优势.
推荐文章
基于Bloom filter的高效正则表达式匹配算法
正则表达式
确定有限自动机
布鲁姆过滤器
比特向量
确定字符串
匹配概率
匹配速率
基于正则表达式的协议行为审计技术研究
协议行为审计
正则表达式
协议解析
安全审计
信息安全
面向网络流的自适应正则表达式分组匹配算法
深度包检测
正则表达式
分组
有限自动机
伸展树
面向高效深度包检测的启发式正则表达式分组算法
深度包检测
正则表达式
分组算法
确定型有限自动机
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 网页清洗系统基于静态正则表达式的实现
来源期刊 科技与创新 学科
关键词 网页清洗 ,静态正则表达式 Xpressive
年,卷(期) 2007,(36) 所属期刊栏目 软件时空
研究方向 页码范围 226-227
页数 2页 分类号 TP393.09
字数 语种 中文
DOI 10.3969/j.issn.1008-0570.2007.36.089
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李众立 西南科技大学计算机应用与科学学院 71 490 12.0 19.0
2 赵仁杰 西南科技大学计算机应用与科学学院 1 10 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (13)
参考文献  (2)
节点文献
引证文献  (10)
同被引文献  (19)
二级引证文献  (61)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2007(1)
  • 引证文献(1)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(5)
  • 引证文献(3)
  • 二级引证文献(2)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(15)
  • 引证文献(2)
  • 二级引证文献(13)
2013(5)
  • 引证文献(0)
  • 二级引证文献(5)
2014(9)
  • 引证文献(1)
  • 二级引证文献(8)
2015(11)
  • 引证文献(0)
  • 二级引证文献(11)
2016(10)
  • 引证文献(0)
  • 二级引证文献(10)
2017(5)
  • 引证文献(1)
  • 二级引证文献(4)
2018(4)
  • 引证文献(0)
  • 二级引证文献(4)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
网页清洗
,静态正则表达式
Xpressive
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
科技与创新
半月刊
2095-6835
14-1369/N
大16开
2014-01-01
chi
出版文献量(篇)
41653
总下载数(次)
0
总被引数(次)
202805
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导