基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网的快速发展,网络日益成为人们查找有用数据的重要手段.由于WWW上的信息很多存储在HTML 页面上,网页分类就显得十分必要.利用各种开源软件,详细设计并实现了一个中文网页分类模型,同时利用元搜索技术实现数据采集,有效地提高了采集的广度和深度.在进行中文分词时利用了专业词库,此方法提高了分词的准确率,在建立VSM时提出了一种基于相似度曲线的网页特征抽取方法,此方法能有效解决特征提取的高维问题,并对提高特征区分度,缩小运算量具有良好的效果.
推荐文章
基于领域向量模型的新闻网页分类算法
领域模型
网页信息模型
网页分类
基于新闻网页主题要素的网页去重方法研究
新闻主题要素
模糊匹配
去重算法
新闻网页自动识别的相关特征研究
新闻网页
特征提取
分类
自动识别
基于语义联系的新闻网页关键词抽取
关键词抽取
词汇链
语义联系
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于相似度曲线的新闻网页分类模型研究
来源期刊 信息技术 学科 工学
关键词 相似度曲线 VSM模型 特征抽取 TF-IDF公式
年,卷(期) 2008,(2) 所属期刊栏目 基金项目
研究方向 页码范围 15-18
页数 4页 分类号 TP393
字数 3912字 语种 中文
DOI 10.3969/j.issn.1009-2552.2008.02.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 孙名松 哈尔滨理工大学计算机科学技术学院 55 355 12.0 15.0
2 陈福 北京科技大学信息工程学院 11 44 3.0 6.0
3 高加旺 哈尔滨理工大学计算机科学技术学院 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (12)
参考文献  (2)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
相似度曲线
VSM模型
特征抽取
TF-IDF公式
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息技术
月刊
1009-2552
23-1557/TN
大16开
哈尔滨市南岗区黄河路122号
14-36
1977
chi
出版文献量(篇)
11355
总下载数(次)
31
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导