互联网网页数量爆炸性地增长, 使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点, 提出一种基于层次特征词权重的文档特征表示方法, 以此为基础, 在网页文档分类时, 通过对网页结构和文本链接分析, 设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明, 对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.