基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
伴随着信息技术的不断发展,电子文本信息日益增多,文本自动分类作为处理海量文本信息,方便用户准确搜索所需信息的关键技术,其应用十分广泛。本文从提高分类准确率的角度出发,以《铁路工程地质勘察规范》(TB1002-2007)的电子文本文档为训练标准,运用自然语言处理的分词原理对文本文档进行计算机与人工结合分词,然后针对文本文档的分词结果进行特征降维技术处理,对词条计算词频后,根据词频大小筛选出词频较高的词语作为最终的地质勘察语料库,该语料库包含了地质专业相关术语。最后利用机器学习对分词后的文本文档进行自动分类,在对比多种分类算法的分类结果后,本文发现针对地质勘探数据类别不平衡性,选择K近邻分类器对文本文档分类的效果较为理想。
推荐文章
浅谈工程地质勘察工作
工程地质
勘察工作
勘察报告
工程地质勘察中岩土水文地质研究
地质勘察
岩土
水文地质
工程地质勘察研究与地质灾害防治
工程建设
地质勘察
地质灾害
灾害防治
工程地质勘察中水文地质问题的探讨
工程地质勘察
水文地质
地下水
岩土层
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 工程地质勘察文本的分类研究
来源期刊 统计学与应用 学科 工学
关键词 文本自动分类 自然语言处理 特征降维
年,卷(期) 2019,(4) 所属期刊栏目
研究方向 页码范围 589-597
页数 9页 分类号 TP39
字数 语种
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本自动分类
自然语言处理
特征降维
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
统计学与应用
双月刊
2325-2251
武汉市江夏区汤逊湖北路38号光谷总部空间
出版文献量(篇)
512
总下载数(次)
3
总被引数(次)
0
论文1v1指导