基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对农业网页中汉字编码标识混乱的情况,提出了一种综合运用编码规则和网页文本特征的字符编码识别模型。利用卡方检验算法,结合最小二乘多元线性回归方法,得到了基于网页文本特征的字符识别模型。实验结果显示,在适当的选取阈值(r =1,阈值=属于某一编码的字符数/网页总字符数)和文本特征数(≥65)的基础上,模型准确率达到100%,且结果稳定。
推荐文章
中文农业主题搜索引擎的设计与实现
搜索引擎
网络蜘蛛
农业信息资源
主题相关性
Web中文搜索引擎研究
搜索引擎
信息检索
互联网
网络信息量
中文搜索引擎缺陷之我见
中文搜索引擎
分词技术
蜘蛛程序
列表式查询
关键词查询
中文农业信息垂直搜索引擎的设计与实现
垂直搜索引擎
农业信息
主题识别
页面排序
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 中文农业搜索引擎字符编码识别
来源期刊 新疆农业大学学报 学科 工学
关键词 编码识别 卡方检验 多元线性回归 GB2312 Big5
年,卷(期) 2014,(5) 所属期刊栏目
研究方向 页码范围 420-423
页数 4页 分类号 TP391.3
字数 2422字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张太红 新疆农业大学计算机与信息工程学院 74 332 9.0 15.0
2 白涛 新疆农业大学计算机与信息工程学院 16 30 3.0 4.0
3 吴乃宁 新疆农业大学计算机与信息工程学院 5 4 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (216)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(3)
  • 参考文献(2)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
编码识别
卡方检验
多元线性回归
GB2312
Big5
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
新疆农业大学学报
双月刊
1007-8614
65-1173/S
大16开
新疆乌鲁木齐市农大东路311号
1965
chi
出版文献量(篇)
1861
总下载数(次)
2
总被引数(次)
19231
论文1v1指导