基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影响,提出了一种基于特征项与类别间相关性的TFC-IDFC权重计算方法,并与传统的TF-IDF权重计算方法进行比较,通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC-IDFC权重使得分类模型的分类能力更好。
推荐文章
一种改进TF-IDF的中文邮件识别算法研究
TF-IDF算法
邮件识别
卡方统计量
权重分配
邮件分类
仿真分析
基于TF-IDF改进聚类算法的网络敏感信息挖掘
TF-IDF
聚类分析
网络敏感信息
信息挖掘
结合改进的CHI统计方法的TF-IDF算法优化
文本分类
CHI统计
TF-IDF算法
特征选择
基于行业专有词典的TF-IDF特征选择算法改进
行业专有词典
TF-IDF
特征空间
特征选择算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark和改进的TF-IDF算法的用户特征分析
来源期刊 软件工程 学科 工学
关键词 Spark 用户特征 贝叶斯 分类 TF-IDF
年,卷(期) 2016,(10) 所属期刊栏目 方法与技术
研究方向 页码范围 9-14
页数 6页 分类号 TP391
字数 5791字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王占刚 天津工业大学计算机科学与软件学院 18 56 4.0 7.0
2 张舒雅 天津工业大学计算机科学与软件学院 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (3)
参考文献  (12)
节点文献
引证文献  (6)
同被引文献  (15)
二级引证文献  (2)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(3)
  • 参考文献(2)
  • 二级参考文献(1)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(7)
  • 参考文献(7)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(4)
  • 引证文献(4)
  • 二级引证文献(0)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Spark
用户特征
贝叶斯
分类
TF-IDF
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件工程
月刊
2096-1472
21-1603/TP
大16开
辽宁省沈阳市浑南新区新秀街2号
8-198
1985
chi
出版文献量(篇)
5636
总下载数(次)
15
论文1v1指导