基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近年来自动摘要方面的研究大多是关于多文档和Web网页的,而对网站自动摘要的研究较少.为此,基于主题模型隐含狄利克雷分布(LDA)和网站层次结构提出一个可以自动生成网站摘要的算法.该算法可获取整个网站内的网页信息并进行整合,根据提出的句子权重公式计算句子权重,选取权重最高的句子作为网站摘要.以20个商业和学术网站作为实验对象,使用ROUGE评测标准,结果表明,与仅使用主题模型LDA获取的网站摘要相比,不带停用词的ROUGE-1和ROUGE-L提高 0.32,带停用词的ROUGE-1提高0.39,ROUGE-L提高0.38.与网站首页摘要相比,不带停用词的ROUGE-1提高 0.03,ROUGE-L提高0.06,带停用词的ROUGE-1提高 0.08,ROUGE-L提高0.07.
推荐文章
“主题网站”在物理教学中应用的设想
主题网站
设想
资源整合
基于LDA重要主题的多文档自动摘要算法
多文档摘要
主题模型
重要主题
基于网页结构的网站无障碍抽样方法
网站可达性
网站测试
网页结构
网页评估
采样方法
网页抽样
基于隐马尔可夫模型的电子商务网站结构优化
隐马尔可夫模型
访问序列
目标商品
网站结构优化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于网站层次结构和主题模型LDA的网站自动摘要
来源期刊 计算机工程 学科 工学
关键词 Web网页 网站自动摘要 隐含狄利克雷分布 网站层次结构 宽度优先搜索
年,卷(期) 2017,(4) 所属期刊栏目 人工智能及识别技术
研究方向 页码范围 207-211,216
页数 6页 分类号 TP18
字数 4484字 语种 中文
DOI 10.3969/j.issn.1000-3428.2017.04.035
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 顾君忠 华东师范大学计算机科学技术系 158 1926 22.0 37.0
2 杨静 华东师范大学计算机科学技术系 46 388 9.0 17.0
3 李舒嫒 华东师范大学计算机科学技术系 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (24)
参考文献  (8)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1958(2)
  • 参考文献(2)
  • 二级参考文献(0)
1969(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Web网页
网站自动摘要
隐含狄利克雷分布
网站层次结构
宽度优先搜索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
论文1v1指导