更新时间:05-22 上传会员:课代表
分类:工商管理 论文字数:17865 需要金币:1000个
摘要:随着互联网的发展,信息技术的普及和 Web2.0 时代的到来,互联网已经成为人们生活中不可或缺的一部分。人们可以通过互联网进行一系列的网络活动,比如即时通讯,上网冲浪,获取信息,传播消息以及表达情感。微博作为最有影响力的社交平台,已经成为互联网热点信息传播以及获取的最重要的平台。用户们可以通过微博这个平台获得自己感兴趣的话题信息。通过对微博平台上海量信息的搜集、分析和整理挖掘,可以获得在某个时间段空间范围内微博用户们最感兴趣的热门话题以及这个热门话题的发展趋势。发现热点话题不仅可以及时的明了微博用户最为感兴趣的热点话题,而且能够更好的应付一部分紧急事情,这对掌控舆情的方向都很重要。
本篇论文首先介绍了互联网热点话题挖掘的现状,然后研究了微博信息的特点以及微博用户的组成结构和话题传播的模型特点。在数据挖掘相关的概念以及微博平台信息的特点基础上,先介绍了海量信息的获取和处理方法,网络爬虫和微博开放 API 方法,通过这两个信息获取方法获取到数据信息后,接着对数据进行预处理:分词、过滤以及去除停用词等。着重介绍了一个词频计算方法和三个热点话题发现方法,即 TF-IDF 方法,Single-Pass 聚类算法,LDA 模型算法以及 Single-Pass 聚类算法与 LDA 模型算法相结合的算法。通过研究前三个方法,每个方法都有各自的优缺点,要么是文本信息的变化会导致结果不准确,要么是阈值的选取还没有明确的规定,要么是运算过程复杂,最后将 Single-Pass 聚类算法与 LDA 模型算法相结合,取长补短,先用 Single-Pass 聚类算法对所获取的数据进行聚类分析,接着使用 LDA 模型算法来运算经过聚类分析后获得的簇,最终获得想要的热点话题。这种算法比 Single-Pass 聚类算法得出的结果更为准确,比 LDA 模型算法得出的结果更简便。
关键词:微博;热点话题;TF-IDF 方法;Single-Pass 聚类算法;LDA 模型
目录
摘要
Abstract
第一章 绪论1
1.1论文研究背景及意义1
1.2 研究现状和分析.3
1.2.1国外研究现状分析.3
1.2.2国内研究现状分析.4
1.3本文的研究内容5
1.4本文的组织架构5
第二章相关理论知识.6
2.1数据挖掘6
2.1.1数据挖掘概述.6
2.1.2聚类方法分析.7
2.2微博简介9
2.2.1微博的发展历史9
2.2.2微博的基本功能和特性10
2.2.3微博的用户关系结构以及传播模型.10
2.2.4微博热点话题与话题热度概述.13
2.3本章小结13
第三章微博热点话题数据获取技术.14
3.1数据获取的方法14
3.1.1网络爬虫方法.14
3.1.2微博开放 API 方法.16
3.2数据预处理17
3.2.1分词.17
3.2.2信息过滤处理.18
3.3本章小结19
第四章 微博热点话题的发现技术.20
4.1TF-IDF 方法.20
4.2Single-Pass 算法21
4.3 LDA 模型算法22
4.4Single-Pass 与 LDA 模型结合算法24
4.5 本章小结.25
结束语26
总结26
展望27
致谢28
参考文献29