搜索
您的当前位置:首页正文

支持向量机修正ARIMA误差的微博热点预测

来源:榕意旅游网
支持向量机修正ARIMA误差的微博热点预测

蒋玉婷

【摘 要】微博热点预测是一类贫信息、小样本、不确定性的复杂预测问题。为了提高微博热点预测精度,提出一种基于支持向量机修正ARIMA误差的微博热点预测模型(ARIMA-SVM)。首先对微博数据进行预处理、提取主题构建网络微博热点时间序列,然后采用ARIMA建立网络微博热点预测模型,并采用支持向量机对ARIMA预测误差进行修正得到微博热点最终预测结果,最后模型性能进行仿真测试。结果表明,相对于传统预测模型,ARIMA-SVM提高了网络微博热点的预测精度,预测结果具有一定实用价

值。%Microblogginghottopicpredictionisthecomplexpredictionproblemwithpoorinformation,smallsampleanduncertainty.In order to improve the precision of microblogging hot topic prediction,we propose a

microblogging hot topic prediction model which is based on correcting residual error of ARIMA by support vector machine (ARIMA-SVM).First,we pre-process the microblogging data and extract themes to construct the time series of microblogging hot topics;then we use ARIMA to build the prediction model of microblogging hot topics, and use support vector machine to correct the prediction errors of ARIMA to get the final prediction result of microblogging hot topics;at last we test the model performance by simulation.Simulation results show that the ARIMA-SVM improves the precision of microblogging hot topic prediction compared with traditional prediction model,and the prediction results has certain practical value.

【期刊名称】《计算机应用与软件》 【年(卷),期】2014(000)009 【总页数】4页(P187-190)

【关键词】网络微博热点;差分自回归移动平均模型;支持向量机;预测 【作 者】蒋玉婷

【作者单位】江苏海事职业技术学院信息工程系 江苏 南京211170 【正文语种】中 文 【中图分类】TP391 0 引 言

微博作为现代通信和技术传播的一种重要的信息流通途径,微博热点分布可能涉及各个领域,具有突发性、直接性和实时性等特点,若不能对网络微博热点进行正确引导和监管,负面网络微博热点会对公共安全产生巨大威胁,因此,准确、提前对网络微博热点发展趋势进行预测,是非常有意义的[1]。

针对网络微博热点预测问题,国内外学者进行大量研究和探索,其中差分自回归移动平均(ARIMA)融合了时间序列分析和回归分析的优点,在网络微博热点预测得到了广泛应用[2,3],但是ARIMA的网络微博热点预测是一种线性建模方法,通常把问题简单化。网络微博热点由于有人的参与,具有时变性、非线性等变化物点,因此传统方法难以建立准确描述网络微博热点变化的预测模型,预测结果精度低,适应范围受限[4]。随着非线性技术的发展,以神经网络为代表的机器理论建模方法在网络微博热点预测中取得了一定的研究成果,获得了较高的预测精度[5]。虽然

神经网络具有较好的非线性预测能力,但存在网络结构难以确定、易陷入局部极小值等缺点[6]。网络微博热点是一类贫信息、不确定性、小样本的预测问题,SVM是一种专门针对小样本的机器学习算法,泛化能力强,成为网络微博热点预测的重要研究方向[7]。对于同一个预测问题,不同预测方法可以提供不同的有用信息,因此为了提高网络微博热点预测精度,一些学者基于组合优化理论,将多种单一预测方法组合在一起,提出许多网络微博热点的组合预测模型,并取得了不错的预测效果[8,9]。

为了提高网络微博热点预测准确性,提出一种支持向量机修正ARIMA误差的微博热点预测模型(ARIMA-SVM),并与其它预测进行了比较实验,结果表明,ARIMA-SVM具有较高的网络微博热点预测精度。 1 网络微博热点的时间序列构建 1.1 微博预处理

微博预处理包括微博筛选和微博排序两个部分。由于所采集到的微博格式复杂多样,并且干扰噪音大,严重影响词频统计,因此要对微博进行筛选。具体为: (1) 去除“@用户名”格式的信息; (2) 去除“#话题名”格式的信息; (3) 去除粉丝数小于阈值T的信息。 微博筛选后需要进行排序,排序方式: (1) 提取微博的时间信息,并按时间顺序排序。

(2) 按一定的数量间隔把微博分为若干组,每一组称为一个窗口比如每300条为一组)。

对每一个词形成一个时间序列,例如对词w,表示成: cw=(Cw(1),Cw(2),…,Cw(k)) (1)

式中,cw(i)=TFw(i),即词语w在第i个窗口内的频率。

由于在微博排序时已经提取了微博的时间信息,统计每个窗口的最早时间与最晚时间,并计算两者之差的一半,记为td,因此每一词语的时间序列可用一个二元组序列表示,如下式所示:

Vw=[((Cw(1),td1),((Cw(2),td2),…,(Cw(k),tdk)] (2)

即每一个窗口内词语w的词频和该窗口的中间时刻组成一个二元组。 1.2 斜率计算

为了及时掌握网络事件的发展趋势,利用斜率对二元组的时间序列进行分析,及早发现疑似热点主题词的演变趋势,从而检测出热点。给定一个时间序列:

Vw=[((cw(1),td1),((cw(2),td2),…,(cw(k),tdk)],利用斜率计算词语w的增长趋势: (3)

式中,tdi的单位为小时。

即计算某个词语的每相邻两个窗口的斜率,如果斜率越来越大或斜率大体上呈现增长的趋势,我们就认为该词语很可能成为热点主题词。 1.3 主题词抽取

通过上述方式可以发现有些词语急速增长,有些词语增长缓慢,甚至增长斜率趋近于零,我们把各个词语的增长速度进行排序,选取增长速度大于阈值T的作为主题词。 1.4 主题词聚类

热点主题词抽取以后,如何将这些主题词进行聚类来得到热点,本文基于词林的相似度和词语出现的上下文两个方面来衡量词语之间的相似度。对于主题词t1、t2,统计每个窗口内同时出现t1、t2的条件概率,即:

(4)

t1、t2同时出现的微博数除以t2出现的微博数则有: Sim(t1,t2)=maxP(t1/t2) (5)

聚类步骤如下:

(1) 采用基于词林的相似度计算方法,对于主题词t1、t2,查找基于词林的相似度,如果两词语基于词林的相似度判定为两词语相似,则继续下一步。

(2) 对于主题词t1、t2,如果Sim(t1,t2)大于阈值T1,这时则认为t1、t2属于同一簇。主题词聚类完成以后,我们可以得到若干个簇,每个簇可能包含一个或多个主题词,并且这些主题词构成一个热点。例如{中国、钓鱼岛、日本}这样的簇,表示描述“中日双方争夺钓鱼岛”的话题。 2 ARIMA-SVM微博热点预测模型 2.1 ARIMA和SVM的组合思想

微博热点受到多种因素影响,经典统计方法已不适用于微博热点预测研究。单纯使用ARIMA或SVM对微博热点进行预测,均难以获较高的预测精度。ARIMA-SVM网络微博热点预测模型的基本思想为:首先,建立ARIMA的网络微博热点预测模型,得到网络微博热点预测的初步预测结果然后根据ARIMA的网络微博热点预测残差构建SVM,最后SVM预测结果对ARIMA的网络微博热点预测进行校正,得到网络微博热点预测最终预测结果,充分发挥ARIMA和SVM的各自优势,进行取长补短ARIMA-SVM结果如图1所示。 图1 ARIMA-SVM的网络微博热点预测模型示意图 2.2 微博热点组合预测模型的工作流程

(1) 采用网络爬行器对网络数据进行抓取,并消除数据中杂质消息,然后将数据保

存起来。

(2) 抽取主题词,通过聚合软件对数据进行聚合,得到网络微博热点的时间序列。 (3) 采用ARIMA模型对网络微博热点进行预测,得到相应的预测结果。 (4) 计算ARIMA模型预测值与实际值的残差。

(5) 确定ARIMA模型预测残差的时延数m,然后将前面m个残差值作为SVM输入向量,实际预测残差作为LVM期望输出,构建SVM学习样本。 (6) 采用遗传算法对SVM参数(γ,σ2)进行优化,建立相应的预测模型。 (7) 通过SVM预测模型获得残差预测值,并对ARIMA预测结果进行修正,得到最终网络微博热点的预测结果。 3 仿真测试 3.1 数据来源

在双核PIV 2.0G CPU,2G RAM,操作系统为Windows XP环境,通过VC++编程实现算法以验证ARIMA-SVM的网络微博热点预测模型的性能。新浪微博是目前国内使用人数最多的微博,由于其巨大的用户参与量,使得突发事件在网络上迅速传播,对突发事件反应非常灵敏,实验数据来自新浪微博上2013年4月的微博数据,人工标注了该段时间内的主要热点话题,包括“雅安地震”,“波士顿爆炸案”,“星跳水立方”,“杜绝镉大米”,“复旦投毒案”和“撒切尔夫人逝世”等6个微博热点。 3.2 数据预处理

为便于加快模型的训练速度,更好地反映网络微博热点变化趋势,对网络微博热点时间序列进行预处理,归一化[0,1]之间,即: (6)

其中,归一化后的数据,min(x)和max(x)分别代表x中的最小值和最大值。

3.3 对比模型及性能评价标准

在相同条件下,选择单一的ARIM、SVM进行对比仿真实验。采用均方误差(MSE)和平均绝对误差百分比(MAPE)作为评价标准。MSE和MAPE定义如下: (7) (8)

式中,n为样本数量;yi为网络微博热点的实际值;为模型的预测值。 3.4 结果与分析

(1) ARIMA的网络微博热点预测

以雅安地震例,说明网络微博热点预测建模过程。雅安地震的微博原始数据自相关函数(ACF)和偏相关函数(PACF)如图2所示。 图2 原始微博热点的ACF和PACF值 图3 微博热点的1阶差分ACF和PACF值

从图2可知,网络微博热点的时间序列数据相关性高,需对其进行差分。发现2阶差分后数据已经基本平稳化,结果具体如图4所示,类此参数d=2,然后逐步确定其它参数,最后ARIMA(2,1,2)作为网络微博热点的最优预测模型。将训练样本集输入到ARIMA(2,1,2)进行建立网络微博预测模型,并采用此模型对训练样本进行拟合值,拟合值与实际值如图4所示。

由图4可知,ARIMA对网络微博热点变化趋势拟合效果一般,拟合精度达到87.24%,高于85%,说明ARIMA可以对网络微博热点基本变化趋势进行刻画,但其无法反映准确描述网络微博热点时变性、非平稳性,拟合精度待进一步提高。 图4 ARIMA对训练集的拟合曲线 (2) SVM对ARIM的残差拟合

首先确定ARIMA预测残差的序列相关维数,从1开始,最后确定其最佳维数为5,即表示前5个时刻的网络微博热数据以当前的网络微博热点状态有影响,采用最佳维数重构数据,然后将训练集残差序列输入到SVM进行学习,并对残差序列进行拟合,然后对ARIMA拟合结果进行修正,得到的拟合结果如图5所示。同时采用SVM对训练集进行拟合,拟合结果如图6所示。 图5 ARIMA-SVM的训练集的拟合结果 图6 SVM的训练集的拟合结果

从图5、6可知,ARIMA-SVM的拟合精度达到98.15%,远远高于ARIMA模型的87.24%和SVM的91.22%,分别提高了10.91%和6.93%,说明ARIMA和SVM进行融合,可以进行优势互补,克服各自的缺陷,提高了网络微博热点的拟合精度,拟合结果初步表明,ARIMA-SVM是一种有效、可行的网络微博热点预测模型,初步验证了将ARIMA和SVM组合在一起进行网络微博热点预测是合理和可行的。

(3) 与ARIMA、SVM的泛化性能对比

评价一个预测模型的好坏,主要考察其泛化能力,不是拟合能力,同时为了说明ARIMA-SVM优越性,采用ARIMA和SVM进行对比实验,结果如图7所示。 图7 几种模型对测试样本的预测结果

同时SVM、ARIMA、ARIMA-SVM对6个网络微博热点的预测误差见表1和表2。从表1和表2可知,单一ARIMA和SVM预测结果与实际值偏差比较大,其误差均比较高,这说明单一模型,难充全面、准确刻画网络微博热点变化趋势,而ARIMA-SVM型结合ARIMA和SVM的优点,克服了单一模型缺陷,不仅能描述网络微博热点的贫信息、小样本的特点,同时能对非线性、不确定性变化规律进行准确预测,更好捕捉了网络微博热点的变化趋势,提高了网络微博热点的预测精度。 表1 各模型的拟合性能对比微博热点

ARIMASVMARIMAMSEMAPEMSEMAPEMSEMAPE雅安地震3.5009.31%1.9086.58%0.7593.48%波士顿爆炸案

3.709.11%1.816.26%0.773.40%星跳水立方5.6314.35%1.816.22%0.763.27%杜绝镉大米7.879.07%1.796.08%0.743.44%复旦投毒案

3.728.08%1.886.11%0.743.39%撒切尔夫人逝世4.639.06%1.886.12%0.753.40% 表2 各模型的预测性能对比微博热点

ARIMASVMARIMAMSEMAPEMSEMAPEMSEMAPE雅安地震36.6710.10%15.165.66%6.263.88%波士顿爆炸案38.688.85%15.175.61%5.813.85%星跳水立方36.958.46%15.585.59%5.894.20%杜绝镉大米37.369.87%16.975.45%5.564.04%复旦投毒案36.619.23%18.115.64%5.964.00%撒切尔夫人逝世36.7112.16%17.905.77%5.974.07% 4 结 语

网络微博热点是一种复杂、时变的系统,具有较大随机性和波动性,对其进行准确预测,有利于网络监督部门及时发现潜在危机,引导网络微博热点向健康方向发展。利用ARIMA和SVM的优点,建立了一种ARIMA-SVM的网络微博热点预测模型。结果可表明,ARIMA-SVM能够对网络微博热点进行准确、有效预测,在网络微博热点管理方面有着广泛的应用前景。 参 考 文 献

[1] 李丹.公民社会视角下中国微博舆情的发展与走向[J].东南传播,2011,12(5):6-8. [2] 何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[J].信息系统,2011,34(11):121-125.

[3] 廉捷,周欣,曹伟,等.新浪微博数据挖掘方案[J].清华大学学报:自然科学

版,2011,51(10):1300-1305.

[4] 石磊,张聪,卫琳.引入活跃指数的微博用户排名机制[J].小型微型计算机系统,2012,33(5):110-114.

[5] 郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测方法[J].计算机科学,2012,39(1):138-141.

[6] 杨冠超.微博客热点话题发现策略研究[D].杭州:浙江大学,2011.

[7] 孙胜平.中文微博客热点话题检测与追踪技术研究[D].北京:北京交通大学,2011. [8] 张邵捷.基于微博社交网络的舆情分析模型及实现[D].广州:华南理工大学,2012. [9] Mario C,Luiqi D C,Claudio S.Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation[C]//MDMKDD 10 Proceedings of the Tenth International Workshop on Multimedia Data Mining,Washington,2010,12:1-10.

[10] Giridhar K,James A.Text classification and named entities for new event detection[C]//SIGIR,2004,10:297-304.

[11] Qi He,Chang Kuiyu,Lim Eepeng.Analyzing feature Trajectories for event detection[C]//Proceedings of the 30th Annual International ACM SIGIR Conference,2007,12:207-214.

因篇幅问题不能全部显示,请点此查看更多更全内容

Top