搜索
您的当前位置:首页正文

基于时间序列演变分析的有效相似性定义和聚类

来源:榕意旅游网
维普资讯 http://www.cqvip.com

Compuier , neering alT 0d Applic(uions计算机工程与应用 基于时间序列演变分析的有效相似性定义和聚类 周原冰,左新强,顾杰,赵春晖 ZHOU Yuan—bing,ZUO Xin—qiang,GU Jie,ZHAO Chun—hui 国网北京经济技术研究院,北京100761 Slate Power Economic Research Institute,Beijing 100761,China E—mail:zhouyc anbing@chinasperi.com.cn ZHOU Yuan-bing,ZUO Xin—qiang,GU Jie,et a1.Effective similarity definition and clustering through time series evolution analysis,.Computer Engineering and Applications.2008.44(10):138-141. Abstract:Tirre series is one of the most widely—usIIlf data in business zpplications.e.g.power load sequence.web log etc.h is Verv important to mine time series for supporting deeisioll—making.Especially.determining the similarity of time series plays a key part in various problems.e.g.analyzing the features of eletrieity demand for each district.The previo ̄managing and mining data,hardly or do not enough use the e ̄olution ̄methods.in the content of ialty of time series to measure similarity.This paper proposes an unexplored and effective approach based on evolution analysis cf time series,and this approach quantifies the evolution trend to eonstru ̄effective similarity definition,tenned Similarity with Evolution Analysis (SEA).The clustering strategy based on SEA is also provided.The superior experimental results of compared methods on l eal data sets demonstrate the effectiveness of the method proposed,and thus imply the important significance cf evoltion analysisu for similarity measure()f tirre series. Key words:tirr e series;similarity definition;evolution analysis;clustering 摘要:时间序列广泛存在于商业应用中,比如电力负荷序列、网络日志等 挖掘时间序列数据对决策分析非常重要,特别地,决定 时间序列的相似性在各种实际问题中起关键的作用,比如分析各个区域的电力需求特征。以前的相似性度量方法从未使用过演变 这种特性去度量时间序列的相似性,基于演变分析提出了有效的时间序列相似性度量方法(SEA),该方法通过量化演变趋势构建 了有效的相似性定义,并且提出了基于该方法的聚类策略. 通过在实际数据集上和其它方法的实验比较,证明了提出方法的有效 性,因此也证明了时间序列演变分析对相似性度量的重要意义。 关键词:时间序列;相似性定义;演变分析;聚类 文章编号:1002.一833l(2008)10—0138—04 文献标识码:A 中图分类 :TP391 41 1前言 时间序列作为一种有时问标志的数据类型,在各种领域中 都有应用,如电力负荷序列、股票数据、传感器数据、室内温度 数据、人口数据等。对于时问序列数据管理和挖掘系统来说,相 似性定义是一个基本的需求,它决定了范围查询和KNN(K— Nearest Neighbor)查询的返回结果,同时严重地影响分类和聚 类等应用的精度,因此吸引了大量的研究工作者设计有效的相 似性定义(或者是距离公式)。在相关的搜索和数据挖掘领域, 如下: (1)时间序列 和l,的相似性描述了x演变为y的概率 (或者y演变为x); (2) 的演变具有方向和大小,也就是说 的每一维具有 不同的变化权重,在有些方向上, 不能到达; (3)在某一时刻,数据的演变趋势可以通过下一时刻的数 值得到。 由于演变趋势是时问序列所固有的本质,凶此如果一个时 问序列演变为另一个的概率很大,那么它们就具有相似的本 质,这是使用演变分析来度量时问序列相似性的核心思想。明 显地,在某个确定的潜在规则下,将一个给定的时问序列变为 一以前的方法大多数将时间序列直接作为高维数据来度量,但是 都没有涉及到时间序列的本质的演变特性,这种特性描述了一 个变量随时间变化的趋势,比如每天的股票价格。 演变分析已经研究了很多年…,然而没有任何工作通过时 个随机的序列(潜在随机变化)几乎是不可能的,除非这个规 则是完全随机的,一般来说,任何时 序列的变化都具有一定 间序列的本质演变去提高相似度量的效果,在本文中,提出了 一个新的基于演变分析的时间序列相似性定义,主要的思想 的限制,比如每天的温度几乎不可能高于60 ̄C,所以时间序列 作者简介:周原冰(1971一),男,高级工程师,主要研究领域为电力信息资源管理与决策支持、电力经济技术分析等;左新强(1982一),男,硕士,主 要研究领域为数据挖掘、数据库;顾杰(1983一),硕士,主要研究领域为数据挖掘;赵春晖(1974一),女,高级工程师,主要研究领域为软 件工程。 收稿日期:2007一-C7—2.3 修回f1期:2007—10—24 维普资讯 http://www.cqvip.com 周原冰,左新强,顾 杰,等:基于时间序列演变分析的有效相似性定义和聚类 ———————=;==========——————=;====2 ==—————;=;===== ==—————==== ——————;==== = —————====一一2008.44(1O) 139 == =—————==一, 的演变是具有一定规则或者限制的。提出的方法使用方向和大 小量化地描述演变趋势,它们由时间序列在所有维度上的变化 权重以及分布决定,时间序列中随时问连续变化的值满足分析 趋势的需求,因此使用连续的值来判断前一时刻的演变趋势。 步骤1映射:一个长度为n的时问序列被映射到n一1维 的空间中; 步骤2演变趋势分析:用一个向量去表示时间序列的演 变趋势; 在提出的方法中,首先用一个映射的方法将时间序列转换 为一个向量,该向量在高维空间中有一个起始点代表数据本 身,它的方向和模代表其演变的方向和大小,则在其它方向上 演变的大小可以通过投影来计算得到。时间序列 和l,的相 步骤3相似性距离:设汁一个有效的公式去计算两个时 间序列的距离。 3.1演变趋势映射 X=x ,…,‰表示一个时间序列,其中每个值鼍对应一 个时间点,X[il=x 表示在第 个取样时问点上的值,IXI=n表示 时间序列 的长度为n,映射过程通过以下步骤完成: 似性距离是由 的演变向量在 一墨方向上的投影和它们之 问空间距离决定的,其中鼍和 分别是 和l,映射向量。基 于相似性定义,又提出了一个有效的聚类方法,最后,给出了实 验,结果汪明了提出方法的有效性。本文的主要贡献主要包括: (1)在演变分析和时间序列相似性定义之间构建了一个有 意义的连接; (2)通过量化时序数据的演变趋势,设计了一个基于演变 分析的有效相似性度量; (3)提出了一个有效的聚类方法。 2相关工作 近些年,在时间序列研究方面,有很多的工作和成果,如时 问序列的分类I”I、聚类 sI、变化监测l】UI、降维等I - I。在这些应用 中,相似性度量是一个基本的过程,而且对系统的性能有很大 影响。欧式距离(Euclidean Distance)是最流行的度量方法,因 为它简单而且快速,并且能够支持各种索引技术,然而它不能 处理局部的时间弯曲,这对时间序列度量方法的可用性是非常 重要。BerndtI ’等提出用DTW(Dynamic Time Warping)去度量 时间序列的形似性,它允许时间轴上的弯曲,但是它对噪音很 敏感,主要是由于它的连续弯曲路径造成的;LCSS(Longest Common Subsequence)具有抗噪音能力,但是由于不同的间隔 存在于相似的形状中,造成了度量时的不准确『 ;近来,Lei等分 别提出了ERP(Edit distance with Real Penalty)151和EDR(Edit Distance on Real sequence)161来度量多维时间序列的相似性, ERP对噪音也很敏感,EDR虽然不满足三角不等式,但是给出 了一个近似的三角不等式。近期,Megalooikonomou等提出了一 种时间序列的多分解表示方法,并使用多层直方图模型来度量 新的表示之间的距离1 I,Vlachos等通过萃取的周期特征来度 量相似性,而不是时间点上的数值。在相似性度量之前,有一个 简单但是非常重要的预处理,就是归一化I I,它是为了去除时 问序列上值的绝对大小对相似性度量的影响 。 虽然已经提出了多种相似性度量方法来提高效果,但是度 量的结果还是要依赖于数据和任务本身,造成很多方法在实际 中不可用,这主要是因为以前的方法从未考虑过数据的本质特 征,也就是说它们的度量过程和数据本身是无关的。演变分析 是一种发现事物发展规律或者趋势的技术,可以被用来分析时 间序列的本质趋势…I。本文通过将的演变分析引入到度量过程 中来提高相似性度量的效果。 3基f演变分析的相似性:SEA 通过估计时间序列之间的演变概率,提出的方法SEA设 计了全新的度量机制,其中演变概率是通过时间序列的演变趋 势和普通的距离公式计算得到的。方法的主要步骤包括: (1)X被映射为n一1维空间中的点,定义为 =( …, .)(or )。这个简单的过程主要是为了保留原始序列的静态 信息,它定义了演变的基本点,也就是开始点。 (2)演变向量被形式化地定义为 =( 一 X3-X ,…,%一 )。这一步使用一阶差分来描述 的趋势,考虑时问序列的 意义, 正是 的下一个抽样值,因此使用Xi+1-X 来描述鼍的 动态趋势是有道理的。在SEA中,使用 来表示 拥有最大 演变概率的方向,也就是说 最容易向这个方向演变,然后, 通过在某个方向映射来得到 在下一个时问点向该方向演变 的概率。 (3)X被表示为一个特殊的向量,定义为 =( , ),它拥 有一个确定的起始点 ,而不允许平移,x 的方向和模定义为 的方向和模。事实上, 的结束点就是( … ),也就是 在下一个时刻的值。 以上的定义可以通过以下的例子说明: =(4,5,6,7)的长 度等于4,然后 将被映射到三维空问中,其中 =(4,5,6), X=(1,1,1)。 3.2演变相似性距离 在给定时间序列的岸边趋势映射后,本节将定义两个序列 问的演变相似性距离(Evolution Similarity Distance,ESD)。给 定两个时问序列 和】,,长度均为n,通过以下三步来计算它 们之间的相似性(或者说不相似性),如图I所示。 =墨 其中 ・( — )表示 和( — )的叉积,I — I是( —X) 的模。 (3)计算X和y、的空问距离,记为d( , ),其中d是欧 维普资讯 http://www.cqvip.com 140 2008,44(10) Computer E, neering and Applications计算机工程与应用 HAC)ix‘的,首先,两种时问序列关系定义如下: 定义2可达眭。假如Er>0,则定义为 是可达y的,否 则,X是不可达l,的。 定义3连通性。假如x是可达l,的或者y是可达x的 (E:>0或者E >0),则定义为 和y是连通的,否则它们是不 连通的。这个关系满足对称性,但是不满足传递性,可以通过以 下的例子征 j: =(0,0,1),则X=(0,0), =(0,1); =(2,1,1),l』{0 y‘= (2,1), =(一1,0); (3,4,4),则z =(3,4), =(1,0)那么可以 O<0 ̄ d6)> 假如@是可导的,则以上属性可以被描述为dda得到,E:>0,E。>0,但是E <0且E <0,根于居连通性的定义,虽 然x和y连通,x和z连通,但是y和z是不连通的 不同于普通的层次聚类,提出的聚类策略中增』Ju了以下 约束: 聚类约束:在聚类凝聚过程L}l,x可以被分到类C L}l,仅 C中至少有一个时 序列和x连通。 那么可以通过i;芝置不连通的序列 的距离为无穷大( ) 来的得到新的层次聚类算法, 为无限的距离存在f聚类过 6 56.0、+ 置f.  ,●‘。5 5 X , 、/ /l 程中,则需要重新设汁方法去汁算类之问的距离以及聚类结 束条件。首先定义两个类之间的连通度(Connective一1)egree, 、 I V 、、 ConnD),给定两个类 = .,A ,…, 和B=B., ,…, ,其I}J A,(1≤i≤n)和B (1<-j≤m)是类中的时问序列,I1币¨in分别是 类 和类 的大小,!J!lj 和 的连通度定义如下: ConnD A B )= .一、  |一(.)(: I' ’ al。1【 — — 一 一 。 i}。(3) () nx,n 要汁算两个类之间的距离,需要度量两个I大J素,丰要包括 连通度(Connective—Degree,ConnD)和一般化距离(General— 6.0 5 . 5 5 、 x X,/Ai/ Distanoe,GenD),其中GenD的计算和普通的HAC中的类 距 基本相似,比如最小距离、最大距离、完全距离和平均距离。给 定类A、B、C和D,通过以下方法,比较 、 和c、D的类 距(CDistanee),找到距离较小的两个类,在聚类过程中将它 们合并: (1)CDisttance(A,B)<CDistance(C,D),假如ConnD(A,B)> ConnD(C,D)或者ConnD(A,B)=ConnD(C,D)而且Gen1)(A,B)< GenD(C,D); 5、、\、一| 一 一‘4 一j 一一一 一。 (2)C1)isttance( ,B)=CDistanee(C,D),假如ConnD(A,B)= ConnD(C.D)^GenD(A,B)=GenD(C,D) . 也就是说,汁算类间距的时候,ConnD比GenD的优先级高;此 外,汁算GenD时,取消遇到的无限距离(两个时 序列是不连 通的),以便得到有限的结果。在聚类中,为了满足提出的聚类 约束,除了传统HAc的类数和最大距离外,增』Ju了新的结束条 件如下: 新的聚类连通性结束条件:对于当前任意的两个类 和 B,Conn(A,B)=0。 完整聚类算法(使用类数作为结束条件之一)如下: Func ti 基于SEA的层次距离算法 输入:T,n, ;//T是包含所有时『日J序列的集合 是71的大小; 是预没的类数 输出:{c ,C!,…, )//c 是第i个类,m≥ 1.f0r 1: 2. 3.end 初始化C { liT,是丁中第i个序列 4whil , > 维普资讯 http://www.cqvip.com

周原冰,左新强,顾 杰,等:基于时间序列演变分析的有效相似性定义和聚类 2008.44(10) 141 5. 汁算两两类之问的GonnD和GenD 6. if(连通性结束条件满足) 7. return当前的类集合 8. else 9. 合并CDistance最小的两个类 l0. n ̄/2-l l1. end l2.end 13.return当前的类集合 5实验评价 在本章中,通过聚类实验(clustering)来测试提出的方法和 其他方法的性能,公用的实际数据集被用在测试中。 5.1实验框架 比较的方法主要有:欧式距离(ED)、DTW、LCSS、EDR以 及本文提出的方法SEA。 实验数据:TEMP是一个温度数据集 ,包括美国30个地 方2000年的温度,每一个时问序列代表一个地方366天的温 度变化,根据地理位置30个时问序列被分为4类,作为度量标 准结果。 评价方法:凝聚的层次聚类用来实现其它方法的聚类实 验,其中簇间距使用完全距离(complete distance)计算,使用一 种常见方法来度量聚类的精度,给定每个方法的聚类结果c = c ,c: ,…, 和从先验的分类信息中得到的标准结果C=C , c ,…, ,则聚类精度可由以下公式计算[sl: sj (Ci, maxjSilll(Ci,G ) Sim(C。C )= Sim(C ,C)的汁算和Sim(C,C )类似,因为Sim(C,C )和 Sim(C ,C)不对称,故都被作为最终结果。 5.2实验结果 图3给出了在TEMP数据集上的聚类结果,从图中可以看 出,SEA的精度比其它方法都要高,这说明了提出的方法能够 更准确地度量时问序列的相似性,进一步表明了演变分析对时 间序列度量和聚类的重要提高。 l剞3聚类精度比较 6 结论和总结 本文通过研究演变分析,提出了有效的时问序列相似性定 ilttp://www.esee.umbe.edu/ ̄kalpakis. 义,量化了演变趋势,将每一个时间序列转换为一个向量,该向 量表示了演变的方向和大小。通过将时间序列的演变向量映射 到指向其它序列的方向,给出了新的相似性度量公式,并且提 出了基于该方法的新的聚类策略。通过在真实数据集上的实 验,结果证明了提出方法的有效性,因此也证明了演变分析对 构建有力的相似性度量方法的重要性。 参考文献: 【1]Gustavo D,Bernd s.Learning time series evolution by unsupervised extraction of correlations[J]、Physical Review E,l995,5l(3):l780— 1790. 【2]Agrawal R,Faloutsos C,Swami A N.Effcient similarity search in sequence databases[C]//International Conference of Foundations of Data Organization and Algorithms,Chicago,IlLinois,1993:69—84. [3]Bagnall A J,Janacek G J.Clustering time series from arma models with clipped data IC]//ACM Intemational Conference on Knowledge Discovery and Data Mining,Seattle,2004:49—58. 【4]Berndt D J,Clifford J.Using dynamic time warping to find patterns in time series【c]//AAAI Workshop on Knowledge Discm eD,in Database,Washington,l 994:359—370. [5]Chen Lei,Ng R.On the marriage of 11,norms and edit distance[C]// International Conference on Very Large Data Bases,Toronto,2004: 792-803. [6]Chen Lei,Tamer Ozsu M,Oria V.Robust and fast similarity search for moving object tra_jectories[c],/AcM SIGMOD International Con- ference on Management of Data,Baltimore,Maryland,2005:49l一502. 【7]Gautam Das,Dimitrios Gunopulos,Heikki Mannila Finding similar time series【c]//European Symposium on Principles of Data Mining and Knowledge Discovery,London,1997:88—100. 【8]Gavrilov M,Anguelov D,Indyk P,et a1.Mining the st()ck market: which measure is best?[C]//ACM International Conference on Knowledge Discovery and Data Mining,Boston,2000:487-496. 【9]Goldin D Q,Kanellakis P C.On similarity queries for time—series data:constraint specification and implementation[C]//Intemafiona] Conference on Principles and Practice of Constraint Programming, Cassis,France.1995:l37一l53. [10]Valery Guralnik,Jaideep Srivastava,Event detection from time se— ries data[C]//ACM International Conference on Knowledge Discov—— cry and Data Mining,New York,1999:33—42. [1 1]Han Jia—wei,Kamber M,Data mining concepts and techniques[M]. CA:Morgan Kaufmann Publisher,2000. [12]Chakraba ̄i K,Keogh E,Mehrotra S,et a1.Locally adaptive dimen— sionality reduction for indexing large time series databases[J1l ACM Trans Database Syst,2002.27(2):188-228. 【13]Lee S L,Chun S J,Kim D H,et a1.Similarity search for muhidi~ mensional data sequences【c1,/IEEE International Conference on Data Engineering,2000:599—608. [14]Megalooik(momou V,Wang Q,Li G,et a1.A multiresolution svm— bolic representation of time series[CJ//Proceedings of the 2 I st In— ternational Conference on Data Engineering,Washington,DC:1EEE Computer Society,2005:668—679. [15]Vlachos M,Yu P S,Castelli V.On periodicity detection and sturctural periodic similarity[C]//SIAM International Conference on Data Mining,Newport Beach,CA,2005 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top