基金项目:国家科技支撑计划项目专题五(2012BAK19B04-05)资助.
(1.中国地震局兰州地震研究所,甘肃 兰州 730000; 2.山东省地震局,山东 济南 250014; 3.山东女子学院,山东 济南 250300)
(1.Lanzhou Institute of Seismology,CEA,Lanzhou 730000,Gansu,China)(2. Earthquake Administration of Shandong Province,Jinan 250014,Shandong,China)(3.Shandong Women's University,Jinan 250300,Shandong,China)
seismic sequence; SVM; statistic pattern recognition; sequence type; early prediction
备注
基金项目:国家科技支撑计划项目专题五(2012BAK19B04-05)资助.
在Matlab环境下,通过构造SVM,建立地震序列特征参数与序列类型之间的一种非线性映射关系对地震序列类型进行早期分类预测。依据我国1970年以来的MS≥5.0地震序列资料,使用SVM对震后1、2、3、5、7天5个时间尺度的地震序列类型进行早期预测,识别效果较好,处理速度快,具有较强的实用性。
In the environment of Matlab, we construct Support Vector Machine(SVM)to build a kind of nonlinear mapping relationship between seismic sequence characteristic parameter and sequence type, and do the early predictions of earthquake sequence types. On the basis of MS≥5.0 earthquake sequences in China since 1970, we divide the data in 5 time scales according to one, two, three, five and seven days after the earthquake and apply the SVM to the early predictions of earthquake sequence types. The results show that it achieves good recognition and fast processing speed, and has a strong practicability.
引言
地震序列的类型判断及其成因机理研究是地震学的基本问题之一,对于揭示地震孕育和发生发展过程物理本质具有重要理论意义。一次较大地震发生后,后续的地震活动趋势如何发展?其后是否有较大余震或者更大地震发生?其发震时间和地点判断等,都是政府和震区民众最为关心的问题。而要较好地回答上述问题,地震序列类型的早期快速预测是基础和关键。追踪2008年汶川8.0级地震和最近40年来我国发生的历次大地震,震后趋势快速判断对震后科学应急决策、及时的救助救援和稳定社会、安抚民心、灾后重建等工作均起着至关重要的作用。当前,我国仍存在发生破坏性地震的危险,尤其是在人口稠密、经济发达的华北地区,这种危险在日益迫近,因此震后趋势快速判断问题愈显重要。
对于一个完整的地震序列,其类型的判别已有较为成熟的方法和参数(吴开统等,1976,1990; 周惠兰等,1980)。但在地震刚刚发生,序列还极不完整的情况下,进行序列类型的早期预测,目前尚无统一的规范性的成熟方法或规则。
地震序列类型的划分,可以将之转化为统计模式识别问题。SVM(Support Vector Machine,支持向量机)是一种基于统计学习理论、建立在VC维理论和结构风险最小原理基础上的方法,其在解决小样本、非线性、过学习及高维模式识别中表现出许多特有的优势,在模式分类问题上具有很好的泛化性能。它的主要思想是在特征空间中建构最优分割超平面,使得正例和反例之间的隔离边缘最大化。支持向量机是处理高度非线性分类、回归等问题的新方法,近年来在地震学领域也有应用,王炜等(2005,2006b)开展了相关研究工作,将支持向量机方法引用到对我国大陆强震预测及时间序列预测中,效果较好,王炜等(2006b)还介绍了支持向量机在地震预测其它可应用的领域。基于支持向量机计算简单,且有很强的鲁棒性和泛化性能,我们将其应用到地震序列类型早期预测。笔者是在Matlab环境下,通过构造SVM,建立地震序列特征参数与序列类型之间的一种非线性映射关系,从而对地震序列类型进行早期分类预测的尝试。
1 资料整理及分析
1.1 资料的选取针对中国大陆地震序列类型所开展的研究中,蒋海昆等(2007)搜集整理了1966~2002年中国大陆地区的纪录相对完备的5级以上地震序列183 次。本文基于这些资料,从中筛选出最大地震M1≥5.0的中、强地震序列,并删除余震过少(<30次)的序列28个,补充了2003~2011年发生的地震序列25个,共计180个地震序列构成本文研究的基础数据,其中7.0级以上地震序列23个; 6.0~6.9级序列66个; 5.0~5.9级序列91个。进一步根据资料情况,确定研究样本的震级下限(刘正荣,1984),具体方法是绘制每个地震序列样本频度—震级图,统计相应震级的地震次数,根据最大频次相应的震级确定下限震级,低于下限震级的地震被认为记录不完整,不予采用。
1.2 资料初始分类吴开统等(1990)根据多年的观测经验提出了3条地震序列类型的划分原则,分别为序列记录中最大地震释放的能量与全序列地震释放的能量之比、最大地震与次大地震的震级差以及余震多少,具体规则(周翠英等,2010)见表1。
表1中震级差是以MS为震级标度,若以ML为标度,蒋海昆等(2007)做过推导,统一用序列主震与12个月内最大余震之间的震级差ΔM进行序列类型划分,划分标准为:当0.6≤ΔM≤2.4时,序列为主余型; 当ΔM≥2.5且余震次数较少时,序列为孤立型; 当ΔM<0.6序列为震群型。本文综合地震波能量比和蒋海昆(2006)提出的震级差划分原则,对所要研究的180次地震序列进行了初始分类,结果见表2。
1.3 资料及预处理在所搜集的180个地震序列资料中,分别选取序列第一次大震M1(对于主余型序列,该震即为主震Mmax,对于强震群型或双震型,则该震为序列第一个大震)后1~7天的资料,对其后1、2、3、5 和7 天 5个时间尺度进行序列分类早期预测研究(王炜等,2006b)。
2 选择序列单参数判据
根据地震序列分类规则和活动特征,序列参数的选择主要考虑以下2个方面的因素(蒋海昆等,2007):(1)参考以往对单参数序列分类能力的统计评价结果;(2)对一些余震不十分发育的序列,许多参数由于余震数目的限制而无法计算,因此判别函数的建立主要考虑采用直接表征序列频次及应变能释放特征的简单参数。
对于序列参数的选取的研究前人已开展工作,本文没有再进行相关的参数选择,依据蒋海昆等(2007)、周翠英等(1996)、刘正荣和孔绍麟(1986)的研究成果,在广泛细致分析各种单项特征指标基础上,综合分析寻求有可能反映序列活动本质规律的整体特征,笔者选择了表3中所列的7个常用的表征序列特征的参数,蒋海昆等(2006)给出各参数详细物理含义。需要指出的是虽然上述参数很多是相关的,但是从不同侧面反映序列演化特征。进而分震后1、2、3、5、7天5个时间尺度计算各单项序列参数。
3 构造SVM模型
SVM模型建立主要有6个步骤(史峰等,2010):首先从原始数据中提取训练集和测试集,然后进行预处理(有时需特征提取),选择svmtrain的惩罚参数c和核函数参数g(本文运用粒子群优化算法),之后用最佳参数对训练集进行训练,用得到的模型来预测测试集的分类标签,将其分类,得到分类准确率,算法流程如图1所示。
4 SVM的Matlab实现
4.1 选定训练集和测试集在所选取的180个地震序列样本中,每个样本含有7个特征分量(序列单参数判据),这些样本有3种序列类型,分别给予类别标签。其中1~116属于主余型(类别标签为1),117~160属于震群型(类别标签为2),161~180属于孤立型(类别标签为3)。按照3:1将每个类别样本随机分为两组,重新组合数据,分别作为训练集和测试集。
4.2 数据预处理对训练集和测试集资料进行归一化处理,使各样本元素的值在[0,1]之间,确保网络对样本具有足够的输入敏感性和良好的拟合性。选用的归一化方法为
x^=(x-xmin)/(xmax-xmin).(1)
在Matlab中,mapminmax函数可以实现上述归一化,常用的实现命令(刘正荣,1984)为
[y,ps]=mapminmax(x).(2)
其中,x是原始数据,y是归一化后的数据,ps是个结构体,记录的是归一化的映射。
4.3 c&g参数寻优SVM做分类预测需要调节相关参数(主要是惩罚参数c和核函数参数g),以达到比较理想的预测分类准确率,避免过学习和欠学习状况发生。关于SVM参数的优化选取,国际上目前还没有公认统一的最好的方法,本文采用粒子群优化算法参数寻优(Particle Swarm Optimization,简称PSO),其是通过粒子在解空间追随最优的例子进行搜索(史峰等,2010)。
4.4 训练和预测采用matlab中的libsvm工具箱,运用训练函数svmtrain,选择C-SVC类型,采用径向基函数作为核函数,它利用局部接收域完成函数映射,在SVM中应用最为广泛。进一步确定SVM其它参数,运用PSO算法寻优,使用训练集对SVM进行训练,用得到的模型分别对训练集和测试集进行内符及外推检验。
4.5 内符检验结果与分析依照以上步骤,用所得到的地震序列参数判据,对180个已知样本进行内符检验,选择合适的c&g参数,180个样本都能识别正确。说明SVM模型具有较好的内符识别效果,对训练集学习后能够高准确率的预测,学习能力较强。
4.6 测试集分类结果与分析按照步骤1对训练集和测试集划分,进而对SVM进行学习训练,选择合适的c&g参数,用得到的模型对1、2、3、5 和7天5个时间段的测试集进行预测,以可达到的分类准确率作为评价SVM的性能指标。将5个时段的判别结果按序列类型统计列于表4,可知:
(1)利用震后1~7天的序列资料进行序列类型划分,1天的判别正确率达到82.2%,具有相对较高的类型判别能力。并且资料长度(震后时间)越增加,3种序列类型识别正确率总和越高。
(2)主余型序列识别正确率介于震群型和孤立型之间,其主要原因为主余型的训练样本是最多的,学习最为完善,识别正确率相对较高; 序列自身活动特征也是影响因素。
(3)震群型序列的识别正确率基本上随着资料长度(震后时间)增加而增大。深入分析震群型序列识别正确率相对较低原因,除去资料样本的关系,也和该序列的形态和活动特征有关。
(4)除第一天外,其余4个时间段孤立型序列都完全识别出来,识别正确率基本保持在一个较高水平,其判别正确率与震后时间长度变化关系不大。
(5)具体分析识别错误的地震序列,发现5个时段错判对象有些是基本固定的,例如1976年11月7日宁蒗6.7级地震序列在5个时段错分3次,分析发现该序列从1976年11月7日6.7级地震后,序列一直延续到12月13日才发生6.4级次大地震,两次地震相距36天。该序列的活动特征影响了序列类型判定,在本文7天的统计时间段内未发生次大地震,在判别过程中将其误判为主余型。
5 结论与讨论
(1)笔者对提取的地震序列早期(1~7天内)分类参量进行综合后,优于一般的单参数分类指标效果,有较高的实用价值。
(2)SVM预报效果依赖于所选用的网络模型、核函数及所选用的各参数指标,如何设置更为有效需要进一步探索。
(3)从输出结果看,对于震群型序列,本文的识别正确率较低。SVM的预测准确性与训练样本数量及选取有较大关系,进一步丰富地震序列样本,和进行分区建模试验,有望进一步改善预测模型,提高正确识别率。
(4)建模实验中采用的序列参数是基于以往研究结果,参数选取影响模型预测效果。为获得更为完美的预测模型,充分的参数选取试验和进一步挖掘新的序列参数是有待继续进行的工作。
综上所述,SVM方法用于对地震序列类型预测,效果较好、处理速度快、具有较强的实用性,有广泛的应用前景。但是也存在一些要完善和检验的问题,所以要提高模型的分类准确率还需要进一步完善SVM模型。
- 蒋海昆,代磊,侯海峰,等.2006.余震序列性质判定单参数判据的统计研究[J].地震,26(3):17-25.
- 蒋海昆,傅征祥,刘杰,等.2007.中国大陆地震序列研究[M].北京:地震出版社.
- 刘正荣,孔绍麟.1986.地震频度衰减与地震预报[J],地震研究,9(1):6-8.
- 刘正荣.1984.根据地震频度衰减预报地震的工作细则[J].地震,(1):32-37.
- 史峰,王小川,郁磊,等.2010.Matlab神经网络30个案例分析[M].北京:北京航空航天大学出版社.
- 王炜,林命週,马钦忠,等.2006a.支持向量机及其在地震预报中的应用前景[J].西北地震学报,28(1):78-84.
- 王炜,刘悦,李国正,等.2005.中国大陆强震时间序列预测的支持向量机方法[J].地震,25(4):26-32.
- 王炜,刘悦,李国正,等.2006b.我国大陆强震预测的支持向量机方法[J].地震学报,28(1):29-36.
- 吴开统,焦远碧,吕培苓,等.1990.地震序列概论[M].北京:北京大学出版社.
- 吴开统,岳明生,武宦英,等.1976.海城地震序列的特征[J].地球物理学报,19(2):95-109.
- 周翠英,耿杰,王梅,等.2010.山东地区地震分析预报手册—预测方法、指标、震例[M].济南:山东科学技术出版社,37-38.
- 周翠英,张宇霞,王红卫.1996.以模式识别方法提取地震序列早期判断的综合指标[J].地震学报,18(1):118-124.
- 周惠兰,房桂荣,章爱娣,等.1980.地震震型判断方法探讨[J].西北地震学报,2(2):45-59.