基金项目:中国地震局地震应急专项“云南省地震局地震应急指挥系统改造试点”和“基于微博位置信息的地震灾害速判方法研究”联合资助.
(Yunnan Earthquake Agency,Kunming 650224,Yunnan,China)
Tonghai MS5.0 earthquake; Sina Micro-blog; temporal and spatial distribution characteristics; emotional analysis
备注
基金项目:中国地震局地震应急专项“云南省地震局地震应急指挥系统改造试点”和“基于微博位置信息的地震灾害速判方法研究”联合资助.
基于新浪微博数据,通过数据清洗、分类和挖掘,分析2018年8月13,14日云南省通海县2次5.0级地震舆情信息时空演变规律。研究结果表明:本次地震后微博活跃量总数激增,灾情类别主要集中于人的反应、器物反应方面,约占总数的79%; 微博日活跃量与时间的关联度明显,震后出现多个波动; 微博的数量和空间分布与距离震中远近密切相关,遵循距离衰减效应; 地震灾区民众以负面情绪为主,由于地震期间谣传传播,恐慌、悲伤、疑惑情绪进一步加重。
Through cleansing,classification,and excavation the data of Sina Micro-blog,we analyzed the spatial and temporal characteristics of public opinion information of Tonghai MS5.0 earthquake on Aug.13 and Aug.14 in 2018.The disaster information is divided into human reaction and utensil reaction,which accounts for more than 79% of the amount.The correlation between the daily activity of micro-blog and time is obvious.After the earthquake,there are many fluctuations of the daily activity of micro-blog.The number and spatial distribution of micro-blog are closely related to the epicentral distance,and follow the distance attenuation effect.As rumors spread during the earthquake,people in the earthquake-stricken areas were mainly in negative mood,and the mood of panic,sadness and doubts increased.
引言
随着云计算、大数据、互联网技术、智能移动通信技术的高速发展,基于智能手机的社会媒体信息交互方式越来越普遍,人们获取新闻资讯的技术手段更加多元化和智能化。美国全球媒体情报公司Cision(2017)发布的《2017全球社交媒体研究报告》统计显示,全球社交媒体用户排名前4的分别是美国的Facebook,Youtube,WhatsApp和Facebook Messenger,月活跃用户总数60亿,中国的新浪微博排名全球第十名。社交媒体已成为互联网媒体中最为流行的媒体类型之一,凭借用户基数大、信息传播快、互动功能强等特点,已成为突发事件消息、热点事件、社会舆情等信息互联网传播的重要载体和传播途径。中共中央网络安全和信息化委员会办公室(CNNIC)(2018)发布的第41次《中国互联网络发展状况统计报告》显示,截至2017年12月,我国手机网民达7.53亿,新浪微博月活跃用户达3.76亿。广大网民越来越倾向于通过微博获取新闻、评论、娱乐、知识等信息,特别是在重大灾害性事件发生后,大量网友通过微博来表达个人观点、态度和情感等,使得社交媒体数据成为反应社会行为活动和灾害特征的一种重要的数据源。这些信息的充分挖掘和分析,对于政府进行舆情的传播、监控、引导和舆情处置等有着十分重要的意义。
在利用社交媒体数据进行灾害舆情演化分析研究方面,Seltzer等(2015)对比网民在Instagram和Flickr社交媒体上针对“埃博拉”话题的评论,认为不同的社交媒体平台对网络舆情信息传播具有不同影响; 刘国巍等(2015)运用最优分割理论和Moran's I指数构建非常规突发事件网络舆情演化模型,并用实证揭示非常规突发事件网络舆情演化的时空分异规律; 王亚民和胡悦(2016)提出一种基于词对主题模型的微博舆情热点发现方法,解决了传统模型在文本建模中所面临的高维度和稀疏性问题; 胡悦和王亚民(2017)提出了基于模糊神经网络的微博舆情趋势预测方法,以微博话题的博文总数作为微博话题发展趋势的量化指标,采用模糊神经网络来预测微博话题的发展趋势。在地震舆情信息分析挖掘方面,赵金楼和成俊会(2015)以2013年四川雅安地震为例,运用社会网络分析方法研究突发事件微博舆情传播的网络结构特征对微博信息传播的影响; 徐敬海等(2015)、褚俊秀和徐敬海(2016)建立了位置微博地震灾情抓取框架,以永善5.0级地震、鲁甸6.5级地震为例,实现微博地震灾情的提取与展示; 曹彦波等(2017a,b)调用新浪微博API,获取景谷6.6级地震、九寨沟7.0级地震微博信息,通过对数据清洗挖掘,分析了微博灾情时空演变特征。社交媒体的情感分析主要包括词语的情感极性判别和语句的情感分析等,在利用社交媒体数据分析地震事件情感反应研究方面,王昊等(2012)利用基于情感的HITS算法分析了2011年日本9.0级地震发生后一周内,人们在社交媒体上对地震的评论和情绪反应特征; Cheng等(2016)以2011日本东部9.0级大地震为例,调查了社会媒体如何影响人们对灾难的看法,及其在灾后恢复活动方面的行为意图,分析人们对灾难感知产生的不同影响; Li等(2017)获取了2011年的日本地震和2010年的海地地震Twitter数据,基于情感词典分析随着时间的推移人们在地震中的情感反应特征。
2018年8月13日1时44分云南省通海县(24.19°N,102.71°E)发生5.0级地震,8月14日3时50分通海再次发生5.0级地震。地震发生后,震中附近大量网友在微博、微信、QQ空间等社交媒体平台上发布了大量短文本、图片、微视频等信息,其中含有大量与本次地震相关的评论、观点、感悟、心情、情感等舆情灾情信息。如何对这些海量舆情大数据进行分析挖掘,有效利用网络舆情信息辅助应急决策成为政府舆情管控引导的关键环节。 在前人研究成果的基础上,本文基于新浪微博数据,获取2018年通海地震微博信息,对信息进行处理,挖掘与地震灾情相关的信息,分析本次地震舆情信息的时空演变特征。
1 技术方法及数据获取
1.1 技术路线笔者通过新浪微博提供的API接口程序采集通海地震震中附近微博用户发布的信息,获取经纬度、博文、图片等内容,对获取到的数据进行清洗、分词、灾情识别、挖掘以及分类统计,在GIS平台支持下,研究微博数据时空特征,分析此次地震舆情信息时空演变规律,研究技术路线见图1。
1.2 数据获取微博数据的获取方法有:调用新浪微博应用程序接口(廉捷等,2011),采用网络爬虫多策略方法(孙晓等,2014),基于微博特征的事件提取算法(高永兵等,2016)和网格单元统计分析(雷程程等,2017)等。本文利用新浪微博开放平台提供的数据接口服务功能,调用了“获取用户发布的微博”接口(statuses/user_timeline),返回值字段包括微博创建时间、微博ID、微博信息内容、微博来源、图片、地理位置、转发数、评论数等多个原始数据字段,数据获取内容如下:
(1)采集范围:以地震震中为圆心,100 km为半径,采集研究区约3万km2范围内微博用户发布的数据。
(2)采集时长:地震发生后48 h内微博用户发布的数据,即2018年8月13日1时44分至8月15日1时44分。
2 数据处理与分析
2.1 数据处理微博文本作为一种特别的短文本形式,具有短小、不规则、碎片化、口语化等特点,博文中大量使用了缩写、替代、网络新词及表情符号,这些特点决定了难以用规则的语法对微博内容进行理解。本文采用NLPIR汉语分词系统对原始微博内容进行预处理,包括去噪、去重、分词解析等。通过调用新浪微博API,共采集到震后48 h内研究区范围内微博用户发布的5 156条原始信息。经过分词解析,统计对比2次地震后微博词频和词云可以看出(表1,图2),排名前10位的名词中,“地震”高居首位,提及达377次,其余如“玉溪”“通海”“震感”等高频词,全部均与此次地震相关。从排名前10位的动词和形容词也可以看出,震后频频提及“起来”“出来”“晃动”“强烈”“悲伤”“明显”“害怕”等词汇。以上高频词汇表明:震后震区附近广大微博网友高度关注此次地震事件,发布了大量针对地震的个人感悟、心情、情感、随笔、图片、视频等。
参考《中国地震烈度表》(GB/T 17742—2008)、《防震减灾术语第1部分:基本术语》
表1 通海2次5.0级地震后2 h内微博词频统计
Tab.1 The statistics on the word frequency of the micro-blog in two hours after the two Tonghai MS5.0 earthquakes图2 8月13日(a)、8月14日(b)通海5.0级地震后2 h内微博词云
Fig.2 The words clouds of the micro-blog in two hours after Tonghai MS5.0 earthquakes onAug.13(a),Aug.14(b)in 20182.2 数据统计经过数据预处理,研究区采集到的5 156条微博原始信息里,与地震相关的信息有898条,占总数的17%,其中,提及到人的反应信息777条,器物反应90条,房屋破坏33条,救援处置93条,地震震情101条。灾情类别主要集中于人的反应、器物反应方面,约占总数的79%,由于本次地震无人员死亡,少量人员受伤,微博网友反映人员伤亡等信息较少(图3)。
对比2014年以来川滇地区8次M≥5.0地震后2 h,100 km范围内的地震微博数据发现(表3):在8次震例样本中,微博网友关注度最高的是2017年8月8日四川九寨沟7.0级地震,2 h内共发布了276条信息,其次是通海5.0级地震的246条,远高于其他6次地震。
表3 2014年1月—2018年8月川滇地区M≥5.0地震微博关注数量对比
Tab.3 Comparison of the quantity of micro-blog' concerns in M≥5.0 earthquakesin Sichuan-Yunnan area from Jan.,2014 to Aug.,20183 时空特征分析
3.1 时间变化特征通海5.0级地震发生后,震中附近微博日活跃量激增,微博用户热议的主题主要围绕地震相关的话题。地震后3 min,即8月13日1:47:33,距离震中32 km的玉溪市红塔区微博网友就发布了信息:“就在刚刚!凌晨1:45,地!震!啦!躺在床上吓个半死![泪]”。2:02:00,距离震中11 km的江川区玉江大道职教小区微博网名为“我是一只小小鸟哇”的用户发布了信息:“地震了!!!震感强烈,硬生生被摇醒了!震了两次之后全小区的人几乎都出来了,可怕[泪][泪]平生第二次经历”,同时还发了一张室外避难照片(图4)。从上述2位网友的博文内容我们也能清晰地感受到震区震感强烈,人们惊慌失措。
从震后48 h(2018-08-13 01:44—08-15 01:44)微博分时段发布数量的统计来看(图5),震后1 h是微博发布的高峰期,与地震相关的微博数达到158条,占总数的18%; 随着时间的增加微博条数逐渐减少,在震后第22 h内(22:44—23:44),出现了一个小高峰。部分网友担心还会不会来地震?还私信云南省地震局和中国地震台网速报官方微博,发布了是否会再发地震的博文,并晒出外出避难以及塔帐蓬的图片等(图6)。在震后第27 h内,8月14日3时50分通海再次发生5.0级,微博发布数量突然激增至80条,出现峰值。15日20:44—00:44的4 h内,微博数量又逐渐上升至22条,再次出现峰值,这与地震期间谣
图4 通海地震室外避难照片
Fig.4 Photo of outdoor refuge aboutTonghai MS5.0 earthquake in 2018本次地震博文里除了包含与地震相关的震情、灾情、应急避难等信息外,还含有大量个人观点、态度和情感倾向的表达。笔者在大连理工大学信息检索研究室情感词汇本体库基础上(徐琳宏等,2008),结合博文中的新浪微博表情符号和出现的网络新词,采用关键字匹配和人工解析方式,对博文从不同情绪角度来进行情感分析,将微博内容分为正面情绪(“高兴”“喜欢”)、负面情绪(“生气”“厌恶”“恐惧”“悲伤”“疑惑”)和中性情绪3种类型,同一条微博可能包含多种情绪,例如:在震后10 min,
图5 8月13日通海MS5.0地震后48 h微博发布数量的时间变化特征
Fig.5 The temporal variation characteristic of micro-blog released quantity in 48 hoursafter Tonghai MS5.0 earthquake on Aug.13距离震中12 km的玉溪市红塔区微博网友发布了信息:“是哪里发生了地震呀?玉溪红塔区,明显
震感,直接被摇醒,待在床上不敢动,[允悲][允悲]。该条微博信息里包含了对地震“疑惑”“恐慌”和“悲伤”情绪表达。通过对震后与地震相关的898条博文中体现的总体情感极性来看,此次地震中,反映正面情绪的有10条信息,中性情绪的有361条,负面情绪有527条,在震后48 h内总体以负面情绪为主。在正面情绪中,有10名网友对救援行动、医疗救助、救援人员点赞和正面评论,表达了“高兴”“喜欢”等正面情绪。在负面情绪中,在博文中提及“生气”有50条、“恐慌”322条、“悲伤”157条、“疑惑”118条(图7)。
从本次地震负面情绪时间序列可以看出(图8):地震发生后震中附近大部分网友被“震醒”“晃醒”,感到困惑、害怕和伤心。震后2 h是网友“生气”“恐惧”“悲伤”“疑惑”情绪表达比较集
中的时段,部分微博网友关注地震部门微博,转发地震信息,多次感受到强余震并在微博中提及和转发,并向中国地震台网速报提出了疑问,如:“我提出了问题‘你好,我想请问一下这几天通海县地震将会持续发生吗?'@中国地震台网速报@云南省地震局”。一些网友也表达了对地震谣传很生气,13日3时13分,距离震中40 km的1位微博网友发布了信息“造谣的人立刻停止 不要害得人心惶惶的。也不要拿大家的生命和时间开玩笑[怒]”。8月14日第2次地震发生后2 h内(03:50—05:50),人们的负面情绪又出现了一个峰值,微博网友提出很多疑问,如地震后续趋势、地震什么时候会结束、救灾物资供应、救灾帐篷领用等。到了15日夜间,人们担心后续还会不会有地震,纷纷外出避难,“恐惧”“悲伤”“疑惑”情绪再次上升。
图8 8月13日通海MS5.0地震后48 h负面情绪时间序列
Fig.8 The negative emotion temporal series in 48 hours after Tonghai MS5.0 earthquake on Aug.133.2 空间特征从震后48 h微博空间分布看(图9a),以地震震中为圆心,微博空间分布遵循距离衰减效应,与距离震中远近密切相关。由于地震未造成大面积通信中断,距离震中越近的地方,空间分布越密集,微博活跃程度也远高于平时。震中区通海县微博数量最多,达到268条,其次分别为:红塔区260条,江川区66条,华宁县58条,建水县46条(图9b)。由于地震期间谣传传播,灾区民众恐慌情绪加重,322条微博提及到对地震恐慌的情绪,最高的是通海县有98条,其次是红塔区95条。
地震期间云南省地震局工作人员电话询问了红河、曲靖、楚雄、昆明、玉溪地震部门:曲靖未收到有感报告; 红河石屏震感强烈; 个旧、开远、弥勒、沪西有感; 楚雄双柏、禄丰有感; 玉溪除元江未收到报告外,全境有感,通过询问人工标注了此次地震有感范围(图9a中红圈)。对震后网友发布的微博解析发现,提及人对地震反应的微博信息有777条,基于核密度算法,利用ArcGIS拟合了微博地震灾情影响范围图。从图9可以看出,越靠近震中,震感越强烈,有感范围主要集中在人口密集的通海县、江川区、红塔区、华宁县、石屏县、建水县以及昆明市城区和部分乡镇,旅游景点交通线附近,这一空间分布特征与人工电话调查询问勾画的有感范围情况一致。
图9 8月13日通海MS5.0地震后48 h微博空间分布及人的反应热力图(a)及微博数量分布图(b)
Fig.9 The map of spatial distribution characteristics of the micro-blog and thermodynamic chart of human reaction(a)and quantitative distribution(b)in 48 hours after Tonghai MS5.0 earthquake on Aug.134 讨论与结论
本文基于新浪微博API,获取了2018年8月13日,14日通海2次5.0级地震后微博数据,对数据进行了分词、清洗、分类统计和时空特征挖掘分析,取得了以下主要认识:
(1)从分类统计结果来看,震后微博活跃量总数激增,网友高度关注此次地震事件,发布了大量针对地震的个人感悟、心情、情感、随笔、图片、视频等信息。与地震相关的信息有898条,可分为人的反应信息、器物反应、房屋破坏、救援处置、地震震情5类信息,灾情类别主要集中于人的反应、器物反应方面,约占总数的79%。对震后2 h微博词频统计后发现,排名前10位的名词、动词、形容词基本是与地震相关的高频词。
(2)从时空分布特征来看,微博日活跃量与时间的关联度明显,震后1 h是微博发布的高峰区间,之后发布数量逐渐降低,由于地震期间谣传影响,出现多个波动。微博的数量和空间分布与震中距远近密切相关,遵循距离衰减效应; 有感范围主要集中在人口密集的通海县、江川区、红塔区、华宁县、石屏县、建水县以及昆明市城区和部分乡镇,旅游景点交通线附近。
(3)从情感特征分析看,在震后48 h里总体以负面情绪为主,负面情绪包括对地震事件“生气”“恐慌”“悲伤”“疑惑”等情感表达,2次地震后人们的情绪出现峰值,由于地震期间谣传传播,灾区民众恐慌、悲伤、疑惑情绪加重。
本次地震震级虽小,灾害程度与同级别地震相比也不高,但是对社会的影响时间较长,空间范围较广。造成本次地震社会舆情影响大的原因是多方面的,地震谣传是主要原因,2次地震期间,当地部分民众转发和传播地震谣传,产生了较大舆情和社会影响。其次与该地区地震背景、震情形势、人口密度、文化水平、互联网普及率等也密切相关。灾区人口高度密集,震中通海县四街镇人口密度593人/km2,距离不到10 km的通海县城人口密度高达1 426人/km2,超过云南省平均人口密度的10倍以上; 经济水平高,互联网普及率高,加之当地历史上发生过7.8级大地震,造成大量人员死亡,多因素叠加在一起,造成了当地民众恐慌情绪蔓延,震后数天里,大量民众还室外避难,不肯回家。由此可见,震前要做好民众防震减灾科普知识、防震避震知识、地震谣传识别等知识宣传普及; 震后及时进行舆情监控,做好舆情引导,同时与网信办、通信管理局、公安等建立地震谣传应对机制等,是地震舆情监管的有效途径。
- 曹彦波,毛振江.2017a.基于微博数据挖掘的九寨沟7.0级地震灾情时空特征分析[J].中国地震,33(4):613-625.
- 曹彦波,吴艳梅,许瑞杰,等,2017b.基于微博舆情数据的震后有感范围提取研究[J].地震研究,40(2):303-310.
- 褚俊秀,徐敬海.2016.地震灾情位置微博抓取与展示[J].地理空间信息,14(5):38-40.
- 高永兵,陈超,熊振华,等.2016.基于个人微博特征的事件提取研究[J].计算机应用与软件,33(7):47-51.
- 胡悦,王亚民.2017.基于模糊神经网络的微博舆情趋势预测方法[J].情报科学,35(12):28-33.
- 雷程程,张岸,齐清文,等.2017.格网化的位置微博数据抓取与人群信息提取[J].测绘科学,42(2):125-129.
- 廉捷,周欣,曹伟,等.2011.新浪微博数据挖掘方案[J].清华大学学报(自然科学版),51(10):1300-1305.
- 刘国巍,程国辉,姜金贵.2015.时空分异视角下非常规突发事件网络舆情演化研究——以“上海12.31踩踏事件”为例[J].情报杂志,34(6):126-130.
- 全球媒体情报公司Cision.2017.2017全球社交新闻研究报告[EB/OL].(2017-10-09)[2018-08-20].http://www.useit.com. cn/thread-16735-1-1.html.
- 孙晓,叶嘉麒,唐陈意,等.2014.基于多策略的新浪微博大数据抓取及应用[J].合肥工业大学学报(自然科学版),37(10):1210-1215.
- 王昊,杨亮,林鸿飞.2012.日本地震的微博热点事件分析[J].中文信息学报,26(5):7-13.
- 王亚民,胡 悦.2016.基于BTM的微博舆情热点发现[J].情报杂志,35(11):119-124,140.
- 徐敬海,褚俊秀,聂高众,等.2015.基于位置微博的地震灾情提取[J].自然灾害学报,24(5):12-18.
- 徐琳宏,林鸿飞,潘宇,等.2008.情感词汇本体的构造[J].情报学报,27(2):180-185.
- 赵金楼,成俊会.2015.基于SNA的突发事件微博舆情传播网络结构分析——以“4.20四川雅安地震”为例[J].电子商务与管理,27(1):148-157.
- 中共中央网络安全和信息化委员会办公室.2018.中国互联网络发展状况统计报告[EB/OL].(2018-01-31)[2018-08-20].http://www.cac.gov.cn/2018-01/31/c_1122347026.htm.
- Cheng J W,Mitomo H,Otsuka T,et al.2016.Cultivation effects of mass and social media on perceptions and behavioural intentions in post-disaster recovery——The case of the 2011 Great East Japan Earthquake[J].Telematics and Informatics,33(3):753-772.
- Li X,Wang Z,Gao C,et al.2017.Reasoning human emotional responses from large-scale social and public media[J].Applied Mathematics & Computation,310(C):182-193.
- Seltzer E K,Jean N S,Golinkoff E K.2015.The content of social media's shared images about Ebola:a retrospective study[J].Public Health,129(9):1273-1277.
- GB/T 17742—2008,中国地震烈度表[S].
- GB/T 18207.1—2008,防震减灾术语第1部分:基本术语[S].
- GB/T 18207.2—2005,防震减灾术语第2部分:专业术语[S].