基金项目:中国地震局地震应急青年重点任务(CEAEDEM 202217).
第一作者简介:郑 川(1989-),工程师,主要从事地震应急技术方法研究,应急基础数据管理及数据挖掘应用工作.E-mail:981706476@qq.com.
(云南省地震局,云南 昆明 650224)
(Yunnan Earthquake Agency,Kunming 650224,Yunnan,China)
natural disaster risk census; nigthtime remote sensing images; population spatialization; streamline; Yingjiang County
DOI: 10.20015/j.cnki.ISSN1000-0666.2023.0045
地震发生后,准确掌握震区受灾情况对地震应急救灾工作和救灾物资的优化配置起重要作用。人口空间分布是开展生命损失评估的关键数据(袁小祥等,2018),提高人口分布数据精度对于解决地震灾害预评估、灾害风险研究及应用具有重要意义。人员伤亡、经济损失、需转移安置人数等多个地震灾害预评估模型中,人口信息数据均为其主要计算参数,人口空间分布数据的准确性直接影响预评估结果。研究人员基于多源数据和不同的研究方法对人口的空间化做了大量的研究,形成了一系列具有代表性的模型和方法。早期的人口空间分布估计以行政区划统计数据为基础,通过分析地貌形态、坡度、地形起伏度(曹彦波等,2014)、高分辨率遥感(朱守杰等,2020)、土地利用类型(柏中强等,2015; Gong et al,2020; 潘颖等,2020)、居民点信息(孙艳萍等,2018)等基础地理信息之间的统计关系,以回归建模方式对人口统计数据进行格网化空间模拟(刘军等,2016; 杨晓荣,陈楠,2019)。随着大数据挖掘技术的发展,大量研究发现夜间灯光数据(郭山山等,2016; 王明明,王卷乐,2019)、POI数据(淳锦等,2018; 杜志强等,2021)、手机信令(王晓洁等,2020)等信息数据与人口分布具有较强的相关性,可以通过数值模拟得到人口空间分布。多源数据的精准匹配与有效融合,有效弥补了传统数据时效性差、空间精细度不够等不足(刘云霞等,2022),促使人口空间化数据质量不断提高。但不同的数据源和方法各有优、缺点:如居民点、行政区建筑物、土地利用类型等数据能准确表示人口分布的宏观空间范围,却不能反映其内部的人口密度差异特征,将人口数据与自然生态数据耦合使用,仅能满足多种空间分析、统计和建模的需求; 夜间灯光、POI、手机信令等信息数据能在一定程度上体现人口分布的疏密程度,但像元饱和溢出、数据收集困难、大数据有偏性等问题也影响着人口数据空间化结果的精度; 多源数据建立的空间化统计模型面临各因子之间存在关联、因子权重判定难的挑战; 地震应急人口空间化研究大多基于行政区划统计或较大尺度的格网数据,针对人口分布精细尺度的研究较少。鉴于上述各种空间化数据、方法的优劣,集成更加精细数据和空间化方法建立更精确的人口空间化模型,已成为地震应急人口空间分布研究的重要趋势之一。
大量研究表明,人口空间分布与建筑物分布有最直接的关联(李慧敏等,2022),夜间灯光数据能反映人类活动,是进行人口空间化建模的理想数据(陈晴,侯西勇,2015)。本文基于第七次全国人口普查盈江县数据、盈江县第一次全国自然灾害综合风险普查建(构)筑物地震灾害隐患数据和夜间灯光影像数据,利用普查数据时效性和精细度高的优势,开展基于夜间灯光值、不同类型建筑物数量的面积权重人口精细化方法研究,并以盈江县为例实现100 m×100 m格网的人口精细化研究。
盈江县国土面积为4 316.97 km2,占德宏州面积的38.6%,辖8镇7乡,97个行政村、11个社区,常驻人口292 508人; 地处云南省西部、德宏州西北部,东北面与腾冲市接壤,南面与陇川县接壤,西面与缅甸联邦共和国为邻。盈江县地震多发,全区受地震灾害影响较大,自1992年以来,区内共发生8次5.0级以上破坏性地震,全县境内所有乡镇均遭受过Ⅵ度及以上地震烈度破坏。
本研究选取的数据源(表1)包括:①第一次全国自然灾害综合风险普查建(构)筑物地震灾害隐患数据以及在盈江县共收集到85 036条单体房屋信息数据; ②行政区划数据来源于云南省地图院; ③行政区划人口经济数据来源于《云南行政区划简册》①(云南省民政厅,云南省地图院); ④夜间灯光影像数据来源于美国国家海洋和大气管理局(NOAA)②; ⑤中国人口空间分布公里网格数据来源于资源环境科学与数据中心③; ⑥全球人口格网数据来源于World Pop④(Bondarenko et al,2020)。
本文所需的数据由于来源、数据格式、范围和投影坐标等不一致,因此需要在人口空间化计算之前进行预处理,主要包括统一坐标系、重采样统一空间分辨率、数据范围裁剪以及数据格式转换等。具体操作如下:
(1)统一坐标系:将盈江县1:25万行政区划乡镇界限数据以及2020年夜间灯光数据转换至Krasovsky_1940_Albers投影坐标系和CGCS2000地理坐标系。
(2)建筑物重点隐患数据格式转换:获取的盈江县建筑物重点隐患数据包括定位点的经纬度、工程名、工程类型、所属行政区划、建筑规模、建筑年代、抗震设防类别、场地类型、现存灾害、住建数据类型等属性信息,格式为xls。将其导入ArcGis软件,根据经纬度信息生成85 036个Shapefile点数据,并对点数据进行投影转换至Krasovsky_1940_Albers投影。
(3)100 m尺度重采样:将2020年盈江县夜间灯光数据栅格投影至CGCS2000坐标系,通过栅格计算器得到年度平均灯光值,然后重采样至100 m格网(图1)。
(4)掩模裁剪:根据盈江县乡镇界限数据对重采样夜间灯光数据、WorldPop数据集人口格网数据和中国人口空间分布公里网格数据集进行掩模裁剪,文件格式为TIFF。
对比盈江县第一次全国自然灾害综合风险普查建(构)筑物地震灾害隐患房屋单体数据与天地图遥感影像空间位置分布(图2),可以看出两者对应较好,盈江县区内高层住宅主要分布在县级行政中心和经济发展较好的平原镇,其他乡镇则以独户独院式低层住宅为主。对盈江县15个乡镇建筑物数量、面积与统计人口之间进行相关性分析,得出乡镇统计人口与重点隐患建筑物数量的相关系数R2为0.977 4(图3a),与建筑物面积的相关系数R2为0.893 8(图3b),表明人口分布与建筑物数量、面积存在明显的线性相关性。夜间灯光与人类活动密切相关,云南城镇地区乡镇统计人口与灯光亮度值的相关系数较高(贾召亮等,2020),夜间灯光亮度值可以直观反映人口密度的大小。本文将存在高层住宅的乡镇划分为城镇地区,将其他乡划分为乡村地区,对城镇地区和乡村地区分别建立数学模型。
本文基于第七次人口普查乡镇尺度人口统计数据、第一次全国自然灾害风险普查重点隐患调查建筑物单体数据和夜间灯光遥感数据开展盈江县100 m×100 m格网的人口空间化。建模流程如图4所示,包括对重点隐患调查单体建筑物、夜间灯光遥感数据预处理操作,结合空间叠加分析、核密度分析原理,判断单体建筑数据所在位置,累计得到各乡镇不同建筑类型的分布比例,统计不同类型建筑的夜间灯光亮度值,即统计人口分配权重P,从而将2020年乡镇统计人口按照分配权重P分配到不同建筑类型上。基于ArcGIS生成100 m×100 m尺度的渔网,统计每个格网不同工程类别建筑的面积,并根据面积权重法计算其人口模拟值,进行初步人口空间化。
传统面积权重法常被用于社会经济数据空间化研究中,是一种基于变量值保持一致的方法。它的基本原理是:假设源区A范围内人口为均匀分布,目标区a的人口密度等于源区A的人口密度,计算目标区a的人口Pa公式为:
式中:Pa代表目标a的预测人口值; Sa代表目标区a的面积; PA代表A区域人口统计值; SA代表A区域面积。
与实际相比,以不同类型建筑数量作为影响人口分布的因素,得到的仅是一种近似结果,不能表达出城镇人口分布的细节信息,需要寻求一种能够从微观尺度反映城镇及其周边区域人口分布随机性的数据来辅助建模(韩贞辉等,2013)。夜间灯光遥感影像是人类活动的重要指示因子,在城镇区,夜间灯光亮度值与乡镇统计人口数间
图2 盈江县重点隐患建筑物与遥感影像对比图
Fig.2 Critical hidden dangers of buildings and the buildings' remote sensing images in Yingjiang County
图3 盈江县15个乡镇建筑物数量(a)、面积(b)与统计人口之间关系
Fig.3 The number(a)and total area(b)of the buildings vs population in Yingjiang County
相关系数较高,房屋数量和夜间灯光数据加权结合可以从微观层面上反映人口分布的细节。基于以上分析,可通过加权分析确立人口密度影响权重为:
式中:P为人口密度分配权重; P1、P2分别为基于建筑物数量和灯光亮度值的人口密度权重; a1、a2是权重的配比系数。
基于房屋数量的人口密度权重空间分布规律性明显,反映了在城市区域人口分布的宏观特征,而基于夜间灯光的人口密度权重则反映了微观尺度下人口分布的随机特征,两者的作用比重还有待深入研究。本文暂且认为在城镇地区两者的作用是等量的,即权重分配比例系数:a1=a2=0.5。
核密度估计法是空间分析中运用广泛的非参数估计方法,用于计算要素在其周围领域中的密度(李东平等,2017)。 该方法以特定要素点的位置为中心,将该点的属性分布在指定阈值范围内,在中心位置处密度最大,并随距离衰减。对区域内每个要素点依照同样的方法进行计算,并对相同位置处的密度进行叠加,可得到要素在整个区域的分布密度。设核函数为k,其带宽为h,则x点处的密度估计为:
式中:k()为核密度方程; h为阈值; x-xi为估计点x到样本xi处的距离。100 m×100 m格网内,人口并不是完全均匀分布的,我们将网格中心看作一个点,该点的值为网格内的人口数,通过计算点值密度来表示人口密度分布。
本文将不同类型建筑在不同乡镇中的统计数量和城镇区不同类型建筑的夜间灯光亮度统计值归一化后,得到各建筑类别的人口权重系数。具体流程为:①将建筑类别由.xls格式转换为空间矢量数据,读取建筑单体定位数据并进行投影转换。②判断单体建筑所属行政区划。③遍历80 532个建筑单体定位点,判断点位于第i个乡镇街道单元内并累计次数。④累计定位次数总 值得到各类建筑物数据统计表(表2),按照标准化方法将各个乡镇的各类建筑指标值进行归一化处理,将第i个乡镇街道作为单位1,归一化后计算第i个乡镇街道单元第j类建筑类型的统计人口分配权重Pij(表3)。
表3 盈江县统计人口的分配权重Pij
Tab.3 Assigning weight Pij for the number of population in Yingjiang County
(1)乡村地区
天地图遥感影像与重点隐患调查建筑物数据得出:乡村地区建筑主要为独栋庭院式建筑。因此根据面积权重法的基本原理,假设第i个乡镇第j类用途建筑上的人口为均匀分布,第i个乡镇第j类用途建筑的平均人口密度即为第k个格网单元内第j类建筑类型的人口密度,根据式(1)、(2)计算第k个格网单元的初步人口预测值为:
式中:Pij代表第i个乡镇第j类用途建筑的统计人口分配权重; POPi代表第i个乡镇街道的统计人口值; Sij代表第i个乡镇街道第j类用途建筑的面积; Skj代表第k个格网第j类用途建筑的面积; m代表建筑用途类型的总数。
(2)城镇地区
在云南地区,随着城镇化的发展,城市内部人口分布的空间差异性越来越大,特别是高层住宅楼、商业中心和办公楼等,小面积的土地上聚集大量的人口。因此,在城镇化较高区域引入夜间灯光亮度统计值作为人口密度分配权重,避免传统的面积权重法在人口计算时带来的局部误差。第七次全国人口普查盈江县数据显示城镇人口主要分布在县城所在乡镇,将城乡人口比例带入城镇人口空间化模型,由式(1)、(2)、(4)计算县级行政中心所在乡镇第k个格网单元的初步人口预测值POPk:
式中:Pijl代表第i个乡镇第j类用途建筑的灯光亮度统计人口分配权重; Fkj代表第k个格网第j类用途建筑的灯光亮度值; Fijl代表第i个乡镇第j类用途建筑的灯光亮度统计值。
根据乡村、城镇地区人口空间化模型计算得到盈江县100 m×100 m格网人口空间化结果(图5)。由表2~3可以看出,人口主要分布在住宅、商业中心、社会服务保障设施和其他用途建筑中。传统面积权重法的目标区为整个区域建筑,实际上不同地区、不同类型建筑的人口分布具有差异。本文引入第一次自然灾害风险普查重点隐患数据和夜间灯光遥感数据,利用这两种数据表征人口空间分布优势,结合普通面积权重法的基本原理,将目标区缩小到乡镇街道内部不同用途建筑上,这在一定程度上克服了传统方法目标区范围较大造成乡镇街道人口空间化结果不准确的缺陷,得到2020年盈江县100 m×100 m人口格网数据。由图5可见,人口密度高的地区主要集中于各级行政区划中心,盈江县区域内最大格网值为592人/万m2,为盈江县平原镇江岸明珠小区1期及周边1个酒店人口之和,大部分地区是人口密度为0的无人区域,这一结果基本反映了盈江县人口分布的基本状况。
图5 2020年盈江县100 m×100 m尺度人口格网分布图
Fig.5 Population distribution in terms of 100 m×100 m grid in Yingjiang County in 2020
相对误差计算公式为:
结合式(6)以及相关性检验对人口空间化结果进行定量精度验证。计算得到相对误差范围为: [-0.56%,0.51%],误差绝对值平均值为0.13%,图6相关性分析结果表明,盈江县15个乡镇的空间化人口数据统计值和乡镇人口数据相关系数R2接近1,检验结果表明本研究的人口数据空间化结果达到了较高的精度。
将本文人口空间分布研究成果(以下简称POP2020)与中国人口空间分布公里网格数据集(以下简称ChinaPOP)和全球人口网格数据集(以下简称WorldPOP)进行比较可以看出:
(1)研究方法。ChinaPOP数据是在计算各县级行政单元单位权重人口占比的基础上,应用栅格空间计算,把单位权重上的人口数与总权重相结合,进行人口的空间化; WorldPOP数据采用的是机器学习方法,通过随机森林的动态分布模型,导入丰富的基础变量数据后计算得出,流程简单,但该方法计算较为庞杂; 本文的POP2020方法选用的人口、建筑物数据精度高,计算模型影响因子较少,便于人口空间化。
(2)数据成果。将3组人口格网数据按乡镇行政区划进行统计,可以看出3组格网人口数据总量均接近于普查统计人口,POP2020数据最接近普查统计人口值(图6),ChinaPOP与WorldPOP的部分乡镇人口数量与实际统计结果存在数量级差距(表4)。
(3)人口空间分布。由图7可以看出,3组人口空间分布图能在一定程度上宏观地反映区域人口的疏密,但ChinaPOP人口空间分布与研究区人口的实际分布严重不符; POP2020与WorldPOP人口空间分布情况大体一致,但由于POP2020选用了灾害风险普查建筑物单体数据,人口数据的空间分辨率明显较高。
在完成人口空间化的基础上,以2021年6月12日云南省盈江县MS5.0地震为例,对灾害调查行政区划统计人口 云南省地震局.2021.2021年6月12日云南盈江5.0级地震灾害直接经济损失评估报告.、云南快速评估系统格网人口、盈江县POP2020格网人口进行对比分析。此次地震造成云南省德宏州盈江县3个乡镇不同程度受灾,无人员伤亡,直接经济总损失约3 720万元。地震灾区(Ⅵ度区域)涉及盈江县勐弄乡、卡场镇和苏典傈僳族乡的9个行政村(社区)。实地灾害调查过程中,按照实际受灾行政村进行统计的受灾人口为22 639人,5 549户; 利用云南快速评估系统公里格网计算受灾人口为18 000人; 本文的100 m×100 m格网统计受灾人口为19 657人,受灾建筑5 326栋。从震区人口分布图看(图8),Ⅵ度区虽然涉及3个乡(镇)9个行政村(社区),但勐弄乡、卡场镇并非所有行政村人口都在Ⅵ度区内,苏典傈僳族乡仅有少量人口落入Ⅵ度区内,说明基于行政区划统计的数据容易放大灾区受灾人口,现有格网数据由于数据源和方法的局限性,数据的空间分辨率暂不能满足地震应急精细化需求; 宏观震中半径2 km范围均为无人居住区,这可能是本次地震无人员伤亡的因素之一。本文的人口空间化数据统计估算的受灾人口(图8)避免了行政区划分割造成的数据分配错误,能够较为合理地反映行政区划内部的人口空间分布,从而保证灾情快速评估结果的可靠性。
图7 3种人口格网得出的盈江县格网人口空间分布
Fig.7 Distribution of the population of 15 townships in Yingjiang County obtained by 3 kinds of grid-data methods
图8 2021年盈江5.0级地震震区人口分布
Fig.8 Population in the affected areas by the 2021 Yingjiang MS5.0 earthquake
2021年,我国公布第七次全国人口普查数据和第一次全国自然灾害综合风险普查统计调查数据,对该年份开展人口分布的精细化研究可以为乡镇级人口数据空间化提供基准。第一次全国自然灾害综合风险普查是我国首次开展的全国性综合自然灾害风险摸底,是一项重大国情国力调查,也是进一步做好防灾减灾救灾工作的重要基础,为本文的研究提供了单体建(构)筑物的详细信息数据。基于风险普查重点隐患调查数据的人口分布精细化研究在未来的地震应急中大有可为,不仅可提高震时人口空间分布估计精度,而且利用其包含的丰富属性信息,可为地震灾害风险的精细化评估提供较为可靠的人口、建筑物数据基础。
本文利用空间分析准确判断建筑物单体的位置,累计格网建筑物数量和夜间灯光亮度值,得到统计人口在乡镇街道内部不同类型建筑上的实际分配权重。基于传统面积权重法的基本原理,将目标区从整体建筑缩小到乡镇(街道)内部不同用途建筑上,结合夜间灯光数据探究多源数据与人口空间分布的关系,有效解决了乡镇街道模拟人口和统计人口差异较大的问题。将本文人口空间分布研究成果与中国人口空间分布公里网格数据集和全球人口网格数据集进行综合比较可以看出:本文研究选用的人口、建筑物数据精度较高,计算模型影响因子较少,便于人口空间化; 模拟的盈江县所有乡镇人口值接近行政区划统计人口值; 用构建的盈江县人口空间化模型得到的人口数据空间分辨率明显提高,更加符合研究区人口的实际分布。
数据应用方面,结合乡镇尺度人口普查统计数据、灾害风险普查重点隐患建筑数据和夜间灯光遥感数据等多源数据制作的高精度人口空间化数据具有很大的应用潜力。本文方法不仅能够为云南地区地震应急人口伤亡、经济损失、救援力量派遣等快速评估模型提供高精度基础人口数据支持,有效提高地震灾害预评估结果的准确性,提高地震灾害精确救援,而且可为全省地震应急提供人口空间化产品,服务于地震应急辅助决策,为地震灾害风险评估提供数据支持。
本文方法也存在一定的局限性。在利用人口、房屋普查数据优势的同时,不可忽略少部分单体建筑物调查数据的有偏性。具体表现在2个方面:①全国灾害风险普查重点隐患数据仍需要对少部分数据的准确性进行核查; ②人口、建筑普查数据更新周期过长,人口普查数据10年一次,而建筑物普查为第一次。本文通过空间分析证明建筑物单体数据、夜间灯光数据与乡镇(街道)统计人口数据具有较强的相关性,显示出自然灾害风险普查数据的优势,但是没有对学校和医院等人口高度集中区域进行定量深入探讨,这一部分工作在后续研究中将继续深入。
本文基于2021年我国公布的第七次全国人口普查数据和全国自然灾害风险普查建筑物隐患调查建筑物单体数据,针对地震应急人口空间化数据对技术方法的需求,进行精细化人口空间分布研究,得到以下结论:
(1)本文的方法融合了人口普查数据尺度小、灾害风险普查重点隐患数据精度高、夜间灯光数据反映人口微观特征好等特点,构建盈江县100 m×100 m格网人口空间化模型,能够充分利用人口普查数据优势,客观反映该地区人口真实的空间分布。
(2)在传统面积权重法的基础上,结合各类建筑物数量、夜间灯光亮度比重对统计人口空间化进行权重分配,避免了不同乡镇同类建筑之间人口分布的差异对空间化结果精度的影响,显著提高了空间化初步模拟人口分布的精度,并能刻画出区域内部人口的精细分布特征。
(3)本文的人口空间分布精细化研究选用的数据精度更高,计算方法较为简单实用; 与2020年盈江县人口普查数据相关系数R2接近100%,乡镇尺度统计人口的相对误差均小于0.6%; 本文的人口格网数据空间分辨率明显高于中国人口空间分布公里网格和全球人口网格数据集。