1.四川港投雍景置地有限责任公司 成都 500643;2.四川农业大学水利水电学院 雅安 625014;3.四川省向家坝灌区建设开发有限责任公司 宜宾 610041
摘要:由于泥石流灾害的发生与多种因素有关,故本文从地形地貌、水文气象、地质三种类型出发,选取降雨量、岩性级别、坡度、起伏度和距断层距离5个评价因子,利用历史泥石流灾害发生点提取数据,再运用随机森林进行训练,得出各评价因子权重,最后利用GIS软件对各因子进行叠加分析,将雅安市泥石流危险性划分为五个级别,从而得到雅安市泥石流危险性分布图,并与历史泥石流灾害发生点进行比较。结果表明,天全县、芦山县、宝兴县三个地区整体危险性最高,荥经县、雨城区和石棉县整体危险性偏高,汉源县和名山区两地整体危险性相对较低。评价结果较好地反映了雅安市泥石流空间分布的实际情况,可以为雅安市制定合理的防洪减灾规划提供科学依据。
关键字:泥石流;随机森林算法;GIS;危险性评价
1研究背景
泥石流是一种最为常见的山区地质灾害之一,是一种由短时间强降雨等其他恶劣天气造成松软土质山体经饱和稀释后形成的急速地表径流,携带大量泥沙、石块等固体碎屑物质向地势低的地方流动,且造成生命财产损失的现象,具有发育突然、成灾快、危害大、监测困难等特点[1]。我国是多山之国,近70%的国土面积为山地,仅记载的泥石流数量达1.11万条,遍布26个省、市的广大山区,数量大,范围广,平均每年造成的直接经济损失巨大。其中,云南、四川和甘肃为滑坡泥石流严重灾害区,这些地区多位于青藏高原边缘地震带,加之降水对山地的冲刷,导致地表结构疏松,形成大量松散堆积物,再有人类不合理活动对环境的破坏,造成泥石流灾害频发。
1982年,我国学者王礼先提出了关于泥石流沟谷危险度的划分方法[2];1986年,谭炳炎提出了从决定泥石流沟的严重程度方向出发,选取十五个基本因素,按数量化理论的要求进行评分[3];1999年,汤家法运用GIS软件对岷江上游泥石流进行危险度划分[4];2002年,李辉霞从水土流失现状和驱动力两方面,对雅安地区的水土流失危险度作了评价和分区,将雅安市的水土流失危险性进行量级划分[5];2004年,刘希林通过对1990年和2000年四川省泥石流灾害易损度的对比分析,选取多个指标因子对泥石流的灾害风险进行定量计算得出雅安市为四川省泥石流灾害高风险区[6];2011年,王学良运用层次分析法,选取10个指标因子构建了泥石流危险性评价的层次指标体系,对泥石流危险性进行评价[7];2013年,赵鑫运用多元回归分析,建立了单沟泥石流危险度评价模型[8];2014年于金蓉基于GIS空间建模,选取四类因子结合层次分析法对雅安市石棉县,汉源县泥石流危险度进行评估[9];2015年,王家柱以雅安市天全县大叶龙沟泥石流作为研究对象,计算了泥石流动力学特征,并对其危险度进行了定量的评价[10]。
随着人工智能技术的发展,基于机器深度学习的对象评价已成为未来发展趋势。本文将结合随机森林算法和GIS软件,以泥石流灾害发生的各种指标为分析对象,对雅安市泥石流危险性进行评价,为科学合理地预测和应对该地区泥石流的发生提供科学依据。
2材料与方法
2.1研究区概况
雅安市位于四川盆地西部边缘,地跨北纬28°51′10″~30°56′40″,东经101°56′26″~103°23′28″之间,为盆地到青藏高原的过渡地带。地势北、西、南三面较高,中、东部低。市境山脉纵横,地表崎岖,地貌类型复杂多样,山地多,丘陵平坝少。气候类型为亚热带季风性湿润气候,南北差异大,年均气温在14.1℃-17.9℃间,年均降雨量为1800mm左右,常住人口约153.78万人。
泥石流灾害形成的原因错综复杂,影响和控制泥石流危险性的因素有很多,因此评价因子的选取应遵循科学性、可操作、层次性、目标性、可比性、定性与定量相结合的原则[11],评价指标体系的建立应满足适用性、完备性、可比性、综合性和系统性原则[12]。因此,根据前人研究成果[13],并结合本研究区的实际情况和GIS空间分析工具,选取的评价因子有:岩性级别、高程、坡度、断层缓冲距离和降雨量。
2.2数据处理
本文地形地貌类评价因子提取自“ASTGTM 30m分辨率数据”,山坡坡度和起伏度用GIS软件对研究区DEM进行提取;地质类评价因子原始数据来源于“250万中国地质图”,地层岩性级别是通过GIS软件提取地质图中的岩性数据,再根据《岩石分类及硬度级别》按照坚固性系数分为五个等级,距断层距离通过断层文件建立分级缓冲区进行提取;水文气象类评价因子采用了“TRMM 3B43卫星”1998-2016年19年间的全球0.25°×0.25°的逐月降雨量数据,通过MATLAB软件计算获得多年平均降雨量;实测泥石流发生点数据来源于“1997年四川省雅安市1:100万泥石流空间分布数据”和“四川省地质灾害隐患点掌上查询系统”。5个指标中,山坡坡度和降雨量为正相关指标,即指标数值越大,危险越高;起伏度、岩性级别和距断层距离为负相关指标,即指标数越大,危险越低。
由于各指标量纲不统一、取值范围变化幅度较大,不利于随机森林算法训练,所以需要对数据进行标准化处理,消除其量纲,公式如下:
.png)
(1)
式中,X为指标的标准值;Xi为某指标测量值;Xmax、Xmin分别为此项指标的最大值和最小值。
若指标与危险负相关,即逆向指标归一化为:
.png)
(2)
将各因子标准化处理后,按照对泥石流危险性的影响程度将各因子通过GIS用自然断点法按照危险性共分为五个等级,等级越高,危险性越大(表1):
表1 各指标等级范围表
Tab.1 Range of indicators
.png)
2.3研究方法
随机森林算法是一种基于决策树的集成学习方法,它最早是由Breiman和Adele Cutler[15]两位学者在2001年提出的一种机器学习分类器,它以决策树为基础,对决策树进行集成,其原理又不仅仅是单纯的bagging集成,它是将bagging集成和特征选择的思想结合起来,这种集成方式不但可以增加随机森林中单个决策树的多样性,而且还可以提高最终整个随机森林模型的泛化能力,模型的最终分类结果由模型内决策树通过投票的方式生成。
决策树[16]是随机森林的基本组成单位,其可视化图像是一棵倒置的树,每棵决策树都由三个主要部分组成:根、叶以及其余内部分支结点,利用所有的分支结点将不同数据进行划分归类。决策树的根结点包含了用于模型训练的数据集,所有的叶结点代表决策树模型最终的分类结果,叶和根之间所有的“树枝”则代表属性划分,当所有数据从决策树根部进入模型时,数据就会根据属性划分,分类到不同的树枝上,树枝不断向外延伸,直至最终生成叶结点,即得到最终分类结果,决策树就在这样一次一次的属性划分中生长出来。
决策树最关键的部分就是模型中树枝的分叉生长过程,如何选择一个最优的属性进行数据划分,使所有分支最终汇集到尽量少的叶结点上。决策树算法常用的属性划分[17]方式有三种,信息增益、增益率和基尼指数。
本研究主要采用基尼指数作为CART决策树的属性划分方式,基尼系数的主要原理是采用基尼值来对待测数据集D的纯度进行度量,具体计算公式如下所示。
.png)
(3)
公式(3)中,Gini(D)表示从数据集同时抽取两个样本,抽到不一样属性的两个样本的概率大小,Gini(D)数值越小,代表所选数据集的纯度越高。当属性划分为a时,可将Gini定义为:
.png)
(4)
公式(4)中,Dv表示当属性划分a的情况下,a的V个可能取值情况,通过属性划分,样本集被划分为V个子集,每个结点的权重为
.png)
。当基尼值达到最小时,我们默认该情况下的决策树划分属性为最优属性。
在决策树的生长过程中还有一个十分重要的过程,那就是决策树的剪枝。一棵决策树如果不对其进行剪枝处理,就会出现生长过度的情况,会造成模型过拟合现象的出现,因此剪枝过程必不可少。但随机森林中的每一棵决策树,在建立过程中都添加了随机特征选择过程,决策树过分生长的情况自然不会出现,所以就无需考虑决策树剪枝问题。
Bagging集成[18]通过自助采样法(bootstrap sampling)从数据集中进行重复采样,具体原理为:从所有样本数据集中抽取一个样本,记录下该样本的属性名称,然后将该样本重新放回原数据集中,重新抽取数据,保证在每次样本抽取过程中,每一个样本被抽到的可能性是相同的,根据得到的抽样集来建立相应的决策树模型,其采用投票法对决策树模型输出结果进行相应结合,并利用袋外数据(out of bag data,OOB)进行最终模型性能评价。
3结果与分析
本文将雅安市实际发生过泥石流灾害的270个点位置数据作为输入数据,其中200个数据作为训练样本,70个数据作为检验样本,利用前文给出的随机森林算法求各指标权重,其结果如表2所示。然后利用GIS空间分析的栅格计算器将各指标因子按公式5进行叠加,得到雅安市泥石流灾害危险性综合分布图,如图1所示。
表2各指标权重
Tab.2 Weights of Indicators
.png)
(5)
其中,P为洪灾危险指数;L为岩性级别指标;U为起伏度指标;S为坡度指标;D为距断层距离指标;R为降雨量指标;α,β,γ,δ,ε分别为各指标的权重。
从图中可以看出,雅安市北部泥石流危险性明显较高。通过对检验样本的分析,70%位于泥石流危险中等及以上区域,结果较好的反映了雅安市泥石流空间分布的实际情况。危险极高区域占全域面积的15.48%,宝兴县的中部及南部,芦山县中北部,天全县西部以及石棉县中部偏西少部分地区等地泥石流危险性极高,这些区域属于坡度较大起伏强烈区域,且分布在断层带之上,极易发生泥石流灾害;危险性高区域占26.66%,包含宝兴县南部,芦山县、天全县、荥经县中部以及石棉县中北部地区,这些地区起伏度相对较大且植被覆盖较少,若发生暴雨、山洪等情况,易发生泥石流;危险中等区域占24.14%,主要分布在雅安市中部及南部,这些区域大多没有分布在断层带之上且地质条件较好,爆发泥石流可能性较小;危险低、极低区域占33.72%,主要位于雨城区东南部,宝兴县北部,石棉县西部以及名山区,这些区域大多植被覆盖较好且地势平坦,不易发生泥石流灾害。
利用GIS软件进行统计分析,得到如表3所示结果。从表中可以看出,芦山县,宝兴县,石棉县这三个行政区V级区域占比最多,且IV级区域占比均在23%以上,需警惕这些IV级区域可能突破临界值转化为V级危险区,所以这三个行政区需要做好科学的防灾工作;荥经县、天全县和汉源县III级及以上区域占比均在50%以上,也需要警惕泥石流发生的可能。雨城区和名山区两地IV、V级区域占比相对较少,整体的泥石流危险性最低,但也需要重视泥石流发生的预防工作。
.png)
图1泥石流危险性分布图
Fig.1 Debris flow hazard map
表3各区(县)危险性排名及不同危险等级所占比例(%)
Tab.3 Hazard ratio and the proportion of different hazard levels in each district (county)
危险性等级
区(县)危险性排名 I II III IV V
天全县(1) 10.408 19.618 27.629 28.873 13.473
芦山县(2) 9.238 18.27 27.067 27.479 17.946
宝兴县(3) 15.736 12.252 24.411 29.88 17.722
荥经县(4) 7.833 18.249 28.44 30.449 15.03
雨城区(5) 27.939 32.192 14.972 15.698 9.198
石棉县(6) 10.675 17.45 23.05 29.273 19.552
汉源县(7) 14.095 23.213 24.315 23.881 14.496
名山区(8) 37.9 40.036 10.617 6.346 5.101
4结论
(1)在总结前人研究成果基础上,选取降雨量、地层岩性、距断层距离、地形起伏度和坡度因子作为评价指标,构建评价指标体系,并在GIS软件上将各指标因子按照各自权重叠加,从而得到雅安市泥石流灾害危险性分布图。最后将分析结果与检验点泥石流灾害发生位置进行对比,研究表明一致性良好。
(2)利用随机森林算法结合实际发生泥石流灾害位置点提取评价因子标准化处理后进行学习训练,得出各评价指标的权重,提高了研究结果的准确性。
(3)从危险性分布图来看,泥石流灾害危险性较高的区域主要集中在宝兴县中部和天全县西部以及芦山县大部分地区,而这三个行政区人口分布相对密集,更会加重泥石流灾害带来的影响,应做好相应的防灾工作。
(4)本文使用0.25°×0.25°的TRMM卫星多年平均降雨量指标,空间尺度较大,对于山区降雨的空间差异性表述仍有不足,也缺少对局部短时强降雨的描述,应考虑更小时空尺度的面降雨量如多年平均最大三日降雨量,大于50mm汛期年均暴雨天数等。以上不足希望在以后的研究中加以完善。
参考文献
[1]王家柱,任光明,余天斌,高波.四川芦山震区大叶龙沟泥石流发育特征及危险度评价[J].中国地质灾害与防治学报,2015,26(04):1-5.
[2]赵鑫,程尊兰,刘建康,刘大翔,时亮.云南东川地区单沟泥石流危险度评价研究[J].灾害学,2013,28(01):102-106.
[3]王学良,李建一.基于层次分析法的泥石流危险性评价体系研究[J].中国矿业,2011,20(10):113-117.
[4]韩用顺,崔鹏,刘洪江,杨命青,李朝奎.泥石流灾害风险评价方法及其应用研究[J].中国安全科学学报,2008,18(12):140-147+26.
[5]刘希林,苏鹏程.四川省泥石流风险评价[J].灾害学,2004(02):25-30.
[6]李辉霞.雅安地区水土流失危险度评价、分区和发展趋势分析[J].水土保持学报,2002(06):17-19.
[7]汤家法,谢洪.GIS技术支持下的泥石流危险度区划研究──以岷江上游为例[J].四川测绘,1999(03):120-122.
[8]谭炳炎.泥石流沟严重程度的数量化综合评判[J].水土保持通报,1986(01):51-57+44.
[9]于金蓉,鞠丽红,李显.基于GIS空间建模的泥石流危险度评估[J].科学中国人,2014(4):30-30.
[10]王礼先.关于荒溪分类[J].北京林学院学报,1982(03):94-107.
[11]付晓刚.土石山区坡面径流集散工程效益评价体系研究[D].长安大学,2008.
[12]崔鹏,杨坤,韦方强,陈晓清.泥石流灾情评估指标体系[J].自然灾害学报,2001(04):36-41.
[13]李鑫杨,刘庆生,白淑英.四川省雅安市泥石流灾害危险性评价[J].水土保持通报,2017,37(02):278-283+288.
[14]Breiman L. Random forests [J] . Machine Learning,2001,45(1):5-32.
[15]Landgrebe D. A survey of decision tree classifier methodology[J]. IEEE Transactions on SystemsMan & Cybernetics,2002,21(3):660-674.
[16]Darnell S J, Page D, Mitchell J C. An automated decision-tree approach to predicting protein interaction hot spots[J]. Proteins Structure Function & Bioinformatics,2010,68(4):813-823.
[17]蒋芸,陈娜,明利特,等.基于Bagging的概率神经网络集成分类算法[J].计算机科学,2013,40(5):242-246.