基于AI智能LTE容量分析系统研究

发表时间:2021/7/23   来源:《科学与技术》2021年第29卷3月第8期   作者:薛松荃1 边瑞2 叶惠钿3
[导读] 随着移动互联网的迅猛发展,用户使用移动通信网络的流量也逐渐提升,
        薛松荃1         边瑞2         叶惠钿3
        1中国联合网络通信有限公司广东省分公司;2、3中国联合网络通信有限公司东莞市分公司
        摘要:随着移动互联网的迅猛发展,用户使用移动通信网络的流量也逐渐提升,随之而来的,移动通信网络的负荷也不断增加;因此,为保障用户感知,运营商需要不断对高负荷的基站进行扩容。然而传统的扩容流程依靠人工筛选数据、寻求时序规律、确定扩容方案,效率不高。本文通过研究一套基于AI的LTE容量分析系统,能自动分析高负荷站点、确定扩容方案、并指出拆闲补忙的来源,更进一步的,通过机器学习,可以对高负荷站点通过内在联系匹配不同的优化参数,实现自动分析,极大的提升了分析优化的效率。
        关键字:LTE容量 ;AI;拆闲补忙
        
        1、概述
        移动互联网的迅猛发展,最有力的推动因素在于移动网络的普及,特别是4G网络的不断完善覆盖。如今,移动互联网已经全面渗透到人们生活、工作的各个领域,几乎人人通过智能终端可以实现即时通信,在用户需求更快的上网速度、更流畅的视频及游戏业务上,给4G网络带来了巨大的考验。2017年来,运营商针对2I用户的业务迅猛发展,到2021年虽然5G进行了少量分流,但运营商热点城市的4G负荷仍然居高不下,在此背景下,针对4G容量问题,运营商更加需要紧盯最重要问题,通过精准规划建设及扩容,确保用户感知以及投资精准有效。  
        东莞联通作为典型代表,在应对新型业务、视频业务对网络容量冲击方面提出了更新更高的要求,要动态快速拆闲补忙扩容,极速盘活现有资源,使效益最大化,提出要极致保障用户速率感知体验,基于负载、速率快速均衡优化,保障用户感知保持平稳。常规的人工操作网络容量分析效率低下,AI智能容量分析工具的研发是当前网络支撑的提高工作效率迫切需求,在无硬件投入的基础上,通过人工成本投入,研究数据及算法,软件功能开发的手段,低成本就可实现自动化快速拆闲、补忙小区定位、不均衡小区定位,以及针对不均衡扇区利用AI进行自动分场景分类实施个性化优化,以实现容量问题极速支撑,做好LTE容量保障,意义深远。
2、总体思路
        以东莞为基础案例,以4G网络容量快速智能优化为导向,聚焦业务需求、用户感知。研发一套基于python、mysql开源软件开发的,以SQL数据库为依托,Python语言为实现方式的,实现自动化快速拆闲、补忙小区定位清单输出、不均衡小区定位清单输出的自动化容量分析辅助软件。拆闲及补忙小区搭配形成动态资源重新配置,增加资源效益。针对不均衡扇区利用AI进行自动分场景分类,并针对其特点实施个性化的均衡方案,以实现容量问题极速支撑,做好LTE容量保障。

        图1、自动化容量分析框架图
        
3、具体技术方案
3.1小区信息自动化规整:
        基于小区命名规则,如“东莞-H-常平芙蓉围-404330-2-1-OF”,如图2:

其对应命名规整为“地市-厂家-站名-站号-扇区号-载波号-站点类别”,由于华为拉远的小站其命名中的站号有可能与原宏站站号一样,导致单凭“站号+扇区号”会出现华为小站扇区信息不正确问题。故需使用 “站名+扇区号”或“站号+站点类型+扇区号”来定义小区对应的扇区信息。
根据每周更新的小区配置表,利用python自动化分析小区命名规则,正则匹配关键信息,并按扇区命名规则进行扇区信息规整。




3.2依托MySQL数据库进行数据统一管理
        利用MySQL数据库,对每周话务数据进行统一规整,以便容量分析时方便调用,并达到数据备份的目的。
        在远程服务上建立数据库,建立表,并定期将全网话务信息导入存档。目前已建立每周忙时话务、沃平台每天23点话务等数据表。

3.3编写脚本形成容量一体化分析工具
        利用python语言编写工具,自动从上述建立的数据库中提取适当的数据然后进行容量预警分析、均衡分析、拆闲小区分析。
        1、容量预警
        与日常容量监控不同,本容量预警聚焦于整扇区容量负荷,聚焦低速率影响及除扩容外无法有效解决扇区,进行扇区容量预警。排除了扇区中仅是某个小区忙,可均衡优化解决的非容量需求问题,精确定位,指导资源投入。

        2、拆闲分析:
        算法定义采用连续两周忙时话务数据,着力找出连续两周忙时话务整扇区话务低,扩容小区无效益空间,尽管将扩容小区拆除也满足扇区容量需求,不影响用户感知的极闲扩容载波。指导资源的灵活调配,在目前投资收紧情况下,将效益最大化。

        3、不均衡扇区分析:
        根据忙时话务及每日23点话务情况,以保障用户感知为出发点,聚焦速率不均衡扇区。以指导速率容量均衡,提升用户感知,提速增效。

        4、各模块集合形成统一的容量分析工具
        利用Windows下bat脚本,实现各模块工具的整合,形成可视化交互界面,并实现多工具并行。提供友好的使用体验及高速高效容量分析。


3.4均衡场景AI分类及优化
        针对不均衡小区清单,提取这些小区的覆盖信息、切换信息、业务占比、下行信号质量等信息:
(1)覆盖信息:提取这些小区6月份平均TA值和MR>=-110的覆盖率。
(2)切换信息:统计这些小区6月份同频切换次数占总切换次数的比例,旨在区分这些小区的切换特征。
(3)业务占比:统计7x24小时业务情况,计算流量最多的小时流量占比一天流量的比例
(4)下行信号质量:统计小区6月份CQI均值
数据处理
去2020年5月第二周数据为例,当周不均衡小区4124个,提取原始数据后,需要分别处理成单行数据,可以利用Python的Pandas库进行处理,例如,在进行7x24小时数据处理时,用excel处理比较繁琐,利用Pandas的数据透视表功能很快能处理好:
1.df3=pd.read_csv('volume.csv',encoding="gbk")
2.df4=df3.pivot_table(index=['date_id','EUtranCellFDD'],columns=['hour_id'],values=['Volume_dl'])
3.df4.to_csv('E:/python/out6.csv',encoding='utf_8_sig')
        其他数据依次处理好,并关联原始小区名,考虑到处理数据方便性以及缺失值样本大小,直接利用dropna( )删除掉缺失数据的小区,最后形成原始训练数据,读入dataframe,并读取头部数据如下:



        聚类就是将一个尚未进行打标的数据集按数据的内在特征进行分类,不同于人为标注的类别,数据集自身的类别往往相似度粒度更小。常见的聚类方式有K-Means聚类、DBSCAN聚类、Aggregative层次聚类、Birch聚类等方式,其各有优缺点。一般采用轮廓系数来评估聚类效果,轮廓系数即表示对聚类结果簇中的节点到聚类簇的凝聚度和分离度,值越大则表示聚类效果越好。
        当不知道选择哪类聚类方式的时候,可以将数据代入上述的聚类方式,查看结果的好坏。
        (1)K-Means聚类
1.km=KMeans(n_clusters=3).fit(X)
2.score=metrics.silhouette_score(X,km.labels_)
3.print(score)
        K-Means聚类的结果轮廓系数为0.5868932859624443
        查看聚类后标签分布:
1.cell['cluster']=km.labels_
2.cell.sort_values('cluster')
3.r=dict(cell['cluster'].value_counts())
4.print(r)
   结果为:{1: 1872, 0: 1529, 2: 454},即聚类到标签“1”的小区有1872个,“0”的小区有1529个,“2”的小区454个。
   (2)DBSCAN聚类
        同样的,按照(1)的方法,得出DBSCAN的轮廓系数为0.4673388520279683,聚类后标签多达45类!显然,聚类结果与我们预期不一致。
        (3)Aggregative层次聚类和Birch层次聚类
        对上面两个聚类方式进行同样处理,得出轮廓系数分别为0.6939083878489288和0.5972125464861092,比K-Means结果要好;但是,统计其标签分类,以Aggregative聚类方式为例,其结果为:{0: 3790, 1: 63, 2: 2}        ,也就是其聚类标签为“2”的小区仅有2个,分别为东莞-H-清溪银利高尔夫南-442859-2-1-OF、东莞-H-南城水濂山山顶-442867-1-1-OF,其TA值均超过2KM,考虑到实际网络中LTE的覆盖,此类高站覆盖较远的情况是客观存在的,不建议当成异常值进行处理,因此,采用层次聚类虽然轮廓系数较好,但是对于离群点的分类存在一定的限制,这也正是层次聚类的缺点:奇异值也能产生很大影响.
        综合以上,K-Means是最适合本文聚类处理的聚类方式。
聚类结果可视化
        聚类完成后,我们也会很关心其直观聚类结果,由于文中数据是5维数据,并不能直观显示出来结果,可利用PCA数据降维,将数据展示出来。


        这种情况下,无法看出聚类的效果,将图片向左旋转90度,并平视,有如下结果:
1.fig=plt.figure(figsize=(10,8))
2.##固定elev=0,改变azim为0,90,180,270
3.ax=Axes3D(fig,rect=[0,0,1,1],elev=0,azim=90)
4.ax.scatter(X_pca[:,0],X_pca[:,1],X_pca[:,2],marker='o',c=km.labels_)
5.plt.show()


        完成聚类之后,我们需要对聚类生成的结果进行特征分析,以发现不同数据之间的差异。
        画出聚类后5个特征两两之间的关系如下


        可以看到,其余特征均与TA特征相关性较大,审视数据发现:
(1)随着TA增大,类别“2”的小区同频切换占比较高,对于扩容小区,其一般策略是基于负载的异频切换,因此一方面,需要控制这些小区的覆盖,调整天馈或者降低功率;另一方面,需要调整异频切换的门限,让小区占用同频小区时更容易切换到异频小区;
(2)类别“0”和类别“1”整体CQI偏低的小区较多,并且忙时流量占比较高,此时,应调大负载均衡用户数门限,并将对应异频小区的切换门限设置较大,以让用户更多占用异频小区,达到小区速率较为均衡,尽可能提升用户感知。

完成了特征分析后的下一步,是能将结果应用到新的一批数据中去,即预测新出现的扩容小区,实施相应的参数。
        对于分类算法而言,不同特征的取值范围会影响分类器的性能,为避免这种影响,需要先将数据标准化;这里利用sklearn的StandardScaler将数据标准化为均值为0,方差为1的分布数据。

 然后调用KNN的score查看准确率,训练集和测试集的准确率分别为:0.9481148391560014和0.921161825726141。
        完成分类器的训练后,就可以预测数据了,针对新的不均衡小区,进行数据标准化后输入分类器,可得到预测值:

        针对以上不同场景的分类结果,小区内在的特征将小区细分“场景”,针对其指标特性,按照一类“场景”的特点制定一套个性化的负载均衡参数,并根据持续优化情况按需调整参数配置。并且对于后续的不均衡的小区能准确分类到相关“场景”中,快速输出优化参数;进一步的,可以按照此思路进行智能网优系统设计,针对不同的场景,推荐类别的优化参数,不依赖前线优化人员经验,迅速完成网络优化,节省人力成本。
4、总结
        本文所述的项目研究融合了MySQL数据库及目前最流行的python语言,形成一套全面的容量分析工具,实现自动化快速拆闲、补忙小区定位、不均衡小区定位,实现对不同场景的不均衡的扇区实施个性化的均衡优化方案,能快速支撑容量分析优化及指导资源灵活精确调配。与传统需手工一一筛选相比较,最大的特点是省事省时高效。其中容量分析效率提升50%以上,拆闲分析及不均衡分析效率提升巨大,按传统单一扇区人工分析,根本无法有效将全网不均衡及可拆闲小区在一天内处理完成。使用本工具仅需不大1小时即可完成所有分析,如扩容预警清单及不均衡扇区清单仅需不到2分钟即可完成,极大的节省了人力成本。

参考文献:
[1] D Xu, Tian Y . A Comprehensive Survey of Clustering Algorithms[J]. Annals of Data Science, 2015, 2(2):165-193.
[2] 刘红岩, 陈剑, 陈国青. 数据挖掘中的数据分类算法综述[J]. 清华大学学报(自然科学版), 2002, 42(006):727-730.

作者介绍:
        薛松荃(1973.12-),男,汉族,广东佛山,工程师,工程硕士,在中国联合网络通信有限公司广东省分公司主要从事通信网络管理。
        边瑞(1990.12-),男,汉族,广东东莞,工程师,工学硕士,在中国联合网络通信有限公司东莞市分公司主要从事无线网络规划及系统优化。
        叶惠钿(1987.10-),男,汉族,广东东莞,工程师,工学学士,在中国联合网络通信有限公司东莞市分公司主要从事无线网络规划及系统优化。
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: