基于密度的聚类算法与改进拉依达准则的95598工单处理方法

时间:2023-08-20 09:45:03 来源:网友投稿

彭 昕,陆子秋,闫 筱

(国网上海市电力公司嘉定供电公司,上海 201800)

95598客服热线作为电网公司与用户交流的平台,是重要的服务窗口。随着电力行业的发展,用户体验要求不断提高,为尽快解决用户问题,对客服人员工作效率的要求也不断提高[1]。另外,客服人员在记录用户描述的问题时可能会由于各种因素导致部分信息出错,一旦故障地址填写错误,就可能导致抢修人员前往错误地址,占用抢修资源,延长故障修复时间,影响用户的正常用电。因此,利用各种高效且具备一定纠错能力的数据处理工具构建处理系统,已成为当前急需解决的问题。

为解决这些问题,本文利用密度的聚类算法(DBSCAN)识别出脱离用户聚集区的异常点,利用改进拉依达准则识别位于用户聚集区的异常点,对于识别出的异常点均利用抄表段中心坐标替换。为方便工作人员进行分析,将所有故障信息在地图上进行可视化处理,输出故障热力图。

95598客服人员在接听用户来电时,可能由于多种因素导致部分地址不准确,大幅偏离实际地址,海量数据下逐个回访确认耗时耗力,效率低下。为不影响抢修人员前往现场抢修,可将错误地址修正为实际地址周边区域,而同抄表段往往代表着地理位置相近,因此可利用抄表段中心地址替换错误地址。

为增强中文地址的可处理性,将其转化为经纬度坐标进行分析,若无法转换,说明待转换地址缺失部分信息或有较多不规范的俗称,可将无法转换的地址记录下来并利用抄表段中心坐标替换,其基本技术路线如图1所示。

图1 地理编码技术路线

通常情况下,同抄表段下有多个故障地址,而同一抄表段往往代表着地理位置相近,可以利用抄表段中心地址来替换掉错误地址,并且即使算法将正常坐标点误判为异常坐标点。由于采用地址相近的抄表段坐标中心,也不会使得误判坐标点较实际地址相差过大。

在计算抄表段中心坐标时,应不能包括待判断坐标值,公式如下:

(1)

式中Ci——第i个坐标的抄表段中心坐标;
Ai——不包含待判断坐标值的集合;
xi——第i个坐标值。

由式(1)可知,由于计算抄表段中心坐标排除自身,因此即使抄表段相同,计算出的抄表段中心也可能不同。

故障地址常为居民聚集区或工业聚集区,转换为经纬度坐标同样具备此类特性,脱离聚集区域的离群点往往为记录错误的地址,且由于用户聚集区域的复杂性,某个地区聚集区域的形状、数量是难以获取的,因此异常检测算法必须能适应各种不同的聚集区域形状,根据数据情况自适应不同数量的聚集区域,DBSCAN能有效检测离群点[2-3],并且DBSCAN划分具有足够密度的数据区域为簇,与K-Means等算法比较,DBSCAN能处理各种形状的数据区域,也不需要指定聚类个数。

与K-Means算法相比,DBSCAN更适合用于异常检测,DBSCAN具体计算流程如下。

(1)定义邻域半径ε、邻域半径中点的最小数目min_samples。

(2)随机初始化一个点xi,若该点为核心点,则该点邻域半径内应包含至少min_samples个点,即:

Nε(xi)≥min_samples

(2)

若该点不满足式(2),则该点为边界点,重新初始化一个点,边界点邻域内:

Nε(xi)≤min_samples

(3)

(3)初始化第一点后,逐个判断其邻域内的点是否为核心点,若为核心点,仍逐个判断其邻域内的点是否为核心点,直到处理完所有的点。

其中,异常点为既不是核心点也不是边界点的坐标点。

由DBSCAN原理可知,其仅能识别出脱离聚集区的离群异常点,并且由于DBSCAN是先确定异常点再利用排除异常点后的抄表段中心替换异常点,基本技术路线如图2所示。计算抄表段中心坐标不易受离群异常点影响,剔除异常点后也有利于提升下一步先计算抄表段中心再识别异常点的改进拉依达准则算法的鲁棒性。

图2 DBSCAN算法技术路线

为进一步说明DBSCAN的优势,采用经典的笑脸散点图进行说明,不同的类别利用不同的颜色表示,其中DBSCAN算法聚类示意图如图3所示,K-Means算法聚类示意图如图4所示。

图3 DBSCAN算法聚类示意图

图4 K-Means算法聚类示意图

由图3和图4可知,对于相对而言较容易聚类的笑脸的眼睛与嘴巴部分,两种算法都能有较好的分辨能力。在实际情况中,用户聚集区的形状往往并非明显呈一个可被K-Means算法聚类中心的近圆形,且各聚集区往往也不会有较大的间隔,这使得K-Means的鲁棒性非常差,多次聚类结果往往不一致,对于复杂形状甚至无法聚类,例如笑脸中包围中心的外围圆形。DBSCAN则很好地解决了此类问题,仍能将笑脸外围的圆形聚为一类。

DBSCAN无法识别出处于聚集区域的异常点,可进一步利用工单信息中的抄表段属性。由于同一抄表段下地理位置相近,若某一故障地址过度偏离该抄表段中心地址,此故障地址往往记录错误,可利用改进拉依达准则计算偏离阈值。拉依达准则能识别出样本数据值异常的情况,即使该错误地址仍位于聚集区,但经纬度坐标为真实地理位置,不能直接认为较大或较小的坐标值即为异常点,对拉依达准则进行改进筛选过度偏离抄表段中心的地址:

(4)

若当前待检测坐标为异常坐标,则利用抄表段中心替换,技术路线如图5所示。

图5 改进拉依达准则技术路线

为进一步说明改进拉依达准则的优势,采用标准正态分布示意图表示,如图6所示。

图6 标准正态分布示意图

由图6可知,偏离数据均值越大的数据出现的概率越小,当偏离均值过大时,往往可将其视为异常值,一般取置信度为0.95。本文中的判别对象为经纬度,是实际地理位置的坐标值,不能认为偏离经纬度中心的坐标为异常值,如城市郊区一般偏离经纬度中心较远,直接利用经纬度坐标判断可能导致异常坐标均为郊区坐标,考虑到本文数据中抄表段数据相同往往代表地理位置相近,若偏离抄表段中心过远则其往往为异常值,可采用待检测坐标与抄表段中心坐标的距离作为检测对象,即过度偏离抄表段中心被认为是异常坐标。

综上所述,本文模型实现的基本技术路线如图7所示,基本步骤如下。

(1)将工单数据按照抄表段排序,提取其中的故障地址以及抄表段信息。

(2)将故障地址逐个利用工具转换为经纬度坐标,将无法转换的错误地址利用抄表段中心坐标替代。

(3)利用DBSCAN对坐标数据进行聚类,对各坐标所属类别进行标记,检测出的离群点利用抄表段中心坐标替代。

(4)利用改进拉依达准则逐个判断各坐标是否需要纠正,若需要,可利用抄表段中心坐标替代。

图7 模型基本技术路线

若要整体分析某区域拨打95598工单信息,采用表格的方式局限性较大且不直观,不能直观地观察出区域内何处故障较多。因此,本文利用实际地图绘制出热力图,直观地展示各处的故障情况,可视化95598工单信息。为进一步提升热力图可视化系统的可读性与可重复性,利用Java编写网页实现以下功能。

(1)热力图应在实际地图上生成,而并非简单地在二维坐标平面上生成。

(2)绘制热力图的坐标数据应为独立文件,不集成在代码中,以方便替换其他文件,实现快速替换数据绘制热力图。

(3)由于在实际地图上绘制,地图上非待分析区域应遮罩处理,待分析区域应高亮处理,待分析区域与非待分析区域应有明显的边界,地图的显示要素如文字标注、道路名称等应能根据需要开启或关闭。

为说明所提方法的有效性,采用2021年上海市嘉定区95598工单数据共21 147条利用本文模型进行分析。

6.1 无法转换地址分析

提取工单数据中的故障地址利用Python内Requests库对地理编码工具进行请求,判断返回状态值是否显示转换成功:若成功,则提取返回值中的经纬度坐标值;
若失败,则记录失败信息在工单信息中的位置以及地址。

利用地理编码工具记录的错误信息如表 1所示。

表1 地理编码错误信息

由表1可知,地理编码工具返回值为0即无法定位的地址数量不多,且均是缺乏部分信息或是不规范的俗称导致编码工具无法识别其经纬度坐标,因此地理编码工具仅能初步筛选存在较明显问题的地址。

6.2 DBSCAN算法分析

由表1可知,故障地址经地理编码工具分析后仅能筛选出有较明显问题导致无法定位的地址,无法识别记录错误但无明显问题的地址,即地理编码成功后仍存在大幅偏离实际地址的错误地址,为识别出脱离聚集区域的离群异常点,采用DBSCAN算法。

DBSCAN分析聚类散点图如图8所示,利用抄表段中心替换异常坐标后重新生成的散点图如图9所示。

图8 DBSCAN算法处理前

图9 DBSCAN算法处理后

图8和图9中,横坐标lng为经度,纵坐标lat为纬度,图8的红色标记即为识别出的离群点。由于本文采集的数据为嘉定区95598工单服务信息,故障坐标点组成的形状应与嘉定区行政区域在地图上形状基本一致。然而由图8可知,由于地址记录错误等原因,实际有较多坐标点脱离聚集区域,经DBSCAN处理后,未被识别为异常的坐标点组成的形状与嘉定区形状基本一致,说明DBSCAN算法能有效处理离群点。由于并非所有异常点均具备抄表段信息,部分异常坐标点不能利用抄表段中心坐标替代,因此图9中仍然存在部分离群点,存在抄表段信息的异常坐标点已被抄表段中心坐标替换,因此图8中的离群点少于图9中的离群点。

6.3 改进拉依达准则分析

由于抄表段相同往往代表地理位置相近,若某地址过度偏离其抄表段中心坐标,则说明其地址记录存在问题,过度偏离的阈值由改进拉依达准则确定,即先计算抄表段中心坐标再计算识别阈值。

改进拉依达准则处理前聚类散点图如图10所示,将异常坐标点利用抄表段中心坐标替换后生成的散点图如图11所示。

图10和图11中,横坐标lng为经度,纵坐标lat为纬度,图10的红色标记点即为利用改进拉依达准则识别出的异常点。较DBSCAN算法识别出的异常点,改进拉依达准则识别出的异常点基本位于聚集区域内。

图10 改进拉依达准则处理前

6.4 热力图可视化

利用上述方法处理经纬度以及工单信息后,生成的热力图如图12如所示。

图11 改进拉依达准则处理后

图12 故障情况热力图可视化

针对95598工单信息中对抢修影响较大的故障地址往往由于各种因素导致其不准确甚至大幅偏离实际地址的问题,本文进行了如下处理。

(1)采用地理编码工具将地址转化为经纬度,增强地址信息的可处理性,初步筛选出错误地址,并利用抄表段中心坐标替换错误地址。

(2)采用DBSCAN算法识别出离群异常点,将识别出的异常坐标利用抄表段中心坐标替换,增强易受离群点影响的改进拉依达准则识别方法的鲁棒性。

(3)改进拉依达准则,利用待检测坐标与抄表中心坐标的距离作为检测值,识别出非离群异常点,并利用抄表段中心替换。

(4)抄表段相同的工单往往代表其实际地址位置相差不大,采取抄表段中心坐标替代异常坐标不仅能有效修正错误地址,即使算法误判,替换后的地址仍在实际地址附近。

(5)利用实际地图以及工单信息生成热力图可视化故障信息,可直观地观察待分析区域的故障情况,以便抢修力量的部署。

猜你喜欢离群准则聚类具非线性中立项的二阶延迟微分方程的Philos型准则数学物理学报(2020年1期)2020-04-21基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08一种相似度剪枝的离群点检测算法小型微型计算机系统(2018年8期)2018-09-07基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26基于Canny振荡抑制准则的改进匹配滤波器系统工程与电子技术(2016年7期)2016-08-21离群数据挖掘在发现房产销售潜在客户中的应用中国房地产业(2016年9期)2016-03-01一图读懂《中国共产党廉洁自律准则》浙江共产党员(2015年11期)2015-05-23一种层次初始的聚类个数自适应的聚类方法研究电子设计工程(2015年6期)2015-02-27应用相似度测量的图离群点检测方法西安交通大学学报(2014年8期)2014-04-16一种基于核空间局部离群因子的离群点挖掘方法上海电机学院学报(2014年3期)2014-02-28

推荐访问:算法 密度 准则