亚博体彩 百度网络监控实战,应用场景的多维分析

日期:2021-02-08 02:03:18 浏览量: 137

干货概述

收集数据时,通常会在数据上附加一些标签。这些标签从不同角度描述数据。我们称这些角度为维度,并将这些带有附加维度信息的数据称为多维数据。

在收集数据之后,我们通常只关注那些与预期不同的数据,并检查这些异常数据集中在多个维度的位置。我们称这种分析方法为多维分析。

在网络监控中,我们可以使用多维分析来定位网络故障。接下来,本文将以百度Intranet质量监控的场景为例,介绍多维分析的实践经验。

内网质量监控要求

百度在全国数十个数据中心(计算机房)中分布有数十万台服务器。这些服务器通过Intranet连接以提供外部服务。该网络是一个多层次的分布式结构,主要层次包括:区域,计算机室,集群,ToR(机架顶部亚博买球 ,机架)。

网络安全监控实战

图1百度内部网络拓扑图

您看到的各种服务通常是模块化设计,并且这些模块部署在不同计算机机房中的不同服务器上。内部网络一旦发生故障,模块之间的通信将受到影响,这将导致服务体验下降或不可用。当工程师发现服务故障时,他将检查程序,数据,主机环境,网络环境等亚博集团 ,以评估故障的范围,并选择合适的计划以减少损失。在此过程中,必须检查网络环境。

一个典型的场景是:服务X的工程师发现可用性正在降低。由于该服务部署在计算机房A和B中,因此有必要检查这两个计算机房的网络环境是否有故障。如果有问题,整个计算机室仍然受某个ToR的影响。下有几台机器。

如您所见,针对不同故障的相应计划是不同的。工程师需要了解网络中是否存在故障以及哪些计算机机房,群集和ToR受故障影响,然后他们才可以选择合适的计划来实施。

内网质量监控计划1内网质量数据

正如我们已经在此处介绍的那样,端到端方法用于内部网络质量监视,以通过在服务器之间发送检测请求来监视网络质量。

当检测计算机机房A和计算机机房B之间的网络状态时,我们分别从计算机机房A和计算机机房B中选择n台服务器a1,a2,... a1,b1,b2 、。 .bn,将检测包从机房A中的服务器ai发送到机房B中的服务器bi,检测结果为成功或失败。

网络安全监控实战

图2计算机房A中的服务器在计算机房B中的服务器上的检测结果

通过这种检测,我们获得了一系列网络质量数据。每条原始数据对应于一个检测。数据内容包括检测样品的来源,目标和结果。例如,从服务器a1中检测到服务器b1的结果成功。

2内网故障判断

获取原始数据后,我们需要判断网络是否有问题。

需要判断的网络问题包括地理故障,计算机机房故障,群集故障和ToR故障。一个简单的主意是检查需要逐一判断的这些区域。例如,要确定计算机机房是否发生网络故障,可以对计算机机房下的数据进行计数。检测样本总数和成功次数,并检查是否成功检测样本太少。

为便于说明,本文介绍的基于二项式分布的障碍物判断方法在此不再赘述,只记录异常成功率小于90%。

判断机房A的网络是否有故障时,可以抽取机房A中源服务器或目标服务器的检测样本,对样本总数和成功样本数进行计数,得出检测结果。机房A的成功率为70%,低于阈值网络安全监控实战,因此认为机房A的网络故障。

网络安全监控实战

图3机房A发生故障时的检测结果

通过这种方式,我们对每个需要关注的区域进行了检查亚搏登陆 ,我们可以知道这些区域中的网络是否有故障。

3个误报问题

当我们逐个区域检查网络故障时,会出现一些误报。

这里是计算机房A的示例。计算机房A中有8个ToR,并且ToR1的网络被中断。此时,发送到ToR1下的服务器的检测数据包将失败,并且从ToR1下的服务器发送的检测数据包也将失败,并且由于ToR1下的服务器占计算机房A下的服务器的1/8,因此检测机房A的成功率将小于90%,故障确定算法将确定机房A异常。该判断结果的范围大于实际的故障范围,这对于那些未在ToR1下部署服务的工程师来说是一个错误的警报。

网络安全监控实战

图4 A机房ToR1故障检测结果

可以看出,在判断某个区域是否存在故障时,仅检测该区域中源服务器或目标服务器的成功和失败样本是不够的。这些故障可能会受到其他区域故障的影响。我们需要进行更全面的分析。

多维分析1虚假警报问题分析

可以看出,在前两个虚警示例中,如果进行更全面的分析,则不同故障的表现将大不相同。

ToR1发生故障时,房间A中其他ToR的性能正常。 A室中源机器或目标机器的大多数故障检测样本都集中在ToR1下,而一小部分在其他ToR下。当房间A发生故障时,这些失败的检测样本将均匀分布在每个ToR下。

网络安全监控实战

图5 ToR1故障(左)和机房A故障(右)之间的区别

可以看出,当发生不同的故障时,故障样本的聚集明显不同。我们需要报告的是失败的检测样本聚集的一个或多个区域。这些区域中有很多失败的检测样本,并且每个子区域的均匀分布中都有失败的检测样本。

2个Intranet监视数据的维度

在分析误报的过程中,我们需要不断过滤其源或目标在特定区域或特定子区域中的样本。为了使筛选更加方便,我们在每个样本上贴上一组标签,以标记检测到的样本反映网络质量的区域。

对于图2中从服务器a1到服务器b1的检测样本,其他标签为:

以这种方式,检测数据变成一组多维数据。可以通过这些维度来描述需要报告的网络故障网络安全监控实战,并且每个故障都对应于维度的组合。计算机机房A和计算机机房B之间的网络异常对应于“源计算机机房= A,目标计算机机房= B”或“源计算机机房= B,目标计算机机房= A”异常,计算机机房A网络异常对应于“源计算机机房= A,目标计算机机房= B”。 =“ A”或“目标计算机室= A”“异常。子区域中的故障对应于细分维度的组合。从计算机室A到B的网络是计算机出站网络的子区域房间A。“源计算机房间= A,目标计算机房间= B”是“源计算机房间= A”组合的细分维度。

我们使用贡献来描述维组合中失败检测样本的数量,并使用一致性来描述每个细分维组合中失败检测样本分布的均匀性。因此,那些具有较高贡献度和一致性的维组合具有更多的故障检测样本,并且故障样本均匀地分布在每个细分维组合中,并且与故障区域的特征相一致。这些尺寸组合应对应于正确的网络故障区域。

摘要

在内部网络质量监视方案中,存在一个问题凤凰彩票登录 ,即小区域故障被错误地报告为大区域故障。本文简要介绍了一种用于故障定位的多维分析方法。用这种方法预先选择可疑的故障区域可以有效减少误报。

在下一篇文章中,我们将详细介绍这种多维分析方法的实现细节,敬请期待。

作者简介:

百度高级研发工程师李聪。

负责百度智能运维产品(诺亚)的监控数据分析银河体育官网 ,重点是故障定位,异常检测等相关领域。

本文转载自官方帐户AIOps智能运营与维护(ID:AI_Ops)。

原始链接: