「Network Telemetry」- 网络遥测技术

  CREATED BY JENKINSBOT

问题描述

随着网络的普及和新技术的涌现,网络规模日益增大,部署的复杂度逐步提升,用户对业务的质量要求也不断提高。

为了满足用户需求,网络运维务必更加精细化、智能化。当今网络的运维面临着如下挑战:
1)超大规模:管理的设备数目众多,监控的信息数量非常庞大。
2)快速定位:在复杂的网络中,能够快速地定位故障,达到秒级、甚至亚秒级的故障定位速。
3)精细监控:监控的数据类型更多,且监控粒度更细,以便完整、准确地反应网络状况,据此预估可能发生的故障,并为网络优化提供有力的数据依据。网络运维不仅需要监控接口上的流量统计信息、每条流上的丢包情况、 CPU 和内存占用情况,还需要监控每条流的时延抖动、每个报文在传输路径上的时延、每台设备上的缓冲区占用情况等。

网络设备监控

网络设备的统一监控和性能管理是运维平台的重要功能。设备的监控数据包括数据、控制、管理平面数据。

获取设备监控数据的方式有:SNMP、CLI、Syslog、NetStream、sFlow等。
NetSteam 和 sFlow 为网络流量监控技术,主要针对数据平面数据。SNMP是最主流的方式。

传统网络采集技术的问题

奈奎斯特采样定律表示,当采样频率大于信号频率的2倍时,才能完整保留原始信号中的信息。SNMP的采集周期为5分钟,通常会导致细节信息丢失。

传统运维方式有诸多问题

传统网络通过平均5-15分钟的Pulling拉取采样数据,更密集的Pulling拉取会造成网络设备瘫痪。

监控的粒度太大造成网络可视度低。
以SNMP为主的运维系统效率低。
无法达到IT运维一样的实时监控,全程监控,并保留完整历史数据。
无法检测网络大量Micro Burst(微突发)造成的网络问题。

微突发是指在非常短的时间(毫秒级别)内收到非常多的突发数据,以至于瞬时突发速率达到平均速率的数十倍、数百倍,甚至超过端口带宽的现象。网管设备或网络性能监测软件通常是基于比较长的时间(数秒到数分钟)计算网络实时带宽。在这种情况下,看到流量速率通常是一条比较平稳的曲线,但是实际设备可能已由于微突发导致丢包。

总结:传统采集机制无法满足大数据要求

我们需要一个支持超大规模网络及海量数据运维的机制,具备实时性、高性能,易于扩展等特点。

解决方案

Telemetry(Network Telemetry,网络遥测技术),提供周期采样网络设备内的统计数据和状态数据的能力。是一项远程地从物理设备或虚拟设备上高速采集数据的技术。其是一项监控设备性能和故障的远程数据采集技术。

业界也有将SNMP认为是传统的Telemetry技术,把当前Telemetry叫做Streaming Telemetry或Model-Driven Telemetry的说法。

原理简述

采集器,用于接收和存储网络设备上报的监控数据。

分析器,用于分析采集器接收到的监控数据,并对数据进行处理,例如以图形化界面的形式展现给用户。

控制器,通过 NETCONF 等方式向设备下发配置,实现对网络设备的管理。控制器可以根据分析器提供的分析数据,为网络设备下发配置,对网络设备的转发行为进行调整;也可以控制网络设备对哪些数据进行采样和上报 。

采集器、分析器、控制器都位于网管侧:

特性特征

1)推模式:其采用 Push Mode(推模式)及时获取丰富的监控数据,可以实现网络故障的快速定位,从而解决上述网络运维问题。设备通过推模式周期性地主动向采集器上送设备的接口流量统计、CPU或内存数据等信息,相对传统拉模式(Pull Mode)的一问一答式交互,提供了更实时更高速的数据采集功能。

2)一次订阅,持续上报:避免重复查询:SNMP查询是一问一答的。假设1分钟内交互了1000次,就意味着SNMP解析了1000次查询请求报文。Telemetry实现订阅一次,后续设备持续推送数据给网管。

3)采集数据的精度高:精度可以达到亚秒级,且类型十分丰富,充分反映网络状况。基于gRPC的Telemetry技术可以采集设备的接口流量统计、CPU、告警等数据,然后经过Protocol Buffer 编码,实时上报给采集器进行接收和存储。

支持多种实现方式,满足用户的不同需求。

故障定位更快速、精准。

技术特点

向第三方数据分析处理公司开放API,具有更强的数据存储和处理能力;
传统网管解耦成采集器和控制器两部分,通讯协议和管理应用解耦;
提升设备采集能力,支撑订阅上报机制,建造标准数据模型;

技术优势

Telemetry采用推模式及时获取丰富的监控数据,可以实现网络故障的快速定位,提供统一的数据流格式,简化采集器分析监测数据的难度,从而解决传统网络运维问题。

精细监控,采集数据的精度高,且类型十分丰富,可以充分反映网络状况。
快速定位,在复杂的网络中,能够快速地定位故障,达到秒级、甚至亚秒级的故障定位速度。
主动上报,Telemetry仅需配置一次订阅,设备就可以持续上报数据,减轻了设备处理查询请求的压力。

应用场景

园区网

园区网中可通过Telemetry将设备状态、有线无线数据同时监控上报分析器,实现智能运维。

数据中心

分析器接收Telemetry上送的数据,计算报文的转发路径、转发时延、链路时延等,完成应用交互关系分析,实现应用和网络路径的关联,并进行统计分析、呈现,实现智能运维。

数据中心中的采集器通过Telemetry采集设备性能数据,通过ERSPAN采集设备流镜像。

广域网

路由器端口数据实时上报分析器,流量走向易于洞察。