Qu’est-ce que la supervision réseau et en quoi est-ce important ?
1) La supervision réseau
La supervision réseau ou le monitoring réseau consiste à surveiller l’infrastructure réseau. La supervision à proprement parler, va alerter sur un état, un disfonctionnement ou autre valeur hors seuil : avoir des alertes mais sans nécessairement avoir toutes les fonctionnalités de la métrologie. Or, depuis plusieurs années, ces deux concepts se sont entrelacés et se sont associés de manière à ce que la métrologie devienne une part de la supervision.
Globalement, la supervision stricte permet simplement d’avoir des ‘sensor’ qui envoie un événement en fonction de règles. Mais la valeur n’est pas nécessairement conservée en historique et ce sont en général les évènements/alertes générées qui sont enregistrés.
La supervision simple, bien que très performante et frugale, ne permet pas d’établir des diagnostics complets sur l’origine de l’incident. Au fil du temps les solutions de métrologie se sont invitées afin de plus facilement comprendre:
– Si l’alerte que l’on a pensée est la situation concrète, c’est-à-dire les seuils ou autres états sont cohérents et concret sur mon infrastructure et non seulement théorique.
– Si l’historisation des valeurs remontées permettent d’avoir une vision plus globale sur comment est mon infrastructure et augmenter dans sa connaissance.
Ce concept de métrologie et de supervision s’applique à différents domaines de l’infrastructure :
Poste de travail, serveur, applications et le cas qui nous intéresse dans cet article le réseau. Ce segment appelé monitoring réseau se concentre donc sur tous les équipements qui supportent le réseau : routeur, switch, firewall, appliance de sécurité, points d’accès, VPN…
Des protocoles spécialisés se sont constitués afin de collecter d’une part les métriques et d’autre part les alertes des différents équipements composant le réseau. Ainsi on retrouve le SNMP, un protocole classique en supervision réseau.
Sans aller plus loin dans le détail, il possède 2 modes de fonctionnement :
- Le mode Polling : C’est le mode ‘pull’. L’outil de monitoring va récupérer les informations périodiquement mises à disposition par l’équipement.
- Le mode Trapping : c’est le mode ‘push’ mais cantonné seulement aux alertes traditionnellement. C’est le mode purement supervision : l’équipement envoie ses alertes basées sur ses propres règles internes.
La majorité des équipements réseau IT implémentent ce protocole mais exposent/envoient les informations selon le grès du constructeur. Uniquement une sous-partie est standardisée. C’est plutôt anarchique pour avoir partout les mêmes informations entre constructeur d’équipement, chacun aura implémenté sa couche d’exposition.
Parmi les produits utilisés pour le monitoring réseau nous pouvons retrouver :
- Nagios : outil historique (1996), open-source qui est concentré sur l’alerting, c’est-à-dire l’état des équipements
- Zabbix : outil open-source (2001), qui est concentré sur la métrologie, c’est-à-dire basé sur les données collectées quelles sont les alertes applicables
- PRTG : outil commercial (2003)
- Centreon : outil commercial (2005) avec un coeur open-source
- Shinken : outil forké de Nagios open-source (2010) basé sur une architecture distribuée
- Cacti : outil de métrologie seulement, open-source (2001)
2) L’importance de la supervision réseau
La supervision réseau a toujours eu une importance majeure dans une infrastructure. C’est une couche sous-jacente et transversale incontournable pour le fonctionnement de l’IT.
Cette dépendance du réseau interne (LAN) est déjà très forte depuis toujours mais celle du réseau externe (WAN, VPN…) l’est encore plus avec la cloudification des services des entreprises.
L’infrastructure réseau doit être la plus résiliente à la panne et hautement disponible afin de supporter au mieux les sollicitations. Mais cela ne suffit pas, il faut avoir de la visibilité sur les moments de bascules pour comprendre la raison qui se cache derrière.
Il faut aussi du monitoring pour avoir une vision capacitaire sur les différentes équipements réseau de son infrastructure. En effet, il faut savoir sur les limites matérielles sont atteintes sur les bandes passantes ou le nombre de connexion par seconde. Cela a deux bénéfices : éviter les pannes et évaluer les prochaines évolutions du matériel.
Ensuite, il est tout aussi important d’avoir de la visibilité sur les composants matériels de chacun des équipements réseau : la température, l’état des différents ventilateurs… Tout cela dans le but de prévenir les pannes.
Puis, le monitoring permet d’avoir une vision performance. En effet, lors de problématiques de performance. Il est important d’inclure le réseau dans la boucle du diagnostic afin de pouvoir le retirer ou non des causes des ralentissements.
Enfin, le monitoring réseau permet d’ajouter une première vision de l’état de disponibilité de mon infrastructure. Étant un élément primordial, sous-jacent et transverse, le réseau est la partie à ne pas négliger lors de différents calculs sur la disponibilité.
Comment améliorer cette dynamique et gagner en maturité sur son infrastructure
3) Comprendre la surface ou couverture de sa supervision réseau
Parmi les aspects techniques et fonctionnels ou autres bénéfices qu’apportent le monitoring réseau, il y a un point central qui remet en cause ces avantages: la couverture de sa supervision réseau.
Ainsi avoir des données utiles qui remontent pour chaque équipement est primordiale, certes, mais avoir l’intégralité de ses équipements au sein de sa supervision est la première chose à faire attention. Avoir l’assurance d’être exhaustif au sein de sa supervision en termes d’équipements supervisé est central.
Bien que, en fonction du choix de l’outil de supervision, des règles de découvertes et automatisées d’ajout d’équipement en fonction de leur mise en route peuvent exister. Cela reste incomplet et c’est majoritairement des actions humaines qui garantissent ces ajouts. Nous avons pu observer chez nos clients environ 70% de la couverture dans le meilleur des cas.
Corrium, l’outil développé par Straton IT, permet d’avoir une vision complète de l’ensemble des machines sur son réseau. Il agit comme un point de vérité. Il permet de comparer ce que l’on a dans ses outils de supervision et identifier les lacunes sur le type d’équipement ou autre équipement manquant dans le monitoring réseau.
Corrium n’est pas un outil de supervision mais il permet d’avoir une vision claire de son infrastructure. C’est un support aux outils de monitoring grâce à ces mécanismes de collecte de données automatisés sur un autre angle que la supervision.
4) Monitoring réseau, composante importante du diagnostic d’infrastructure mais pas seulement
Le monitoring réseau est utile et primordiale au diagnostic. Néanmoins ce n’est pas l’alpha et l’oméga qui nous permettrait de tout comprendre et résoudre les incidents au sein du SI. Il permet de donner de la visibilité sur l’état et autres métriques sur un instant T et via son système d’historisation jusqu’à une certaine précision. Il va donc pouvoir donner des indices, des clés sur la compréhension d’un incident ou d’un problème. Mais il ne se place que sur une dynamique de l’instantanée et de l’évènement.
Ces derniers doivent être contextualisés et mis en parallèle avec les différentes configurations des équipements de l’infrastructure afin de trouver réellement le noeud du problème. C’est ainsi que des outils comme des analyseurs de log (SIEM) permettent d’ajouter du contexte par exemple. Mais ces outils compliqués à mettre en oeuvre sont que très peu utilisé pour faire de la corrélation et faciliter le diagnostic.
Corrium et son intelligence artificielle permet d’être pro-actif. Ils détectent en amont les différentes configurations qui peuvent être à l’origine d’interruption de service des équipements. Ils permettent d’améliorer la visibilité de son infrastructure afin de cibler les équipements réseau faible en sécurité ou de configuration.
Dans la démarche de gagner en visibilité et en maturité, Corrium permet de solidifier les briques de monitoring réseau et d’établir des diagnostics. Ce qui permet de trouver plus facilement les causes racines des interruptions de service.
Corrium est donc un outil qui permet de progresser et d’avancer plus rapidement vers la maitrise de son infrastructure.