👩‍❤️‍👩 👩🏼‍🚒 🤨 Utilisation des réseaux Flowmon pour surveiller les performances des applications et des bases de données distribuées 🎏 👨🏻‍🎓 🤙🏽

Article préparé par Dmitriy Andrichenko | Directeur des ventes, Russie et CEI | Flowmon Networks

Bienvenue sur la page de notre nouvel article sur la résolution des problèmes de surveillance des performances des applications et bases de données de réseaux distribués. Cet article est la suite d'une série de publications consacrées aux solutions Flowmon Networks et, en particulier, la suite de la revue « Surveillance et détection de réseau d'une activité réseau anormale » utilisant des technologies sans signature.
Commençons donc, mais au début, nous dirons quelques mots sur Flowmon Networks et le problème.

Pour ceux qui sont trop paresseux pour lire, un webinaire sur les solutions Flowmon Networks aura bientôt lieu .

Réseaux Flowmon, as

Flowmon Networks est un fabricant informatique européen mis en évidence dans les carrés et les rapports de Gartner, spécialisé dans le développement de solutions innovantes pour la surveillance du réseau, la sécurité des informations, la protection DDoS, ainsi que le sujet de notre article d'aujourd'hui - surveiller les performances des applications réseau et des bases de données.

La société a son siège à Brno, en République tchèque. Pour le client final, cela présente un avantage clé: la possibilité de travailler avec des entreprises figurant sur la liste de sanctions. En savoir plus sur Flowmon Networks ici ou ici .

Mais qu'est-ce qui est innovant dans les solutions Flowmon, demandez-vous? Après tout, aucun des domaines ci-dessus n'est nouveau sur le marché. Les pare-feu ou les systèmes de détection d'intrusion existent depuis longtemps et avec succès, et le sujet de la surveillance n'est pas nouveau en soi. Tout est vrai, mais, comme d'habitude, "le diable est dans les détails".

Prenons, par exemple, le sujet de la sécurité des informations réseau. Qu'est-ce qui vous vient à l'esprit en premier? Pare-feu ou peut-être IDS / IPS? Peut-être même NG Firewall. C'est vrai, c'est un bon classique éprouvé, mais qui a deux inconvénients importants:

approche de signature limitée pour identifier les problèmes de sécurité,
protection ponctuelle uniquement au niveau limite des segments de réseau.

Nous parlons de l'application de la technologie d'analyse heuristique et de l'apprentissage automatique. L'intelligence artificielle, en d'autres termes. Les avantages sont évidents - il n'y a pas de signatures fixes qui protègent contre les attaques zero-day uniquement si elles sont mises à jour et pertinentes.
Une analyse sans signature vous permet d'enregistrer des attaques atypiques au niveau de l'application, des écarts de format de protocole par rapport au RFC et de nombreux autres problèmes qui causent chaque jour beaucoup de maux de tête aux administrateurs.

En outre, le deuxième avantage principal n'est pas seulement le contrôle ponctuel du trafic à la «jonction» de segments ou de périmètre, qui est résolu par des moyens de protection standard, mais le contrôle total et la «transparence» de chaque connexion réseau dans le réseau.

Nous ne proposons pas de remplacer les défenses existantes, nous disons que dans un monde moderne avec des technologies en constante évolution et des menaces potentielles, un ensemble standard de défenses ne suffit plus. Nous avons écrit à ce sujet plus tôt, ici même.

Une situation similaire concerne les tâches de surveillance du fonctionnement et des performances des applications réseau, ainsi que des bases de données. Je pense que tout le monde connaît une situation où les utilisateurs se plaignent du fonctionnement d'une application métier, mais le problème n'est pas résolu. Les administrateurs réseau affirment que tout est en ordre avec le LAN et font référence à des problèmes dans l'application elle-même. Les administrateurs d'applications vérifient le serveur, les journaux d'événements, le SGBD et il s'avère que tout fonctionne également pour eux. En conséquence, le problème n'est pas diagnostiqué, à tous les niveaux «tout est en ordre», les administrateurs «hochent la tête» et rien ne fonctionne pour l'utilisateur final. Que faire n'est pas clair. C'est arrivé? C’est ce dont nous allons parler aujourd’hui.

Architecture de la solution

Pour bien comprendre les approches et les technologies utilisées par Flowmon Networks pour résoudre les problèmes de surveillance des performances des applications et des bases de données distribuées, il convient de noter que toute l'analyse est basée sur des informations sur le trafic réseau envoyées au système. L'un des avantages de cette approche est le manque de logiciel agent sur les postes de travail et les serveurs . Bien sûr, vous ne pourrez pas mesurer les performances du Solitaire Solitaire, mais il est tout à fait possible d'identifier la requête SQL qui a "bloqué" la base de données ou le bouton après lequel l'application se bloque.

Dans le dernier articleNous avons déjà examiné le portefeuille de produits Flowmon Networks et le processus d'installation du système sur l'environnement virtuel VMware EXSi, nous ne le répéterons donc pas. La seule différence dans notre cas sera la méthode de réception du trafic. Étant donné qu'aucun des protocoles Flow ne transmet des informations sur le contenu des paquets dont nous avons besoin pour analyser le fonctionnement des protocoles de niveau 7 à l'aide du modèle ISO OSI, nous utiliserons le port SPAN (Switched Port Analyzer) en miroir sur le commutateur pour collecter des données.

Dans ce cas, l'architecture de la solution ressemblera à ceci:

Le ou les commutateurs reflètent le trafic requis vers un serveur dédié (Flowmon Probe), qui est chargé de le traiter et de le convertir au format riche en IPFIX, qui est ensuite transmis au nœud central (Flowmon Collector) pour le stockage, la corrélation et l'analyse. Au lieu du port SPAN, au fait, vous pouvez utiliser un séparateur de trafic TAP:

Les avantages de cette option de déploiement sont:

indépendance vis-à-vis du modèle et du fabricant de l'équipement réseau (Cisco, Juniper, tout),
manque de charge supplémentaire sur les équipements de réseau existants,
maintenir l’architecture logique existante du réseau de l’entreprise.

En fait, chaque composant du système peut être soit un serveur matériel dédié, soit une machine virtuelle. Dans le deuxième cas, le Flowmon Collector comprendra une sonde Flowmon intégrée, mais les performances seront naturellement inférieures.

Le nœud central (Flowmon Collector) est construit sur le principe de l'architecture modulaire et est configuré individuellement pour les tâches de chaque client:

Flowmon Collector se compose d'un noyau système (dépannage de la visibilité du réseau), qui comprend toutes les fonctionnalités requises par les administrateurs réseau pour surveiller le trafic dans le LAN avec des détails pour chaque spécifique. connexion réseau, ainsi qu'un certain nombre de modules supplémentaires et sous licence séparée:

Module de sécurité de détection d'anomalie (ADS) - détection de l'activité réseau anormale, y compris les attaques zero-day, basée sur l'analyse heuristique du trafic et un profil de réseau typique;
Module de surveillance des performances des applications (APM) - surveillance des performances des applications réseau sans installer d '«agents» et sans affecter les systèmes cibles;
Module enregistreur de trafic (TR) - enregistrement des fragments de trafic réseau par un ensemble de règles prédéfinies ou par un déclencheur du module ADS, pour un dépannage et / ou une enquête plus poussés des incidents de sécurité de l'information;
Module de protection DDoS (DDoS) - protection du périmètre du réseau contre les attaques volumétriques par déni de service DoS / DDoS.

Dans cet article, nous verrons comment tout fonctionne en direct en utilisant l'exemple de 2 modules - Dépannage de la visibilité réseau et surveillance des performances des applications.

Installation de la solution

Nous avons déjà écrit sur le thème du déploiement d'une machine virtuelle ; tout se fait assez rapidement et simplement à partir du modèle OVF. Nous ne nous répéterons pas, nous rappelons uniquement les exigences en matière de ressources système:

Du côté de Flowmon Collector, la principale différence entre la surveillance du trafic SPAN et la surveillance NetFlow sera la méthode de réception des données. Si nous avons déjà utilisé l'interface de gestion pour NetFlow avec notre configuration IP, pour recevoir le trafic SPAN, nous avons besoin de l'interface de surveillance, qui est en fait une interface L2 associée à l'hyperviseur dédié avec un port physique dédié sur le châssis du serveur.

En d'autres termes, l'interface de surveillance est la sonde Flowmon intégrée au collecteur Flowmon.

L'étape suivante consiste à vérifier que le port dédié est correctement configuré et prêt à recevoir du trafic sur le Flowmon Collector.

Dans notre cas, le port UDP / 2055 est occupé sous IPFIX / NetFlow depuis l'équipement réseau, donc pour le trafic avec Flowmon Probe, nous prendrons le port UDP / 3000. Séparer le trafic par port de différentes sources n'est pas nécessaire, mais il est plus pratique et plus simple en termes de surveillance et de dépannage.

Ensuite, nous configurons l'exportation du trafic de Flowmon Probe vers Flowmon Collector. Pour ce faire, dans la section Configuration Center -> Monitoring Ports, vérifiez les paramètres actuels. Vous devez principalement vous assurer que la surveillance des applications requises du niveau 7 ISO OSI est activée, car par défaut, elle est désactivée.

Idéalement, n'incluez que les protocoles que vous souhaitez contrôler, mais vous pouvez simplement tout activer.

Nous enregistrons les paramètres et revenons à l'écran principal du Centre de configuration, vous devez vous assurer que le trafic provenant de Flowmon Probe est correctement envoyé au Flowmon Collector.

Vérifiez également dans la section Flowmon Monitoring Center -> Sources.

On voit que le trafic a commencé à couler, le système fonctionne. Vous pouvez passer directement à la configuration du module Application Performance Monitoring (APM).

Module de surveillance des performances des applications (APM)

Nous traiterons de ce que nous contrôlerons exactement et exactement. Quels sont les paramètres contrôlés par Flowmon APM?

analyse des requêtes HTTP et SQL problématiques, du serveur d'applications et des codes d'erreur de réponse à la base de données,
les retards et les pertes de paquets qui surviennent lors de l'interaction client-serveur, ainsi que dans l'interaction des serveurs d'applications entre eux et avec les serveurs de base de données,
des informations sur chaque transaction (numéro, taille, heure, adresse IP, identifiant de session, nom d'utilisateur ...), ainsi qu'une liste des transactions problématiques avec violations de SLA,
temps de réponse de l'application (max, min, moyenne, pourcentage ...) et temps de transmission au niveau du transport,
nombre de sessions utilisateurs simultanées, ...

Quels protocoles sont pris en charge par Flowmon APM?

HTTP 1.1, HTTP 2.0, SSL et TLS,
SQL (y compris MSSQL, Oracle, PostgreSQL, MySQL, MariaDB),
Courriel (y compris SMTP, IMAP, POP3),
VoIP SIP,
DHCP, DNS, SMB (y compris v1, v2, v3), AS, NBAR2,
SCADA / IoT (y compris IEC 60870-5-104).

Par conséquent, pour chaque application ou base de données surveillée, le système calcule la valeur de la métrique d'index APM, qui varie de 0 à 100 et dépend de l'état actuel du service. Plus la valeur métrique est élevée, mieux c'est.

Une interface personnalisable basée sur des widgets et des tableaux de bord permet à l'administrateur de personnaliser le système individuellement pour lui-même et de contrôler exactement les métriques d'index APM dont il a besoin. Dans l'exemple ci-dessous, le système contrôle le portail Internet (WebEshop) et sa base de données (MySQL_DB).

Dans cet exemple, l'analyse des performances est divisée en trois blocs:

1. Les performances globales de l'application et de la base de données au cours du dernier jour.

Pour être complet, l'index de performance de l'application s'affiche avec l'index de performance de la base de données. Ceci est suffisamment pratique pour dépanner et comprendre dans quel domaine spécifique le problème se pose.

Par exemple, dans notre cas, l'indice de performance de la base de données est correct, il est de 96,839 sur 100. Mais il y a des problèmes évidents avec l'application WebEshop, son index n'est que de 63,761 sur 100.

Vous pouvez immédiatement remarquer la raison de cette évaluation - un temps de réponse élevé aux demandes des utilisateurs. Le temps moyen est de 21,148 secondes et le maximum est de 151,797 secondes. Si vous êtes l'administrateur d'une application en ligne, alors vous comprenez que peu d'utilisateurs attendront que la page se charge 2,5 minutes ... Eh bien, si cela se produit une fois, et si l'utilisateur doit aller 2-3-4 ... pages? C'est déjà un problème.

2. Index APM du dernier jour.

Avec cette section, tout est assez simple et clair. Il affiche le rapport du nombre de requêtes à partir de l'index APM total de l'application ou de la base de données.

Chaque élément du tableau de bord est interactif et cliquable. Tout obéit au principe de drill-down, lorsque vous choisissez un site intéressant sur le graphique, vous pouvez «échouer» un niveau en dessous pour obtenir des informations plus détaillées.

En choisissant l'intervalle de temps où le problème a été résolu, l'administrateur trouvera rapidement les réponses aux questions:

Quelles requêtes SQL ont été exécutées à ce moment?
Quels utilisateurs et combien ont travaillé avec le système?
Comment le système a-t-il répondu aux demandes des utilisateurs?
Quels ont été le temps de réaction et le retard du système?
Comment les problèmes d'application sont-ils corrélés à l'interaction avec la base de données?
Comment fonctionne le système avec un SLA donné?
et beaucoup plus…

3. Les cinq requêtes les plus lentes du dernier jour.

Un portail HTTP ou une application WEB moderne est un programme complexe et complexe. Comme toute autre application, il se compose de différentes pages et modules qui n'ont pas toujours été écrits par un seul programmeur. Très souvent, un site moderne est un moteur CMS sur lequel des dizaines de modules tiers sont installés et étendent les fonctionnalités de base. Parfois, ces modules fonctionnent bien et parfois pas très bien. Il n'est pas toujours possible de comprendre rapidement où le problème se produit et le dépannage prend plus d'une heure ou une journée.

Avec Flowmon APM, tout devient transparent.

Si vous êtes intéressé par plus de détails - cliquez sur l'icône "loupe" et obtenez les détails. Par exemple, pour une application HTTP:

Ou pour une base de données:

Bien sûr, tout est exporté au format CSV, les champs et les colonnes sont personnalisables, les filtres peuvent être enregistrés.

Les widgets abordés sont un exemple de paramètres par défaut standard. Si nécessaire, le système peut être personnalisé pour des tâches individuelles - créez vos propres tableaux de bord et affichez-les sur l'écran principal. Par exemple, les codes d'erreur de réponse à la base de données:

Ou les codes d'erreur HTTP:

Nous souhaitons également attirer votre attention sur un point important: la fonctionnalité de surveillance proactive. Le système non seulement «écoute» et analyse le trafic en mode passif, mais émule également indépendamment l'interaction d'un utilisateur «virtuel» avec le système. Cette approche est appelée utilisateurs synthétiques et vous permet de vérifier automatiquement l'état de l'application et de détecter un problème au moment où il commence à se produire, et non après les premières plaintes des utilisateurs. Pour cela, par exemple, des scripts planifiés sont configurés pour vérifier la disponibilité, la fonctionnalité et le temps de réponse des applications.

Quel est le résultat?

Cet exemple est une démonstration claire des capacités du système et du module Application Performance Monitoring (APM), en particulier. Je ne peux pas dire que travailler avec Flowmon APM rend le processus de dépannage un plaisir, mais il est certain que ce processus est simplifié et beaucoup plus rapide.

Vous avez des questions ou souhaitez tester le système? Nous vous aiderons, contactez-nous .

Nous résumons les conclusions que nous pouvons tirer de Flowmon en conclusion:

Flowmon - solution de niveau premium pour les clients d'entreprise;
en raison de sa polyvalence et de sa compatibilité, la collecte de données est disponible à partir de n'importe quelle source: équipement réseau (Cisco, Juniper, HPE, Huawei ...) ou sondes propriétaires (Flowmon Probe);
, ;
;
«» – ;
Flowmon – , 100 /;
Flowmon – ;
/ .

Nous voulons également vous inviter à notre webinaire consacré aux solutions du fournisseur Flowmon Networks . Pour la pré-inscription, veuillez vous inscrire ici.

C'est tout pour l'instant, merci de votre intérêt!

Utilisation des réseaux Flowmon pour surveiller les performances des applications et des bases de données distribuées

Réseaux Flowmon, as

Architecture de la solution

Installation de la solution

Module de surveillance des performances des applications (APM)

Quel est le résultat?

More articles: