Uso de redes Flowmon para monitorear el rendimiento de aplicaciones distribuidas y bases de datos



Artículo preparado por Dmitriy Andrichenko | Ejecutivo de ventas, Rusia y CEI | Flowmon Networks

Bienvenido a la página de nuestro nuevo artículo sobre cómo resolver los problemas de monitoreo del rendimiento de las aplicaciones y bases de datos de redes distribuidas. Este artículo es una continuación de una serie de publicaciones dedicadas a las soluciones de Flowmon Networks y, en particular, una continuación de la revisión " Monitoreo y detección de actividad de red anormal " utilizando tecnologías sin firma.
Entonces, comencemos, pero al principio diremos algunas palabras sobre Flowmon Networks y el problema.

Para aquellos que son demasiado flojos para leer, pronto se realizará un seminario web sobre las soluciones de Flowmon Networks .

Flowmon Networks, como


Flowmon Networks es un fabricante europeo de TI destacado en los cuadros e informes de Gartner, que se especializa en el desarrollo de soluciones innovadoras para el monitoreo de redes, la seguridad de la información, la protección DDoS, así como el tema de nuestro artículo de hoy: el monitoreo del rendimiento de las aplicaciones y bases de datos de red.

La compañía tiene su sede en Brno, República Checa. Para el cliente final, esto tiene una ventaja clave: la capacidad de trabajar con empresas en la lista de sanciones. Lea más sobre Flowmon Networks aquí o aquí .

Pero, ¿qué hay de innovador en las soluciones Flowmon? Después de todo, ninguna de las áreas anteriores es nueva en el mercado. Los cortafuegos o los sistemas de detección de intrusos han existido por mucho tiempo y con éxito, y el tema de monitoreo no es nuevo en sí mismo. Todo es verdad, pero, como siempre, "el diablo está en los detalles".

Considere, por ejemplo, el tema de la seguridad de la información de red. ¿Qué viene a la mente primero? ¿Cortafuegos o quizás IDS / IPS? Tal vez incluso NG Firewall. Así es, este es un clásico bien probado, pero que tiene dos inconvenientes importantes:

  • enfoque de firma limitada para identificar problemas de seguridad,
  • protección de puntos solo en el nivel límite de los segmentos de red.

Estamos hablando de la aplicación de la tecnología de análisis heurístico y el aprendizaje automático. Inteligencia artificial, en otras palabras. Las ventajas son obvias: no hay firmas fijas que protejan contra los ataques de día cero solo si están actualizadas y son relevantes.
Un análisis sin firma le permite registrar ataques atípicos a nivel de aplicación, desviaciones de formato de protocolo del RFC y muchos otros problemas que causan mucho dolor de cabeza a los administradores todos los días.

Además, la segunda ventaja principal no es solo el control puntual del tráfico en la "unión" de segmentos o perímetro, que se resuelve por medios estándar de protección, sino el control total y la "transparencia" de cada conexión de red en la red.

No proponemos reemplazar las defensas existentes, decimos que en un mundo moderno con tecnologías en constante evolución y amenazas potenciales, un conjunto estándar de defensas ya no es suficiente. Escribimos sobre esto antes, aquí mismo.

Una situación similar es con las tareas de monitorear el funcionamiento y el rendimiento de las aplicaciones de red, así como las bases de datos. Creo que todos están familiarizados con una situación en la que los usuarios se quejan del funcionamiento de una aplicación comercial, pero el problema no se resuelve. Los administradores de red afirman que todo está en orden con la LAN y se refieren a problemas en la aplicación misma. Los administradores de aplicaciones comprueban el servidor, los registros de eventos, el DBMS y resulta que todo funciona para ellos también. Como resultado, el problema no se diagnostica, en todos los niveles "todo está en orden", los administradores "asienten" y nada funciona para el usuario final. Qué hacer no está claro. ¿Ocurrió? De eso es de lo que hablaremos hoy.

Arquitectura de soluciones


Para comprender correctamente los enfoques y las tecnologías utilizadas por Flowmon Networks para resolver los problemas de monitoreo del rendimiento de las aplicaciones y bases de datos distribuidas, debe tenerse en cuenta que todo el análisis se basa en información sobre el tráfico de red que se envía al sistema. Una de las ventajas de este enfoque es la falta de software de agente en estaciones de trabajo y servidores . Por supuesto, no podrá medir el rendimiento del Solitario Solitario, pero es muy posible identificar la consulta SQL que "colgó" la base de datos o el botón después del cual se cuelga la aplicación.

En el ultimo articuloYa hemos examinado la cartera de productos de Flowmon Networks y el proceso de instalación del sistema en el entorno virtual VMware EXSi, por lo que no lo repetiremos. La única diferencia en nuestro caso será el método de recibir tráfico. Dado que ninguno de los protocolos de Flow transmite información sobre el contenido de los paquetes que necesitamos para analizar el funcionamiento de los protocolos de nivel 7 utilizando el modelo ISO OSI, utilizaremos el puerto SPAN (Switched Port Analyzer) en el conmutador para recopilar datos.

En este caso, la arquitectura de la solución se verá así:



Los conmutadores reflejan el tráfico requerido a un servidor dedicado (Flowmon Probe), que es responsable de procesarlo y convertirlo a formato rico en IPFIX, que luego se transmite al nodo central (Flowmon Collector) para su almacenamiento, correlación y análisis. En lugar del puerto SPAN, por cierto, puede usar un divisor de tráfico TAP: las



ventajas de esta opción de implementación son:

  • independencia del modelo y fabricante de equipos de red (Cisco, Juniper, cualquiera),
  • falta de carga adicional en el equipo de red existente,
  • preservación de la arquitectura lógica existente de la red de la empresa.

De hecho, cada componente del sistema puede ser un servidor de hardware dedicado o una máquina virtual. En el segundo caso, Flowmon Collector incluirá una sonda Flowmon integrada, pero el rendimiento será naturalmente más bajo.

El nodo central (Flowmon Collector) se basa en el principio de la arquitectura modular y se configura individualmente para las tareas de cada Cliente:



Flowmon Collector consta de un núcleo del sistema (Solución de problemas de visibilidad de red), que incluye todas las funciones requeridas por los administradores de red para monitorear el tráfico en la LAN con detalles para cada específico conexión de red, así como una serie de módulos adicionales y con licencia por separado:

  • Módulo de seguridad de detección de anomalías (ADS): detección de actividad anormal de la red, incluidos ataques de día cero, basado en el análisis heurístico del tráfico y un perfil de red típico;
  • Módulo de supervisión del rendimiento de aplicaciones (APM): supervisa el rendimiento de las aplicaciones de red sin instalar "agentes" y afectar los sistemas de destino;
  • Módulo de registrador de tráfico (TR): registra fragmentos de tráfico de red mediante un conjunto de reglas predefinidas o mediante un disparador del módulo ADS, para una mayor resolución de problemas y / o investigación de incidentes de seguridad de la información;
  • Módulo de Protección DDoS (DDoS): protección del perímetro de la red contra ataques volumétricos de denegación de servicio DoS / DDoS.

En este artículo, veremos cómo funciona todo en vivo usando el ejemplo de 2 módulos: Solución de problemas de visibilidad de la red y Monitoreo del rendimiento de la aplicación.

Instalación de soluciones


Ya escribimos sobre el tema de la implementación de una máquina virtual ; todo se hace de manera bastante rápida y sencilla desde la plantilla OVF. No nos repetiremos, solo recordamos los requisitos para los recursos del sistema:



en el lado de Flowmon Collector, la diferencia clave entre monitorear el tráfico SPAN del monitoreo de NetFlow será el método de recepción de datos. Si anteriormente utilizamos la interfaz de administración para NetFlow con nuestra configuración IP, para recibir tráfico SPAN, necesitamos la interfaz de monitoreo, que en realidad es una interfaz L2 asociada con el hipervisor dedicado con un puerto físico dedicado en el chasis del servidor.



En otras palabras, la interfaz de monitoreo es la sonda Flowmon integrada en Flowmon Collector.

El siguiente paso es verificar que el puerto dedicado esté configurado correctamente y listo para recibir tráfico en Flowmon Collector.



En nuestro caso, el puerto UDP / 2055 está ocupado bajo IPFIX / NetFlow desde el equipo de red, por lo que para el tráfico con Flowmon Probe tomaremos el puerto UDP / 3000. No es necesario separar el tráfico por puerto de diferentes fuentes, pero es más conveniente y más simple en términos de monitoreo y solución de problemas.

A continuación, configuramos la exportación de tráfico de Flowmon Probe a Flowmon Collector. Para hacer esto, en la sección Centro de configuración -> Puertos de monitoreo, verifique la configuración actual. Principalmente, debe asegurarse de que la supervisión de las aplicaciones requeridas del nivel 7 ISO OSI esté activada, porque de forma predeterminada está desactivada.



Idealmente, incluya solo aquellos protocolos que desee controlar, pero simplemente puede activar todo.

Guardamos la configuración y volvemos a la pantalla principal del Centro de configuración; debe asegurarse de que el tráfico de Flowmon Probe se envíe correctamente al Flowmon Collector.



Consulte también en el Centro de Monitoreo Flowmon -> sección de Fuentes.



Vemos que el tráfico comenzó a fluir, el sistema está funcionando. Puede ir directamente a la configuración del módulo Application Performance Monitoring (APM).

Módulo de supervisión del rendimiento de aplicaciones (APM)


Nos ocuparemos de qué exactamente y exactamente cómo controlaremos. ¿Qué parámetros controla Flowmon APM?

  • análisis de consultas HTTP y SQL problemáticas, servidor de aplicaciones y códigos de error de respuesta de la base de datos,
  • retrasos y pérdidas de paquetes que ocurren durante la interacción cliente-servidor, así como en la interacción de los servidores de aplicaciones entre sí y con los servidores de bases de datos,
  • información sobre cada transacción (número, tamaño, hora, dirección IP, ID de sesión, nombre de usuario ...), así como una lista de transacciones problemáticas con violaciones de SLA,
  • tiempo de respuesta de la aplicación (máximo, mínimo, promedio, porcentaje ...) y tiempo de transmisión a nivel de transporte,
  • número de sesiones de usuario simultáneas, ...



¿Qué protocolos admite Flowmon APM?

  • HTTP 1.1, HTTP 2.0, SSL y TLS,
  • SQL (incluidos MSSQL, Oracle, PostgreSQL, MySQL, MariaDB),
  • Correo electrónico (incluidos SMTP, IMAP, POP3),
  • VoIP SIP,
  • DHCP, DNS, SMB (incluidos v1, v2, v3), AS, NBAR2,
  • SCADA / IoT (incluido IEC 60870-5-104).

Como resultado, para cada aplicación o base de datos monitoreada, el sistema calcula el valor de la métrica del índice APM, que varía de 0 a 100 y depende del estado actual del servicio. Cuanto mayor sea el valor métrico, mejor.



Una interfaz personalizable basada en widgets y paneles le permite al administrador personalizar el sistema individualmente para sí mismo y controlar exactamente las métricas del índice APM que necesita. En el siguiente ejemplo, el sistema controla el portal de Internet (WebEshop) y su base de datos (MySQL_DB).



En este ejemplo, el análisis de rendimiento se divide en tres bloques:

1. El rendimiento general de la aplicación y la base de datos durante el último día.



Para completar, el índice de rendimiento de la aplicación se muestra junto con el índice de rendimiento de la base de datos. Esto es lo suficientemente conveniente para solucionar problemas y comprender en qué área específica surge el problema.

Por ejemplo, en nuestro caso, el índice de rendimiento de la base de datos está bien, es 96.839 de 100. Pero hay problemas obvios con la aplicación WebEshop, su índice es solo 63.761 de 100.

Puede notar de inmediato el motivo de esta calificación: un alto tiempo de respuesta a las solicitudes de los usuarios. El tiempo promedio es de 21.148 segundos y el máximo es de 151.797 segundos. Si usted es el administrador de una aplicación en línea, entonces comprende que pocos usuarios esperarán hasta que la página cargue 2.5 minutos ... Bueno, si esto sucede una vez, y si el usuario necesita pasar 2-3-4 ... ¿páginas? Esto ya es un problema.

2. Índice APM del último día.

Con esta sección, todo es bastante simple y claro. Muestra la proporción del número de consultas del índice APM total de la aplicación o base de datos.



Cada elemento del tablero es interactivo y se puede hacer clic en él. Todo obedece al principio de desglose, al elegir un área interesante en el gráfico, puede "fallar" un nivel por debajo para obtener información más detallada.



Al elegir el intervalo de tiempo en que se solucionó el problema, el administrador encontrará rápidamente respuestas a las preguntas:

  • ¿Qué consultas SQL se ejecutaron en este momento?
  • ¿Qué y cuántos usuarios trabajaron con el sistema?
  • ¿Cómo respondió el sistema a las solicitudes de los usuarios?
  • ¿Cuál fue el tiempo de reacción y el retraso del sistema?
  • ¿Cómo se correlacionan los problemas de la aplicación con la interacción de la base de datos?
  • ¿Cómo funciona el sistema con un SLA determinado?
  • y mucho más…

3. Las cinco consultas más lentas del último día.

Un portal HTTP moderno o una aplicación WEB es un programa complejo y complejo. Al igual que cualquier otra aplicación, consta de diferentes páginas y módulos que no siempre fueron escritos por un programador. Muy a menudo, un sitio moderno es un motor CMS en el que se instalan docenas de módulos de terceros que amplían la funcionalidad básica. Algunas veces estos módulos funcionan bien, y otras no muy bien. No siempre es posible comprender rápidamente dónde se produce el problema y se tarda más de una hora o un día en solucionarlo.

Con Flowmon APM, todo se vuelve transparente.



Si está interesado en más detalles, haga clic en el icono "lupa" y obtenga los detalles. Por ejemplo, para una aplicación HTTP:



o para una base de datos:



Por supuesto, todo se exporta a CSV, los campos y las columnas son personalizables, los filtros se pueden guardar.

Los widgets discutidos son un ejemplo de configuración predeterminada estándar. Si es necesario, el sistema se puede personalizar para tareas individuales: cree sus propios paneles y muéstrelos en la pantalla principal. Como ejemplo, códigos de error de respuesta de la base de datos:



o códigos de error HTTP:



Además, queremos llamar su atención sobre un punto importante: la funcionalidad de monitoreo proactivo. El sistema no solo "escucha" y analiza el tráfico en modo pasivo, sino que también emula de forma independiente la interacción de un usuario "virtual" con el sistema. Este enfoque se llama Usuarios sintéticos y le permite verificar automáticamente el estado de la aplicación y detectar un problema en el momento en que comienza a ocurrir, y no después de las primeras quejas de los usuarios. Para esto, por ejemplo, los scripts programados están configurados para verificar la disponibilidad de la aplicación, la funcionalidad y el tiempo de respuesta.

Cual es el resultado?


Este ejemplo es una demostración clara de las capacidades del sistema y del módulo de Application Performance Monitoring (APM), en particular. No puedo decir que trabajar con Flowmon APM hace que el proceso de resolución de problemas sea un placer, pero es seguro que este proceso se simplifica y es mucho más rápido.

¿Tiene preguntas o quiere probar el sistema? Te ayudaremos, contáctanos .

Resumimos qué conclusiones podemos sacar sobre Flowmon en la línea inferior:

  • Flowmon: solución de nivel premium para clientes corporativos;
  • Debido a su versatilidad y compatibilidad, la recopilación de datos está disponible desde cualquier fuente: equipos de red (Cisco, Juniper, HPE, Huawei ...) o sondas patentadas (Flowmon Probe);
  • , ;
  • ;
  • «» – ;
  • Flowmon – , 100 /;
  • Flowmon – ;
  • / .

También queremos invitarlo a nuestro seminario web dedicado a las soluciones del proveedor de Flowmon Networks . Para la preinscripción, regístrese aquí.

Eso es todo por ahora, ¡gracias por tu interés!

All Articles