使用Flowmon网络来监视分布式应用程序和数据库的性能



Dmitriy Andrichenko准备的文章| 俄罗斯和独联体销售主管| Flowmon Networks

欢迎来到我们新文章的页面,其中涉及解决监视分布式网络应用程序和数据库性能的问题。本文是有关Flowmon Networks解决方案的一系列出版物的延续,尤其是使用无签名技术的评论“ 网络监视和异常网络活动的检测 ”的延续
因此,让我们开始吧,但是一开始我们会说几句关于Flowmon Networks和问题的话。

对于那些懒得读书的人,即将举行有关Flowmon Networks解决方案网络研讨会

Flowmon Networks,如


Flowmon Networks是一家欧洲IT制造商,在Gartner的专栏和报告中得到了重点介绍,它专门开发用于网络监控,信息安全,DDoS保护的创新解决方案,以及我们今天的文章主题-监控网络应用程序和数据库的性能。

该公司总部位于捷克共和国布尔诺。对于最终客户而言,这具有一个关键优势-与制裁名单上的公司合作的能力。在此处此处阅读有关Flowmon Networks的更多信息

但是您会问Flowmon解决方案的创新之处是什么?毕竟,上述领域都不是市场上的新事物。防火墙或入侵检测系统已经存在很长时间并且成功存在,并且监视主题本身并不是一个新问题。一切都是真实的,但像往常一样,“魔鬼在细节中”。

例如,考虑网络信息安全性主题。首先想到什么?防火墙还是IDS / IPS?甚至是NG防火墙。没错,这是一个久经考验的经典之作,但有两个明显的缺点:

  • 识别安全问题的有限签名方法,
  • 点保护仅在网段的边界级别。

我们正在谈论启发式分析技术和机器学习的应用。换句话说,人工智能。优点是显而易见的-没有固定的签名可以抵御零时差攻击,除非它们被更新且相关。
无特征分析使您可以记录非典型的应用程序级别的攻击,与RFC不一致的协议格式以及许多其他问题,这些问题每天都使管理员感到头痛。

此外,第二个主要优点不仅是通过标准保护手段解决了在网段或外围“交汇处”的流量点控制,而且还控制了网络中每个网络连接的总体控制和“透明度”。

我们不建议更换现有防御,而是说在技术不断发展和潜在威胁不断发展的现代世界中,一套标准的防御措施已不再足够。我们在这里早些时候写过。

监视网络应用程序以及数据库的功能和性能的任务也存在类似情况。我相信每个人都熟悉这样的情况:用户抱怨业务应用程序的功能,但问题仍未解决。网络管理员声称,LAN一切正常,并指的是应用程序本身的问题。应用程序管理员检查服务器,事件日志,DBMS,事实证明一切也对他们有用。结果,问题并未得到诊断,在所有级别上“一切都按部就班”,管理员互相“点头”,对于最终用户没有任何作用。做什么不清楚。它发生了?那就是我们今天要谈论的。

解决方案架构


为了正确理解Flowmon Networks用于解决监视分布式应用程序和数据库性能的问题的方法和技术,应注意的是,整个分析是基于有关发送到系统的网络流量的信息的。这种方法的优点之一是工作站和服务器上没有代理软件。当然,您将无法测量纸牌接龙的性能,但是很有可能识别出“挂起”数据库的SQL查询或应用程序挂起后的按钮。

上一篇文章中我们已经检查了Flowmon Networks产品组合以及在VMware EXSi虚拟环境上安装系统的过程,因此我们不再赘述。在我们的案例中,唯一的区别将是接收流量的方法。由于所有Flow协议都没有传输有关使用ISO OSI模型分析7级协议的功能所需的数据包内容的信息,因此我们将使用交换机上的镜像SPAN(交换端口分析器)端口来收集数据。

在这种情况下,解决方案架构将如下所示:



交换机将所需的流量镜像到专用服务器(Flowmon Probe),该服务器负责对其进行处理并将其转换为富含IPFIX的格式,然后将其传输到中央节点(Flowmon Collector)以进行存储,关联和分析。顺便说一下,您可以使用TAP流量分配器代替SPAN端口:



此部署选项的优点是:

  • 独立于网络设备(Cisco,Juniper等)的型号和制造商,
  • 缺乏现有网络设备的额外负载,
  • 维护公司网络的现有逻辑架构。

实际上,系统的每个组件都可以是专用硬件服务器或虚拟机。在第二种情况下,Flowmon收集器将包括一个集成的Flowmon探头,但是性能自然会降低。

中央节点(Flowmon Collector)建立在模块化架构的基础上,并针对每个客户的任务进行单独配置:



Flowmon Collector包含一个核心系统(网络可见性故障排除),该系统包含网络管理员监视局域网中流量所需的所有功能,并包含每个特定的详细信息。网络连接,以及许多其他的和单独许可的模块:

  • 异常检测安全(ADS)模块-基于启发式流量分析和典型网络配置文件,检测异常网络活动,包括零时差攻击;
  • 应用程序性能监视(APM)模块-监视网络应用程序的性能,而无需安装“代理”和影响目标系统;
  • 流量记录器模块(TR)-通过一组预定义规则或ADS模块的触发器来记录网络流量的片段,以进行进一步的故障排除和/或调查信息安全事件;
  • DDoS保护(DDoS)模块-保护网络外围免受大规模DoS / DDoS拒绝服务攻击。

在本文中,我们将使用2个模块的示例(网络可见性故障排除和应用程序性能监视)来研究一切工作原理。

解决方案安装


我们已经写过关于部署虚拟机的主题;所有操作都非常快速,简单地通过OVF模板完成。我们不会重复自己,只回顾对系统资源的要求:



在Flowmon Collector方面,从NetFlow监视监视SPAN流量之间的主要区别将是接收数据的方法。如果以前我们使用带有IP配置的NetFlow管理接口,那么要接收SPAN流量,我们需要监视接口,它实际上是与专用虚拟机管理程序关联的L2接口,在服务器机箱上具有专用物理端口。



换句话说,监视接口是内置在Flowmon收集器中的Flowmon探针。

下一步是验证专用端口是否已正确配置并准备好在Flowmon Collector上接收流量。



在我们的示例中,网络设备的IPFIX / NetFlow占用了UDP / 2055端口,因此对于使用Flowmon Probe的流量,我们将使用UDP / 3000端口。不必通过端口将流量与不同来源分开,但是在监视和故障排除方面更方便,更简单。

接下来,我们配置从Flowmon Probe到Flowmon Collector的流量导出。为此,请在“配置中心”->“监视端口”部分中,检查当前设置。主要是您需要确保打开对7级ISO OSI所需应用程序的监视,因为默认情况下它已关闭。



理想情况下,仅包括要控制的那些协议,但您只需打开所有内容即可。

我们保存设置,然后再次进入Configuration Center的主屏幕,您需要确保将来自Flowmon Probe的流量正确发送到Flowmon Collector。



同时检查Flowmon Monitoring Center-> Sources部分。



我们看到流量开始流动,系统正在运行。您可以直接去配置应用程序性能监视(APM)模块。

应用程序性能监视模块(APM)


我们将处理确切的控制方式。Flowmon APM控制哪些参数?

  • 分析有问题的HTTP和SQL查询,应用服务器和数据库响应错误代码,
  • 在客户端与服务器交互以及应用程序服务器之间以及与数据库服务器之间的交互过程中发生的延迟和数据包丢失,
  • 有关每笔交易的信息(数量,大小,时间,IP地址,会话ID,用户名...),以及违反SLA的问题交易列表,
  • 应用程序响应时间(最大,最小,平均值,百分比...)和传输级别的传输时间,
  • 并发用户会话数,...



Flowmon APM支持哪些协议?

  • HTTP 1.1,HTTP 2.0,SSL和TLS,
  • SQL(包括MSSQL,Oracle,PostgreSQL,MySQL,MariaDB),
  • 电子邮件(包括SMTP,IMAP,POP3),
  • VoIP SIP,
  • DHCP,DNS,SMB(包括v1,v2,v3),AS,NBAR2,
  • SCADA / IoT(包括IEC 60870-5-104)。

结果,对于每个受监视的应用程序或数据库,系统都会计算APM Index指标的值,该值从0到100不等,并取决于服务的当前状态。度量值越高,越好。



基于窗口小部件和仪表板的可自定义界面允许管理员为自己单独定制系统,并精确控制他需要的那些APM Index指标。在下面的示例中,系统控制Internet门户(WebEshop)及其数据库(MySQL_DB)。



在此示例中,性能分析分为三个部分:

1.最后一天中应用程序和数据库的总体性能。



为了完整起见,将显示应用程序性能指标以及数据库性能指标。这对于故障排除和了解出现问题的特定区域足够方便。

例如,在我们的例子中,数据库性能指数很好,在100中为96.839。但是WebEshop应用程序存在明显的问题,其索引仅在100中为63.761。

您会立即注意到获得此评级的原因-对用户请求的响应时间很高。平均时间为21.148秒,最大时间为151.797秒。如果您是在线应用程序的管理员,那么您会明白很少有用户会等到页面加载2.5分钟之后……好吧,如果发生一次,并且用户需要进入2-​​3-4 ...页?这已经是一个问题。

2.最后一天的APM指数。

在本节中,所有内容都非常简单明了。它显示应用程序或数据库的总APM索引中查询数量的比率。



仪表板的每个元素都是可交互且可单击的。一切都遵循向下钻取的原则,在图表上选择一个有趣的区域时,您可以“失败”以下一级以获得更多详细信息。



选择解决问题的时间间隔,管理员将快速找到问题的答案:

  • 目前执行了哪些SQL查询?
  • 什么和多少用户使用该系统?
  • 系统如何响应用户请求?
  • 反应时间和系统延迟是多少?
  • 应用程序问题与数据库交互如何关联?
  • 系统如何使用给定的SLA?
  • 以及更多…

3.最后一天中最慢的五个查询。

现代的HTTP门户或WEB应用程序是一个复杂的程序。像任何其他应用程序一样,它由不同的页面和模块组成,而这些页面和模块并非总是由一个程序员编写的。通常,现代站点是CMS引擎,其上安装了许多扩展基本功能的第三方模块。有时,这些模块运行良好,有时效果不佳。并非总是能够快速了解​​问题出在哪里,并且需要花费一个多小时或一天的时间进行故障排除。

使用Flowmon APM,一切都变得透明。



如果您对更多细节感兴趣-单击图标“放大镜”并获取详细信息。例如,对于HTTP应用程序:



或对于数据库:



当然,所有内容都导出为CSV,字段和列是可自定义的,可以保存过滤器。

讨论的小部件是标准默认设置的示例。如有必要,可以为各个任务定制系统-创建您自己的仪表板并将其显示在主屏幕上。例如,数据库响应错误代码:



或HTTP错误代码:



另外,我们想提请您注意一个重点-主动监视功能。该系统不仅以被动模式“监听”和分析流量,而且独立地模拟“虚拟”用户与系统的交互。这种方法称为“综合用户”,可让您在应用程序刚开始发生时(而不是在用户首次投诉后)自动检查应用程序的状态并检测问题。为此,例如,将计划的脚本配置为检查应用程序可用性,功能和响应时间。

结果是什么?


此示例明确说明了系统的功能,尤其是应用程序性能监视(APM)模块的功能。我不能说使用Flowmon APM可以使故障排除过程变得很愉快,但是可以肯定的是,该过程得到了简化并且速度更快。

有疑问或想测试系统吗?我们将为您提供帮助,并与我们联系

我们在底线总结了关于Flowmon可以得出的结论:

  • Flowmon-适用于企业客户的高级解决方案;
  • 由于其多功能性和兼容性,可以从任何来源进行数据收集:网络设备(Cisco,Juniper,HPE,Huawei ...)或专有探针(Flowmon Probe);
  • , ;
  • ;
  • «» – ;
  • Flowmon – , 100 /;
  • Flowmon – ;
  • / .

我们也想邀请您参加我们专门针对Flowmon Networks供应商解决方案的网络研讨会要进行预注册,请在此处注册。

到此为止,谢谢您的关注!

All Articles