对于深度机器学习的记录解析和底层设计-云通讯Pass平台

对于深度机器学习的记录解析和底层设计

来源：原创时间：2018-02-27 浏览：0 次

为了保证系统和系统的信息安全，日志几乎被内置到所有系统中，用于记录系统运行时生成的信息，如日常操作、网络访问、系统警告等。与系统错误等事件相关的属性和信息。这些信息对于了解系统的性能非常重要，因此经常用于异常检测。随着计算机系统的规模和复杂性的增加，日志的数量也在增加。

开发人员或维护人员可以根据丰富的日志信息在运行时监视系统的行为，以进一步跟踪系统异常值的来源；但是，由于计算机系统的大小，而且大多数系统日志都是原始的非结构化文本，当出现实际问题时，他们将面临大量日志数据。如何在最短的时间内高效、准确地解析大量的日志数据，提取有用的信息，是一个亟待解决的重要问题。

近年来，日志分析得到了越来越多的关注和迅速的发展。在传统的日志分析方法中，开发人员通常会根据自身的认知情况，手工检查系统问题或创建正则表达式以进行定期维护，但这些方法高度依赖专家经验知识，通常不具备从历史经验中主动学习知识的能力。当出现新的格式日志时，解析规则很容易过时，因此，灵活的自动化日志解析方法已经成为一种要求。近年来，越来越多的研究者致力于自动化日志解析。纳加潘等人提出的离线日志解析方法与线性的运行时间和空间，prewett4控制台日志处理提出了一种基于规则的方法。

薛文娟提出一种基于层次聚类的日志分析方法。马尔文等人。设计了一个安全日志分析系统基于频繁模式增长（FP-增长）算法。然而，这些方法仍然存在以下缺陷：只适用于严格格式化的结构化日志。它的性能在很大程度上取决于日志信息的格式和结构。它依赖于源程序对日志文本的约束，其适用性不强。日志格式的非结构化特性导致了低分辨率精度。相关规则要求日志管理员提前编写脚本，管理员需要对系统或代码有深入的了解，否则很难编写有效的脚本。

针对上述问题，主要有两种主要的日志解析方法：基于聚类的方法和启发式方法。基于聚类的日志解析方法通常由日志关键字提取日志关键字事务日志(LKE)和LogSigLogSignature表示，它们首先计算日志之间的距离。然后利用聚类技术形成不同的日志聚类。事件模板是从每个集群生成的。启发式日志解析方法由简单日志聚类工具(SLCT)表示。

然后选择频繁项组成事件候选项，最后选择候选项作为日志事件。LKE方法由于其自身的特点，不能用于处理数据量大的任务，虽然它也能达到较高的分辨率精度，但在系统异常问题的检测中，分析结果通常导致聚类分析，也称为聚类分析，这是一种无监督学习方法。它根据事物的某一属性将一组样本对象划分成簇。聚类中的对象具有尽可能高的相似性，而聚类中的对象具有最小的相似性。

对象的主要目的是划分一些未标记的对象。聚类分析不知道目标数据集中存在多少类，因此有必要在一定距离测度的基础上对所有对象进行聚类，从而使同一聚类之间的距离最小化。聚类分析可以分析数据点之间的内在联系，而不需要任何先验信息来进一步研究。

聚类结果的评价包括两个方面：聚类过程评价和聚类结果评价。后者只需考虑给定的聚类结果是否合理和有效。内部度量和相对度量是利用数据集固有的特征和数量来评价聚类算法的结果的，通常用于数据结构未知和无标记数据结构的聚类评价。相对度量的重点是聚类算法的有效性。本文对数据集的结构进行了分析，强调了聚类算法的准确性。因此，采用外部度量作为聚类评价指标。外部度量假设聚类算法的结果是基于一种人工的预定义结构，反映了对数据聚类结构的一种直观的理解。

对于每个数据项，聚类结果与手册更加一致。常用的外部度量指标是F度量和Rand索引更多的错误警报。本文主要结合Logsig算法的理论知识。设计并开发了一个日志分析系统，该系统可以从非结构化原始日志文本中生成H日志事件。该系统具有原始数据预处理、日志解析、聚类分析与评价、聚类结果散乱显示等四大功能。系统的结果可以转换为日志数据挖掘任务和日志事件序列，用于网络入侵检测。

该系统已在大型战斗比赛的开源防火墙日志数据集上进行了测试。结果表明，测井分析的平均精度可达85%。实验表明，在原算法中加入数据预处理步骤后，与原Logsig算法相结合的聚类结果评价模块，分辨率提高了60%。用户可以更直观地观察日志解析的效率。

随着计算机系统的发展，日志数量的增加，日志在各种数据挖掘任务中的作用，日志自动解析成为必然趋势。然而，缺乏一个系统的处理平台。本文主要设计和开发了一个日志解析系统，该系统能够高效、快速地从日志文本中解析日志事件。该系统实现了原始数据的预处理和日志解析。聚类分析评价和聚类结果散点图具有四大功能，集数据处理和结果分析于一体，提供了更好的用户体验。通过ⅤAST201l1挑战的开源防火墙日志数据集验证了该系统的可行性。

分析了数据预处理聚类的数量以及正则表达式对日志解析精度的影响。还发现日志大小会影响聚类的时间复杂度。因此，在接下来的工作中，我们可以考虑程序运行的并行性。目前，系统的聚类数是基于小数据集实验的，接下来的研究可以考虑结合自适应聚类算法来提高系统的性能。