安全通报

安全运营的器术法道

日期：2020-10-10 16:50:29 投稿人：转载国家信息安全服务资质

01 前言

在进行安全体系建设工作的时候，人们往往容易看到的成果是新研发了一个安全系统，采用了一个新的技术，似乎做出一个新系统采用一种新技术就可以一劳永逸地解决某类安全问题了。可现实告诉我们那是不可能的，因为我们面临的安全威胁总是在变化，安全本身是一个动态的持续的过程，没有任何技术和系统能够覆盖完全一劳永逸，我们既需要有系统有技术，也需要对系统和技术做持续的、长期的、细致的、有效的运营，不断对系统和技术进行迭代优化，最终才能真正解决问题。

所以，笔者的观点是，安全系统研发完成投入使用是解决了从无到有的问题，是万里长征第一步，而之后的安全运营工作才是从有到优的不断升级之路。

02 安全运营是什么

互联网业务的快速发展产生了很多新概念，最重要的就是系统、产品的“运营”，即指系统的快速迭代过程，用朴素的语言描述就是业务遇到问题“先抗住，再优化”。

那么，什么是安全运营呢？信息安全类工作只听说过写脚本、挖漏洞、黑网站、建系统，“安全运营”到底是要做什么？经过多年工作经验沉淀以及与各位专家、同事们的反复交流讨论，笔者大概摸到了安全运营的门道：使用系统、发现问题、解决问题——使用安全系统，在使用过程中发现系统和策略的问题，分析问题提炼出优化点，反馈给系统迭代优化，最终达成完美解决安全问题的目标。相比于传统行业，互联网业务本身讲究小步快跑快速迭代，所以运营的迭代也很快，安全运营也继承了这个特性。

把安全系统真正用起来，发现安全系统的问题，不断去优化安全系统，提升系统能力最终解决安全风险，就是安全运营的核心思想所在。

但是，知易行难，人们往往容易陷入两个误区：

(1) 做出一个系统更容易被看到，但运营系统需要大量的时间沉淀并且不容易被看到。人总是趋利避害的，所以容易出现“重建设轻运营”的情况，大家都想做系统做产品蹭热点出成绩，很少人会主动关注运营工作，最终导致系统众多却无后续运营的“烂尾”项目；

(2) 技术人员更容易陷入到技术本身，相比于落地的梳理类、推动类、管控类的安全运营工作，技术人员更愿意将精力放在高新技术研究应用、参加比赛以及漏洞挖掘利用等方面。

这两种情况都是舍本逐末。因为我们工作的核心是发现和解决安全风险，不是做系统或者使用先进技术，切不可本末倒置。所以，安全运营就是踏踏实实不投机取巧地优化系统，要“扎硬寨打呆仗”。

与信息安全的“三分技术、七分管理”理论类似，安全运营也是一个“三分技术、七分管控”的活：很多时候我们遇到的问题不是技术问题，而是工程问题、沟通问题、合作问题和推动问题。所以技术好并不一定代表能做好安全运营，但是要把安全运营做到卓越，则需要对技术有深入的理解。

从标题可知，笔者把安全运营能力分为四个等级：器、术、法、道。初级阶段是能够运用相关的工具和方法来发现解决问题，是为“知器”；中级阶段是能够总结归纳创造自己的一套办法论来解决问题，是为“有术”，有学才有术，所以要不断学习；高级阶段是能根据各种不同情况提炼自己的方法论并落地，是为“循法”；最最高的阶段是“悟道”，“道可道，非常道”，是最高境界。

03 衡量标准探索

明确了安全运营是什么，该如何衡量安全运营工作？

首先，需要衡量指标，有指标才能判断当前距离目标的差距。

不同的安全系统指标有所不同，但大致包括两大类：系统覆盖率、策略有效率和误报率。前者是指安全系统对被保护对象的覆盖比率，关注工程落地，比如公司有一万台服务器，目前HIDS已部署了5000台，这个系统覆盖率就是50%；后者衡量安全系统对安全风险的有效应对情况，关注策略效果，比如HIDS理应发现各类WebShell，目前有样本1000个，HIDS能发现800个，策略有效率就是80%，实际运营过程中发现1000个WebShell，有1个最终确认不是，那这个策略误报率就是0.1%--一个误报率高的系统最终是没法运营的，那就等于没有。

一个好的安全系统，一定是朝着提升覆盖率、提升有效率、降低误报的目标前进的：任何脱离覆盖率谈有效率的安全系统都是纸上谈兵，任何误报率高的安全系统都是无法运营的，形同虚设。

上述只是理想情况，在实际执行过程中会遇到各种问题和特殊情况：如HIDS是支持Windows/Linux的，但是还有20台是Mac系统，这20台算不算到总数中？HIDS的一个功能插件不支持某些Linux版本，那算不算已覆盖？年初HIDS的WebShell策略有效率是80%，经过一年的规则迭代，又增加了100个样本检测，现在网上发布了新的WebShell手法，这种新手法产生的样本有120个，那么现在如何算策略有效率？HIDS今年发现了2个WebShell事件，其中1个是误报，策略误报率50%到底是好是不好呢？……

另外，量变引起质变，当基数足够大的时候，即使是一个简单的问题也会非常复杂--就像经典力学仅适用宏观世界一样，在海量面前，过去的一些做法可能都不适用。比如我们管理1000台统一配置的服务器的时候可以管理得很好，但是服务器数量增到数十万台，根据业务需要又有各种不同的硬件和软件，复杂度将呈几何级增加，到时即便是一个小小的软件版本统计需求，也会成为浩大的工程。因此，安全运营就显得更为重要。

还有一些视具体系统而定的指标，如：漏洞扫描系统检测一轮所有域名/IP的耗时、HIDS发现入侵到告警的时间、DDoS的单机防护能力、WAF性能延时、应急响应时长等等。比如我们在推动的公司网站HTTPS改造项目中，提炼的三个重要指标是覆盖率、合规率、待改造域名数（有率有量，避免偏差），然后运营人员不断推动，提升指标接近目标。

其次，需要进行实战检验。

从前一段的各种问题可以看到，衡量指标是数据，从不同角度解读数据会产生不一样的结论，所以不要轻信各种主观得出的覆盖率100%、有效率100%的这种结论（很可能前提条件是排除了某些特殊情况以及仅测试自己收集的样本，甚至还有部分情况是统计遗漏），一定要邀请独立的蓝军进行实战检验，实战是检验防护能力的唯一标准。

检验是要真正的检验，所以需要独立的蓝军。作为负责人，不要被虚假的安全感迷惑，不要听信“互惠”结论、虚假数据和PR文章，一定要切实检查。

第三，需要做好完整复盘。

每一个漏洞每一次安全事件都是一次练兵的好机会，安全团队应该抓住机会复盘，查漏补缺，举一反三，从一个问题优化一类问题。

以漏洞检测系统为例，研发安全团队对每一个外报漏洞做复盘，如漏洞检测系统为什么没有发现，是什么原因导致的（策略问题/未抓取到URL/未经过上线前/系统bug……），根据问题进行归纳分析总结优化，不断迭代系统和策略，直至问题完全解决。

下图是一段时间的外报漏洞复盘对比图，可以看到，先前存在比较多的“普通反射型XSS”被优化掉了（说明漏洞检测系统对反射性XSS的发现能力提升了），新的漏洞类型主要是逻辑漏洞、存储型XSS、权限绕过等自动化系统相对难以检测的漏洞，这便是下一阶段运营团队继续想办法解决的重点工作。

很多时候复盘需要若干个案进行总结归纳分析提炼，所以数据运营分析意识很重要。

04 运营方法论与实践

以下是笔者总结的一些常见运营方法论和具体实践。

1 </div>
<div class= 上一篇目录下一篇

安全运营的器术法道

日期：2020-10-10 16:50:29 投稿人：转载国家信息安全服务资质

安全服务

运维服务

联系我们