授人以渔——为什么选择蓝鲸来构建企业的自动化运维体系

蓝鲸设计思想和体系架构介绍

Posted by 老麦 on December 7, 2018

传统运维之殇

随着用户业务规模的逐渐增大,云计算、容器和微服务等IT技术的发展和成熟,整个IT运维环境变得越来越复杂,操作和需要管控的对象也越来越庞大,传统的运维手段已无法满足我们的要求。国内外的互联网企业,由于大部分时候面对的是互联网应用场景和相对统一的云环境,以及文化、体制、管理和人才方面都有优势,更容易接受并实施DevOps体系,和自研自维的工具文化。区别与互联网企业,传统企业在面对云时代带来的海量、复杂和异构系统带来的运维挑战时,首先要解决运维自动化的问题,通过自动化来解放运维人员的生产力,然后才能进一步向主动精细化运维,以及DevOps和智能运维转型。

自动化管理对象和场景千差万别,不同企业的IT部门遇到的环境和问题也不一样。虽然当前市场上有不少商业和开源的运维产品工具,商业产品过去有IBM、HP、BMC、CA四大传统厂商,开源方面有Puppet、Chef、Saltstack、Ansible等产品,但是如何在满足个性化需求前提下,找到一个可以很好适应自身企业持续变化的需求的平台,满足企业自动化运维诉求,把周期性、重复性、规律性的工作交给平台去处理,通过标准化、自动化、过程优化来降低运维成本,从而提高运维效率,仍然是一个摆在大多数传统企业面前的巨大难题。毕竟不同行业,不同企业的管理规模、组织架构、实施环境,以及内部安全(合规)要求都不尽相同,更不用说不同企业对IT有不同的重视程度,以及企业内部不同IT部门有不同的关注点和诉求,不同运维岗位又有各自不同的运维需求和痛点。一般来说,传统 IT 运维在发展过程中会有以下几个问题:

  • 其一,运维服务人员工作忙碌却不受重视,传统的救火式运维大大增加了运 维人员的工作强度和工作压力,难以量化的工作得不到业务部门的认可。
  • 其二,IT 系统复杂, 维护难度高,系统宕机风险系数大。
  • 其三,技术人员难培养,流动性大,有经验的技术人员因 为不受重视而辞职,造成运维质量和客户满意度的波动。
  • 其四,服务商难管理,技术水平参差不齐,服务不及时,有问题不能及时解决。

在过去二十多年的发展过程中,大多数中国企业逐步构建了以研发、测试、运维团队为主体的IT组织架构,以及基于ITIL建立了信息系统建设,服务流程和IT运维体系。而传统IT时代ITIL和ITSM为主的流程驱动下的运维理念 ,很难满足自动化的需求。以四大为首,这些商业产品一般有标准化程度高,通用性强,开箱即用的特点;在某些特定功能和场景上,这些产品确实也能按预期完成任务。然而这类产品大多不支持用户根据自身需求自主定制,或拓展应用场景,最终用户(尤其是运维人员)的个性化需求往往需要向产品预设功能去靠拢(或妥协);同时,由于这类产品大多都是面向单一运维场景,所以用户在长期建设自身IT运维体系的过程中,会为了解决新的需求而不断采购大量新的商业产品,如CMDB、监控(主机、网络、应用性能等)、日志等产品,而这种烟囱式的建设也会逐渐在企业内形成信息孤岛,各系统之间无法互联互通。。。。。。总结来说,传统企业在构建自身运维体系时,往往存在以下问题:

  • 虽然有完整的运维体系,但缺乏统一运维平台和工具,运维工具主要以商业软件为主:烟囱式建设,无法互联互通、联动
  • 运维工具无法定制开发,或者适应新增运维场景和需求,依然有大量人肉运维场景
  • 传统运维的生存空间受到来自企业内外部的威胁,在内部作为成本中心要削减IT预算,要适应外部IT技术的演进向运维开发转型 20181207-02

蓝鲸设计思想

企业需要搭建一体化的运维/运营平台,一方面要满足综合性的日常运维、监管、监控和任务调度等自动化的需求,充分利用自动化运维工具实现监控告警(如系统应用服务可用性监控、数据库及中间件性能监控),故障自愈、应用发布、日常巡检,以及硬件设备生命周期管理、企业设备资产管理等。另一方面,通过构建运维开发平台降低运维工具开发门槛,促进平台工具开发更加自主可控,更加敏捷;平台能够整合存量运维工具,实现工具间的互联互通,数据共享。

蓝鲸正是这样的一体化运营思路,对用户来说,蓝鲸的设计思路更像是授人以渔:除了内置的管控平台、CMDB、作业平台,以及监控、日志、标准运维和故障自愈等各种原子平台和SaaS外,蓝鲸的真正强大之处在于其内置的集成PaaS平台,可以让运维人员低成本的在蓝鲸PaaS之上开发各种运维场景APP,并为这些APP提供运行环境(容器方式);同时企业服务总线(ESB & API Gateway)为蓝鲸体系中的其它平台(作业平台、配置平台、数据平台、容器管理平台)和第三方的运营系统(公众号、邮箱、OA 等)提供 API,统一以组件的形式对接企业服务总线,实现各原子平台 API 协议统一和集中化管理,这样,在上层的 SaaS 应用就可以通过企业服务总线调用 API。通俗的打个比方来说,一方面,蓝鲸的PaaS更像是给运维人员提供一个兵工厂,运维人员可以持续的自己来造工具,自己武装自己;另一方面,通过ESB & API Gateway实现了对接企业已有的运维平台和工具的可能性,避免简单粗暴的把存量系统推倒重来,重复建设。 20181207-01 对于传统企业的运维团队来说,要想实现工具文化,首先就是要能够降低构建工具的成本。上图是左边是传统运维/运营工具的开发模式v:传统开发模式下,开发一个运营系统,首先是产品提需求,运维准备服务器并搭建环境,开发实现公共组件和应用逻辑,然后交付给运维做代码部署,运维在服务器上添加监控和告警,出了问题之后,运维和开发都需要通过日志来修复bug。

右边是基于蓝鲸的PaaS开发模式,有了应用需求,开发就可以直接开发应用逻辑,其他工作可以在蓝鲸上一键完成。在蓝鲸集成平台上的开发流程,开发人员只需要在本地环境完成应用代码的编写和测试,上传代码到git或者svn仓库,再到蓝鲸上点击一键部署,就可以在测试环境测试,测试ok之后一键部署到正式环境。 20181207-03

从某种程度上来说,最熟悉用户自身运维场景,肯定是用户(运维人员)本身,蓝鲸设计思想的本质就是通过武装运维,把运维的主动权和想象力交还给用户自己,让用户IT部门主导自身运维体系的建设,推动自身的工具文化和DevOps转型。基于蓝鲸的PaaS的技术解决方案,企业用户可以实现:

  • “运维基础服务”的无人值守,包括日常大量重复的发布、变更和故障处理等日常运维操作
  • “运维增值服务”的低成本实现,在实现运维基础服务无人值守的基础上,助力运维人员转型DevOps,为各相关联的岗位快速、低成本的提供支撑工具和运营系统,推动企业内部的工具文化,帮助业务实现精细化运营。

蓝鲸主要平台及功能

蓝鲸智云体系由八大平台组成,即管控平台、配置平台、作业平台、数据平台、容器管理平台、AI平台、集成平台和移动平台,为各种云(公有云、私有云、混合云)的用户提供不同场景、不同需求的一站式技术运营解决方案。除此之外,蓝鲸官方还提供了包括故障自愈、监控告警、标准运维、日志检索、CICDKit等SaaS应用。

蓝鲸智云体系依托企业级 SOA、PaaS 等理念,运用 Docker 等最先进的云技术构建起了全新的运维模式,致力于以“原子服务集成”和“低成本工具构建”的方式落地 DevOps,帮助运维快速实现“基础服务无人值守”及“增值服务”,并进一步通过 DevOps 的落地实现企业更全面和可持续的效率提升。 20181207-04

总结

本篇文章简单介绍了蓝鲸的设计思想和体系架构,在随后的文章中,我们将通过实操来介绍和演示蓝鲸的各平台和官方SaaS,以及元鼎科技基于蓝鲸PaaS的最佳运维实践,包括应用发布、自动巡检、日志检索等,同时也会不定期分享实际案例中SaaS开发。