系统运维

作者: 影子喵喵喵 | 来源:发表于2024-08-26 09:34 被阅读0次

    一、资料完整性,准确性

    1. 无论用excel,word,运维工具,运维平台,PPT,visio等,各种相关文档完整性,准确性是非常重要的。

    2. 机房平面图,机柜面板图,机房、机柜具体位置。

    3. 主机名称,硬件型号,IP,用户,密码,机柜位置,设备序列号,设备上线时间,初验时间,终验时间,合同号,维保合同号,过保时间,运行应用程序。

    4. 网络设备端口表。

    5. 各种SSH、URL、客户端、ORACLE,应用程序等登录用户,密码。

    6. IP地址包括:固定,浮动,内网,外网。

    7. 组网图,标明IP,网内,网外。

    8. 逻辑图,流程图。

    9. 各种软硬件版本号,如防火墙,交换机,存储,操作系统,数据库,各种应用。

    10. 变更记录表。包含原版本,目标版本,解决那些主要问题,操作人,时间。

    11. 整个系统启动,停止,查看状态命令,包含所有软硬件启动,停止,查看。

    12. 周边网元,账号,密码,接口方式,协议,IP,端口,服务端,客户端,联系厂家,人员,电话,邮件。

    13. 应急方案(系统各种应急情况,故障情况的应对措施)

    14. 联系人表,包括客户,厂家维护人员,维护主管,市场人员,第三方厂家人员,各公司400联系方式。相关人员姓名,电话,邮箱。

    15. 产品培训文档。

    16. 产品文档,安装,调试,操作,维护,故障处理,参考,专题,术语等。

    二、监控

    1. 监控主机,网络,存储,操作系统,数据库,应用。

    2. 可以客户端显示告警。

    3. 分几个级别,重要级别短信,邮件,微信告警。

    4. 及时,准确。

    5. 可能有统一监控平台,也可以自定义部分脚本。

    思考:

    a) 互联网一些云平台可以根据监控的问题,自动进行故障自愈,业务扩缩容。

    b) 尽量减少误告警。

    三、巡检

    1. 通过运维平台,维护工具,脚本,自动定时巡检,如一天一次,一周一次,一个月一次。

    2. 可以对主机,网络,存储,应用,数据库进行巡检。

    3. 每天或每周看一次。

    4. 有问题尽快处理。

    思考:

    a) 巡检如个人体检医院,是最重要维护手段之一,必须脚本,工具,平台自动化。

    四、备份

    1. 自动本地定时备份,自动上传备份服务器(尽量有存储),自动删除本地XX天之前文件。

    2. 备份服务器有目录结构,备份各节点配置,数据库,网络等配置,自动定期删除XX天之前文件。

    3. 备份系统软件,平台安装软件,文档资料,产品手册等等。

    4. 尽可能有两台备份服务器,异地更好。定期备份一次。

    5. 最好个人有移动硬盘能备份。

    6. 通过脚本,工具,运维平台自动备份。

    其它注意事项:

    a) 备份是最重要维护工作之一,不管是传统IT的备份,还是云平台上的镜像,都是出问题时,恢复业务的关键方法之一。

    五、双机、集群

    1. 所有重要设备都是双机或集群,防火墙双机,交换机双机,负载均衡器双机,数据库双机,核心业务双机,核心业务集群,网络核心设备分布在两个相邻机柜,双电源,四电源。

    2. 多地多机房。

    3. 核心业务,可以多套同时对外服务。

    思考:

    a) 云计算上,如果规模大,同样多地部署。

    六、冗余

    1. 如果所有设备只在一个地方,如一个机房,一套网络设备下,那么建议核心部件建冗余系统。

    2. 冗余系统可以为单机,多机。

    3. 核心业务,数据库等,可以做冗余系统。

    4. 一旦核心业务、数据库等故障,无法恢复,可以用冗余系统改IP,启动服务就可以。

    思考:

    a)  云计算上,冗余容易些,虚拟机或容器镜像就可以。

    b) 重要系统建全部冗余系统,可能几十台,几百台设备。

    七、跳转机,堡垒机

    1. 尽量有两台跳转机或堡垒机。

    2. 各种应用客户端安装在堡垒机上。如运维平台客户端或页面,SecureCRT,Xmanager,P/L SQL,巡检工具,FTP,浏览器,存储,网络设备维护工具等等。

    3. 采用VPN,短信验证或其它方式登录堡垒机,确保认证安全,难破解。

    4. WINDOWS7或WINDOWS2008,在外部防火墙和主机防火墙可以开启防护,只开放可以访问端口并且外部防火墙用其它端口映射。

    5. 简单情况,SecureCRT可以同时访问8-10台。如果设备多,几百,上千,用运维工具或运维平台管理。

    八、安全加固

    1. 升级应用程序,补丁。

    2. 修改配置。

    3. 规避。

    4. 所有节点维护端口只对堡垒机,运维平台机器开放,禁止其它机器,包括局域网其它机器可以访问。如SSH 22端口,FTP 21端口,数据库1521端口,页面80端口等。

    5. Oracle的sqlnet.ora,主机hosts.allow,NTP的ntp.conf等都可以限制IP。

    6. iptables。

    7. 漏洞端口本地iptables封堵,或程序停止服务。

    思考:

    a) 安全加固引起无数问题,故障,事故。

    b) 安全只能达到一个平衡,不能做到所有都安全加固,否则无法维护。

    c) 城墙被攻破是最薄弱那个点,其它地方加固再强,也可能被攻破。需要一个平衡。

    d) 尽量在网络层,传送层就限制住攻击,不在应用层与攻击者PK。就是IP,或IP+端口进行限制。

    e) 硬件防火墙,交换机流策略或ACL,主机iptables,应用配置,应用的IP,用户,密码认证,都是安全防护手段。

    九、过保或停止服务设备统计

    1. 一些硬件,软件已经过了维保期,客户没有买服务,或原厂不再提供维保。

    2. 主机,网络,存储,操作系统,中间件,数据库,应用等,都进行统计。

    3. 告知客户。

    4. 推动买维保,推动更换设备,升级软硬件。

    5. 应急方案要准备好。

    十、系统隐患排查

    1. 硬件隐患,单机,软件隐患,无后续版本,license到期,无人员,无厂家支撑等等。

    2. 告知客户。

    3. 推动更换。

    十一、用户密码

    1. 从维护角度,一个人维护200-400服务器(主机),50台网络设备,50台存储,3-8个系统,大量子系统,50套数据库。这是比较繁忙的工作,建议每个系统几十台至一百多台设备,只有三至四种密码。

    2. 堡垒机密码定期修改,内部应用是否定期更换取决于维护规定。

    3. 一个系统内大量各种样式密码,将大大降低维护效率,即使有运维平台也只能部分提高效率。

    4. 当出现重大故障,紧急故障,日常问题定位,这些各式各样密码将是噩梦。

    5. 尽量用运维平台或工具统一修改密码。

    十二、信息收集

    1. 主机:主机名,CPU,内存,磁盘,网卡,mount点,VG,LV,双机状态,双机脚本,启动脚本,路由,路由文件,after.local,boot.local,raw –qa,内置硬盘是否故障等等信息。

    2. 网络:收集disp diag。

    3. 存储:通过存储工具收集存储配置信息。

    4. 应用软件配置。

    5. 这些当出现故障,重启,设备更换时,对问题定位有很大帮助。

    十三、启动停止命令表

    1. 一个人维护系统非常多,当机房停电,或人员变化时,需要一份启动停止查看命令表。

    2. 当整个系统加电,有明确启动顺序,如网络设备加电启动,存储加电启动,主机加电启动。

    3. 应用启动命令,查看命令。

    4. 所有应用停止命令。

    5. 明确停止顺序。

    十四、及时刷新维护资料

    1. 日常操作手册,最常见动作。

    2. 各种系统信息及时更新,如用户密码等等。

    3. 应急方案及时更新。

    4. 案例及时总结。

    相关文章

      网友评论

        本文标题:系统运维

        本文链接:https://www.haomeiwen.com/subject/orgokjtx.html