Hi峰兄-CSDN博客

原创还是决定以后的文章都发在知乎专栏吧

专栏地址：HiPhone运维之道为了避免两边文章 copy 后形成冗余副本，还是把源集中在一个地方比较好综合考虑决定落地知乎，暂别 csdn 了。

2018-01-20 16:30:33 1954

原创 MySQL 主主（双主）复制

MySQL支持单向、异步复制，复制过程中一个服务器充当主服务器，而一个或多个其它服务器充当从服务器。主服务器将更新写入二进制日志文件，并维护日志文件的一个索引以跟踪日志循环。当一个从服务器连接到主服务器时，它通知主服务器从服务器在日志中读取的最后一次成功更新的位置。从服务器接收从那时起发生的任何更新，然后封锁并等待主服务器通知下一次更新。配置主主同步的操作步骤：MySQL-A 10....

2019-06-28 13:41:24 29057 7

原创闲聊我心中的运维

运维要被取代？本文主要面向想了解运维是什么的读者，包括想投身运维行业或者非运维岗位的技术从业者。在知乎我经常受邀请回答很多类似的问题：”运维到底是干什么的？“”运维工作有没有意思？“”运维有没有前途？“”运维是不是要被各种技术取代？“然而本人上知乎以休闲娱乐为主，一般不回答正儿八经的技术或者专业相关的问题，但希望这次能通过本文向各

2017-12-29 23:00:29 1632

原创如何通过各种数据挖掘运维价值

关于作者温峥峰，百田信息运维技术专家，DevOps team leader，运维自动化平台负责人，曾就职于网易游戏，专注于运维自动化建设、DevOps实践与海量游戏技术运营。知乎ID @Hi峰兄前言改进一个功能是否真的有效果，需要数据说话；一个运维操作是否有效果，也需要数据说话；杜绝拍脑袋，数据为王。「可量化」是一个严谨的技术人员需

2017-12-19 13:52:33 3203

原创中小型运维团队如何设计运维自动化平台

需求驱动导向，大家也不会因为上线一个小项目就招人做自动化平台，在什么情况下我们才需要做自动化平台呢？

2017-11-22 15:02:52 3293

原创如何成为技术大牛

疑问最近在知乎有一个问题获得了广泛关注，因为这个问题反映了广大技术人员的普遍工作状态。天天写业务代码的程序员，怎么成为技术大牛，开始写技术代码？ https://www.zhihu.com/question/39430220/answer/90546883 姚冬，填坑侠一个产品业务的开发过程中必然存在很多需要解决的问题，比如崩溃，死锁，性能低下，延迟高，服务器不稳定，数据丢失，某

2016-04-13 09:05:42 3298 1

原创从系统运维走向技术运营

两三年前的时候，我觉得运维的工作就是把服务器、网络、数据库搭建好，然后把程序部署上去运行起来，再把相应的监控加好，那么运维的工作就做的七七八八了。这时我们关注的重点是服务器、操作系统、网络、发布、故障处理等事项，但是每上一个新项目，我们几乎都要重新做一遍以上流程，没完没了。有时候做运维久了，总觉得自己苦逼，我们虽然掌握着线上服务器最高的权限，好像和企业的业务发展关系不大，存在感非常弱，

2015-09-10 22:34:00 5851 1

原创系统瓶颈的定位

系统瓶颈的定位目的：明白linux系统的瓶颈所在，以及快速定位程序的问题场景：人物：小程和小维小维：过来看看，你的程序跑满CPU了，现在系统load average很高。小程：嗯，是喔。是不是JVM配的太小啦，加大点啊，难道这台机器要加内存呢？分析：相信很多朋友都试过自己的程序把系统跑到满负载，怎么解决？最简单的方法应该就是加大内存了吧。真的能

2015-09-03 23:59:28 2176 1

原创 SQL审核自动化

很多游戏项目都是通过每周更新大版本来维持用户的粘性和活跃度，而更新版本必然伴随着数据库的新建create、改表alter的SQL。运维或者dba负责审核这类sql是否合理、高效，因为很多开发同事特别是经验少的新人是不考虑sql性能、是否合乎MySQL的最佳实践。经常很多建表语句漏加索引或者加错索引（不满足最左匹配等情况），需要等到开服后数据库负载过高引起告警才发现问题。MySQ

2015-09-03 22:13:02 5512 1

原创异地多活（异地双活）实践经验

异地多活（异地双活）是最近业界讨论比较多的话题，特别是前一阵子支付宝机房光纤故障和携程网数据库丢失之后，更加唤起了技术人员们对异地容灾的考虑。而异地多活比异地容灾更高一级，因为异地容灾仅仅是一个冷备的概念，而异地多活却是指有两个或者多个可以同时对外服务的节点，任意一个点挂了，也可以迅速切换到其他节点对外服务，节点之间的数据做到准实时同步。网上看了很多技术分享，总结了以下实践

2015-08-31 15:44:24 24871

原创故障处理的境界

运维工程师不可避免得会遇到各种故障的情况，[可控]是运维团队追求的终极目标之一包括故障的可控性，所以衍生出以下的子目标：1. 降低故障概率海恩法则：每一起严重事故的背后，必然有29次轻微事故和300次未遂先兆，以及1000个事故隐患。用数据说话，统计各种异常的原因分布：网络与硬件外部门人员配合程序代码原因架构设计缺陷数据库部署错误人为错误其他累计一

2015-08-30 15:39:07 1828

原创 [笔记]软件体系结构(3)--管道与过滤器

看了一整晚，不甚理解管道/过滤器。常见的案例Linux命令管道是比较好理解的，但加之混乱的主动/被动的动态概念，就不太好理解了。暂先整理笔记，后面再回顾。这是看的第2类体系结构，不是有所收获：大致可抽象出一些常见设计的范式1、体系结构现过程关键点：拆、定义接口/格式、合、出错处理2、优点关注：重用度 “考虑到一般变更的设计是优秀系统深化的一个主要助推器”【概述】管道和

2015-08-27 00:11:04 9199 2

原创 [笔记]软件体系结构(2)--分层

分层是大家耳熟能详的体系结构模式，如Struts的MVC，Web项目常用的运行视图分层表现层/业务层/数据访问层。可能概念/原则上比较好理解，网络上比较完整的讲解极少。整理完一遍，对分层的理解更清晰了：在怎样的场景需要考虑分层，分层的具体方式（经常遗漏的重复考虑分层、），在分层过程中对其优势点的平衡层的应用背景：有助于构建能够被分解成子任务组的应用系统，其中每个子任务组处于1个特定

2015-08-25 00:09:38 2465

原创 [笔记]软件体系结构(1)--模式初印象

Nic近期在看一本《面向模式的软件体系结构》，拿来翻翻，只看到第2章，思路方面的东西还是挺有趣、可借鉴的。陆续作笔记，后面再做一次总结。注：Nic是我媳妇，资深软工/TL什么是模式模式包括：语境/环境、问题（强制条件集，功能/约束/过程）、解决方案（平衡强制条件，包括组件和关系结构、行为）评估标准：达到软件工程目标，可支持复杂、大规模系统的开发、维护、演化

2015-08-23 12:39:55 1454

原创运维大局观

1 拒绝重复劳动，能用程序干活的，坚决程序化、平台化；2 拒绝重复犯错；3 凡事有备份、可回退，有plan B；4 用技术来解决流程问题；5 通过每一次故障进行学习和提升，再回到第2条；6 运维部门做到服务化，不要把自己当作边缘部门或纯技术论；7 对身边同事要有激励和正反馈；8 深入了解所运维的产品，拒绝黑盒运维；

2015-08-13 20:28:35 3545 1

原创关于MySQL的TPS和QPS

TPS - Transactions Per Second（每秒传输的事物处理个数），这是指服务器每秒处理的事务数，支持事务的存储引擎如InnoDB等特有的一个性能指标。计算方法：TPS = (COM_COMMIT + COM_ROLLBACK)/UPTIMEuse information_schema;select VARIABLE_VALUE into @num_co

2015-08-12 20:59:28 11400

原创运维各类工作时间占比

按时间跨度的纬度把工作分为三大类：战略性、阶段性、日常性一般战略性工作的时间跨度从半年到数年，阶段性工作一般跨度为一个季度左右，日常性工作跨度为一周到一个月战略性工作 15%~25% 依据业务制定技术发展战略发现业界新的技术为业务发展、提高提供技术建议阶段性工作 20%~30% 参与项目的部署运维制定周期

2015-08-06 22:15:58 4242

原创 Linux OOM killer 机制

Linux中的Out Of Memory（OOM） Killer功能是一种确保系统内存足够的最终手段，可以在耗尽系统内存或交换区后，按某种算法判断占用系统最多资源的进程，向进程发送信号，强制终止该进程。简单来说该机制会监控那些占用内存过大，尤其是瞬间很快消耗大量内存的进程，为了防止内存耗尽而内核会把该进程杀掉。这个功能即使在无法释放内存的情况下，也能够重复进行确保内存的处理过程，防止系统

2015-08-03 22:07:57 4159

原创华南运维论坛 2015-07-25

这次的运维技术大会是由UCloud公司独家赞助组织的，非常难得是在广州举行，因为公司本地企业对这种类型的技术交流氛围还不够好。不过自从上次阿里UC在广州组织过的一次技术分享大会之后，应该会有越来越多的互联网企业跟进，毕竟这种会议的组织者对整个圈子的氛围推进和口碑传播都有非常好的正效果。阿里移动技术峰会的一些体会 2015-07-04好吧，回到这次的会议主题部分，主要

2015-07-26 11:24:03 1487

原创 #定位系统性能瓶颈# sysdig

安装方法：curl -s https://s3.amazonaws.com/download.draios.com/stable/install-sysdig | sudo bash[root@localhost ~]# curl -s https://s3.amazonaws.com/download.draios.com/stable/install-sysdig | sudo

2015-07-22 20:30:53 2049 1

原创一个性能较好的jvm参数配置以及jvm的简介

一个性能较好的web服务器jvm参数配置：-server //服务器模式-Xmx2g //JVM最大允许分配的堆内存，按需分配-Xms2g //JVM初始分配的堆内存，一般和Xmx配置成一样以避免每次gc后JVM重新分配内存。-Xmn256m //年轻代内存大小，整个JVM内存=年轻代 + 年老代 + 持久代-XX:PermSize=128m //持久代内存大小-Xss256

2015-07-19 11:07:58 7462

原创 #定位系统性能瓶颈# perf

perf是一个基于Linux 2.6+的调优工具，在liunx性能测量抽象出一套适应于各种不同CPU硬件的通用测量方法，其数据来源于比较新的linux内核提供的 perf_event 接口系统事件:perf tool 支持一系列可计算的事件类型。该工具和底层内核接口可以监测来自不同来源的事件。例如,一些事件是来源于纯粹的内核计数器,这些event在这种情况下被称为软件事件。例子包括

2015-07-14 14:31:49 3935

原创阿里移动技术峰会的一些体会 2015-07-04

这个周六有幸参加了在广州举行的阿里移动技术峰会，很不容易能在广州参加一次技术分享会，以往都要跑到京杭深等地方，非常麻烦。希望以后能在广州举办越来越多的技术会议，提高下广州的技术圈分享氛围。简要地补几幅图吧，以后官网应该有更详细的图片和ppt放出来的下面是具体会议的主题我下面将按顺序讲下感受：1 UC垂直导航业务这个主要分享

2015-07-05 11:10:33 1809

原创 #定位系统性能瓶颈# strace & ltrace

strace和ltrace分别对应的是系统调用和库函数调用，系统调用实际上就是指最底层的一个调用，在linux程序设计里面就是底层调用的意思，面向的是硬件。而库函数调用则面向的是应用开发的，相当于应用程序的api，常见的lib有openssl、libxml等。前者属于内核层，后者属于用户层，下面有其层次对应图引用《UNIX环境高级编程》对这两个概念的区别描述如下：

2015-07-01 16:39:17 5572

原创 #定位系统性能瓶颈# 序言

1、监控：2、测试：3、优化： linux系统的全部常见的性能工具，包括监控、测试、优化三个范畴，这三张图来自系统性能专家 Brendan D. Gregg (Linux Performance Tools) 我希望把这里全部工具都简单介绍一遍，但不是想做成大而全的参考文档形式而是想用几个简单的例子，用实战的方式把这些工具的常见使用方法和场景介

2015-07-01 15:50:14 1690 1

HiPhone运维之道