自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 【云吞铺子】时延敏感业务超时问题分析(三)

《云吞铺子-故障排查案例精选》第10期重磅更新!本期是《时延敏感业务超时问题分析》的终极篇,我们继续跟随阿里云售后技术专家月宾聚焦网络经典案例。大牛出品,必属精品!点击查看视频...

2019-07-04 14:04:33 280

原创 【云吞铺子】时延敏感业务超时问题分析(二)

《云吞铺子-故障排查案例精选》第9期如期而至!本期我们继续跟随阿里云售后技术专家月宾聚焦《时延敏感业务超时问题分析》。网络经典案例,不可错过哦!点击查看视频添加链接描述...

2019-06-27 14:46:14 393

原创 【云吞铺子】CDN域名接入流程

《云吞铺子-搬站实战技术精讲》第4期如约而至!本期是CDN搬站主题的第一节,将由阿里云技术专家三钱分享域名的接入及管理。完成学习,你就是明日技术大牛!点击查看视频...

2019-08-08 16:04:05 452

原创 【云吞铺子】数据库DTS搬站实践分享

《云吞铺子-搬站实战技术精讲》第3期重磅上线!本期我们继续聚焦数据迁移工具,阿里云技术专家三菜将分享数据库DTS工具在搬站实践中的使用心得,技术干货不可错过哦!点击查看视频...

2019-08-01 16:05:49 438

原创 K8S从懵圈到熟练 – 集群服务的三个要点和一种实现

以我的经验来讲,理解K8S集群服务的概念,是比较不容易的一件事情。尤其是当我们基于似是而非的理解,去排查服务相关问题的时候,会非常不顺利。这体现在,对于新手来说,ping不通服务的IP地址这样基础的问题,都很难理解;而就算对经验很丰富的工程师来说,看懂服务相关的iptables配置,也是相当的挑战。今天这边文章,我来深入解释一下K8S集群服务的原理与实现,便于大家理解。K8S集群服务的本质是...

2019-07-29 15:03:42 354

原创 【云吞铺子】OSS在线迁移服务剖析

《云吞铺子-搬站实战技术精讲》第2期如约而至!本期主题《OSS在线迁移服务剖析》,我们继续跟随阿里云技术专家韩笠学习如何实现海量数据迁移。技术+颜值,实力强到无法FU吸!点击查看视频...

2019-07-25 15:14:38 374

原创 K8S从懵圈到熟练 - 我们为什么会删除不了集群的命名空间?

阿里云售后技术团队的同学,每天都在处理各式各样千奇百怪的线上问题。常见的有,网络连接失败,服务器宕机,性能不达标,请求响应慢等。但如果要评选,什么问题看起来微不足道事实上却足以让人绞尽脑汁,我相信答案肯定是“删不掉”的问题。比如文件删不掉,进程结束不掉,驱动卸载不了等。这样的问题就像冰山,影藏在它们背后的复杂逻辑,往往超过我们的预想。背景今天我们讨论的这个问题,跟K8S集群的命名空间有关。命...

2019-07-24 15:14:46 965

原创 【云吞铺子】OSS上云数据迁移

《云吞铺子-搬站实战技术精讲》系列重磅上线!首期我们聚焦如何将海量的数据迁移到OSS,阿里云技术专家韩笠将分享本地IDC迁移以及多个源文件目录迁移场景下ossimport工具的使用。大牛出品,必属精品!点击查看视频...

2019-07-18 15:28:46 410

原创 阿里云环境中TLS/SSL握手失败的场景分析

TLS/SSL握手是一个相对复杂的过程,在阿里云环境中结合产品,安全等特性,可能会让TLS/SSL握手过程的不定性更多。本文来总结下各种握手失败的场景。一次TLS/SSL握手的过程本文不详细介绍TLS/SSL基础知识,相关介绍可以参考文章。下面3张图描述了3种TLS/SSL握手的全过程。服务器验证的完全握手 (Full Handshake with Mutual Authentication...

2019-07-10 14:34:15 994

原创 OSS 在线迁移服务剖析

在前迁移说明目前由于 OSS 数据迁移服务涉及到对目标的 OSS 要有很多 action 的 API授权,为避免用户产生过多的学习成本,我们直接强制使用主账号进行迁移;该服务正在公测中,目前仍在免费使用阶段;服务使用需要提前工单申请账号 UID 加入白名单;在线迁移分类离线迁移:这里是指的闪电立方硬盘数据 copy 的方式迁移到 OSS;适合用在专有云,以及海量 PB 级别数据想要快...

2019-07-05 14:53:21 179

原创 如何使用curl访问k8s的apiserver

使用TOKEN授权访问api-server在k8s运维场景中比较常见,apiserver有三种级别的客户端认证方式1,HTTPS证书认证:基于CA根证书签名的双向数字证书认证方式2,HTTP Token认证:通过一个Token来识别合法用户3,HTTP Base认证:通过用户名+密码的认证方式通常的运维场景使用第二种Token较为方便Token的权限是关联service account,...

2019-06-26 15:19:13 3191

原创 使用NGINX作为HTTPS正向代理服务器

NGINX主要设计作为反向代理服务器,但随着NGINX的发展,它同样能作为正向代理的选项之一。正向代理本身并不复杂,而如何代理加密的HTTPS流量是正向代理需要解决的主要问题。本文将介绍利用NGINX来正向代理HTTPS流量两种方案,及其使用场景和主要问题。HTTP/HTTPS正向代理的分类简单介绍下正向代理的分类作为理解下文的背景知识:按客户端有无感知的分类普通代理:在客户端需要在浏览...

2019-06-24 15:58:24 268

原创 【云吞铺子】时延敏感业务超时问题分析(一)

《云吞铺子-故障排查案例精选》第8期重磅发布!当延时敏感业务遇到超时问题情况应该如何处理?本期我们跟随阿里云售后技术专家月宾聚焦网络类问题的经典案例。大牛出品,必属精品!点击查看视频...

2019-06-20 16:30:02 385

原创 时延敏感业务低概率超时问题分析

前言作为阿里云底层提供的基础设施,内部的物理网络和许多网络产品在数据平面给客户的可操作性并不高,从一定程度上来说是个黑盒。当然,在传统的IDC环境,业务和物理网络之间也存在同样的隔阂。所以在遇到业务卡顿、延迟、不通等问题的时候,很容易怀疑到网络。因此如何抽丝拨茧,找到正确的方向对症下药才能够真正的解决问题。毕竟“真相只有一个”。在进行问题排查和处理的时候,难度最高的场景就是极度偶发,复现频率极...

2019-06-17 14:37:50 833

原创 K8S从懵圈到熟练 – 这么理解集群控制器,能行!

当我们尝试去理解K8S集群工作原理的时候,控制器肯定是一个难点。这是因为控制器有很多,具体实现大相径庭;且控制器的实现用到了一些较为晦涩的机制,不易理解。但是,我们又不能绕过控制器,因为它是集群的“大脑”。今天这篇文章,我们通过分析一个简易冰箱的设计过程,来深入理解集群控制器的产生,功能以及实现方法。大图下图是K8S集群的核心组件,包括数据库etcd,调度器scheduler,集群入口API ...

2019-06-14 10:19:12 617

原创 【云吞铺子】RDS for MySQL CPU性能问题分析(三)

《云吞铺子-故障排查案例精选》第7期如期更新!本期是《RDS for MySQL CPU 性能问题分析》的终极篇,我们一起跟随阿里云高级技术专家田杰聚焦数据库经典案例。大牛出品,必属精品!点击查看视频...

2019-06-12 14:02:38 315

原创 K8S从懵圈到熟练 – 集群伸缩原理

阿里云K8S集群的一个重要特性,是集群的节点可以动态的增加或减少。有了这个特性,集群才能在计算资源不足的情况下扩容新的节点,同时也可以在资源利用率降低的时候,释放节点以节省费用。这篇文章,我们讨论阿里云K8S集群扩容与缩容的实现原理。理解实现原理,在遇到问题的时候,我们就可以高效地排查并定位原因。我们的讨论基于当前的1.12.6版本。节点增加原理阿里云K8S集群可以给集群增加节点的方式有,添...

2019-06-04 16:17:53 588

原创 为什么kill进程后socket一直处于FIN_WAIT_1状态

本文介绍一个因为conntrack内核参数设置和iptables规则设置的原因导致TCP连接不能正常关闭(socket一直处于FIN_WAIT_1状态)的案例,并介绍conntrack相关代码在conntrack表项超时后对新报文的处理逻辑。案例现象问题的现象:ECS上有一个进程,建立了到另一个服务器的socket连接。kill掉进程,发现tcpdump抓不到FIN包发出,导致服务器端的...

2019-06-04 15:53:32 479

原创 K8S从懵圈到熟练 – 集群网络详解

阿里云K8S集群网络目前有两种方案,一种是flannel方案,另外一种是基于calico和弹性网卡eni的terway方案。Terway和flannel类似,不同的地方在于,terway支持Pod弹性网卡,以及NetworkPolicy功能。今天这篇文章,我们以flannel为例,深入分析阿里云K8S集群网络的实现方法。我会从两个角度去分析,一个是网络的搭建过程,另外一个是基于网络的通信。我们的...

2019-06-03 14:52:02 3349

原创 【云吞铺子】RDS for MySQL CPU性能问题分析(二)

《云吞铺子——故障排查案例精选》第6期重磅更新!本期我们继续跟随阿里云高级技术专家田杰聚焦 RDS for MySQL CPU 性能问题分析。数据库经典案例,不可错过!点击查看视频...

2019-05-30 11:55:52 305

原创 【云吞铺子】RDS for MySQL CPU性能问题分析(一)

《云吞铺子——故障排查案例精选》第5期如期而至!当您在使用RDS for MySQL 的实例过程中,遇到CPU使用率100%或者过高的情况应该如何处理?本期我们跟随阿里云高级技术专家田杰聚焦数据库类问题经典案例,大牛出品,必属精品!点击查看视频RDS for MySQL CPU 使用率高是使用 RDS for MySQL 实例过程中比较常见的一类性能问题。由于实例 CPU 资源打满会直接导致...

2019-05-23 11:28:43 359

原创 RDS for MySQL CPU 性能问题分析

RDS for MySQL CPU 使用率高是使用 RDS for MySQL 实例过程中比较常见的一类性能问题。由于实例 CPU 资源打满会直接导致业务受损,且问题发生过程迅速、临界时间短 统计采集困难、问题发生后统计指标呈反向曲线,加之日常运维过程中问题征兆容易被忽视,非常容易导致用户体感问题突然性强烈,因此在这里我们对 RDS for MySQL 的 CPU 使用率高的原因做一个比较详细的...

2019-05-20 11:50:07 467

原创 阿里云网络产品常见架构场景及问题

阿里云的网络和弹性计算类产品很多,使用场景也多种多样,本文是一些使用场景的集锦。主要思路是从使用特定场景中发生的典型问题出发,总结网络产品使用中的关键点。场景1: 使用VPN打通多个数据中心架构用户自己的数据中心通过专线和阿里云相连,同时用户使用了其他公有云的资源,利用阿里云VPN网关和其他公有云厂商打通IPsec VPN。架构和网段如下:问题现象参考文档“VPN网关配合云企业网搭建高...

2019-05-17 13:54:26 1161

原创 【云吞铺子】CC防护分析

《云吞铺子——故障排查案例精选》第4期重磅上线!本期我们将聚焦安全类常见问题,阿里云技术专家枫凡将分享web应用网站类的CC防护分析与实战心得,技术干货不可错过哦!点击查看视频...

2019-05-16 11:58:45 339

原创 处理网络超时问题的最佳实践

对于云上的用户来说,业务日志里面报超时问题处理起来往往比价棘手,因为1) 问题点可能在云基础设施层,也有可能在业务软件层,需要排查的范围非常广;2) 这类问题往往是不可复现问题,抓到现场比较难。在本文里就分析下如何来分辨和排查这类问题的根本原因。业务超时 != 网络丢包由于业务的形态不同,软件实现语言和框架的不同,业务日志中打印出的信息可能是各不相同,比如如下关键字:"SocketTimeO...

2019-05-14 13:45:58 590

原创 WAF+SLB负载不均衡案例分享

问题演变过程时间点1:高防+WAF+SLB+2台ECS时间点2:高防+WAF+SLB+4台ECS问题描述在时间点1时,没有发现明显的负载不均衡的情况。在时间点2时,出现大部分请求都打到了其中一台ECS上。需要定位问题原因问题梳理问题链路是SLB后端的ECS出现负载不均衡的请求,那么直接影响这个转发算法的,是WAF以及SLB。那么和高防没有关系了。配置情况SLB:TCP监听,W...

2019-05-13 13:34:28 970

原创 【云吞铺子】性能抖动剖析(三)

《云吞铺子——故障排查案例精选》第3集更新啦!本期我们继续跟随阿里云高级技术专家江冉了解系统性能抖动的经典案例。也许,你和技术大牛之间只差一期云吞铺子!点击查看视频网络抖动案例是一类处理难度较大的问题,原因主要是很多抖动发生的频率不高,且持续时间非常短极限情况可能仅有100ms以下,而很多用户的业务应用对实时性要求非常高,因此对此类在百毫秒的延迟也会非常敏感。本文记录的是一次多团队协作处理的抖...

2019-05-09 18:03:35 325

原创 记一次典型的TCP传输吞吐效率问题

客户在ECS上实现了一个供小图片上传的接口,通过高防->SLB->ECS的网络链路将接口发布给终端用户。但是发现上传的速率很不理想,上传600K左右的小图片大约要8秒。初看起来像是高防问题,但是通过排查最终发现这是一个典型的TCP传输吞吐量问题,并且是由于后端服务器端的配置而引起,在此记录下排查过程和相关原理。梳理和分辨问题初看起来像是高防问题,但我们还是需要来先分辨下问题。整个传...

2019-05-06 14:14:07 5323

原创 Linux内核协议栈丢弃SYN报文的主要场景剖析

在排查网络问题的时候,经常会遇见TCP连接建立不成功的场景。如果能获取到两端抓包,两端抓包看起来如下:客户端在一直按照指数退避重传TCP SYN (因为首包没有获取到RTT及RTO,会在1, 2, 4, 8秒…重传,直到完成net.ipv4.tcp_syn_retries次重传)服务器端能看到TCP SYN报文已经到达网卡,但是TCP协议栈没有任何回包。因为这样的问题出现的频率不小,本...

2019-05-05 15:21:18 1320

原创 为何客户端突然出现大量TIME_WAIT堆积

本文介绍了一个在阿里云环境下某客户端ECS机器上突然发现TIME_WAIT突然增高的问题和排查过程。问题场景:原来客户端直接访问后端Web服务器,TIME_WAIT数量非常少。现在引入了7层SLB来实现对后端服务器的负载均衡。客户端SLB访问后端服务器,但是发现客户端的TIME_WAIT状态的socket很快累积到4000多个,并且客户反映没有修改任何内核参数。梳理问题收到这个信息后,基本上...

2019-04-26 13:37:26 6237

原创 【云吞铺子】性能抖动剖析(二)

《云吞铺子-故障排查案例精选》第2集如约而至,阿里云高级技术专家江冉将继续剖析系统性能抖动的经典案例。技术+颜值,实力强到无法FU吸,速来围观!点击查看视频网络抖动案例是一类处理难度较大的问题,原因主要是很多抖动发生的频率不高,且持续时间非常短极限情况可能仅有100ms以下,而很多用户的业务应用对实时性要求非常高,因此对此类在百毫秒的延迟也会非常敏感。本文记录的是一次多团队协作处理的抖动问题的...

2019-04-24 11:43:36 139

原创 Kubernetes从懵圈到熟练:认证与调度

不知道大家有没有意识到一个现实,就是大部分时候,我们已经不像以前一样,通过命令行,或者可视窗口来使用一个系统了。现在我们上微博、或者网购,操作的其实不是眼前这台设备,而是一个又一个集群。通常,这样的集群拥有成百上千个节点,每个节点是一台物理机或虚拟机。集群一般远离用户,坐落在数据中心。为了让这些节点互相协作,对外提供一致且高效的服务,集群需要操作系统。Kubernetes就是这样的操作系统。...

2019-04-23 17:41:37 125

原创 Kubernetes从懵圈到熟练:读懂这一篇,集群节点不下线

排查完全陌生的问题,完全不熟悉的系统组件,是售后工程师的一大工作乐趣,当然也是挑战。今天借这篇文章,跟大家分析一例这样的问题。排查过程中,需要理解一些自己完全陌生的组件,比如systemd和dbus。但是排查问题的思路和方法基本上还是可以复用了,希望对大家有所帮助。问题一直在发生I’m NotReady阿里云有自己的Kubernetes容器集群产品。随着Kubernetes集群出货量的剧增,...

2019-04-22 16:15:14 136

原创 从虚拟化前端Bug学习分析Kernel Dump

前言也许大家都知道,分析 Kernel Dump 有个常用的工具叫 Crash,在我刚开始学习分析 Kernel Dump 的时候,总是花大量的时间折腾这个工具的用法,却总是记不住这个工具的功能。后来有一次在参加某次内部分享的时候,有位大佬说了一句话让我印象非常深刻:这些工具怎么用的大家不用记,等到真正开始用的时候你就会猜到这个工具有什么功能。这篇文章我想通过分析一个实际的案例,尽量把学习Ke...

2019-04-19 15:25:45 295

原创 【云吞铺子】性能抖动剖析(一)

《云吞铺子-故障排查案例精选》重磅上线!首期我们将聚焦系统类常见问题——性能抖动,阿里云高级技术专家江冉将分享多年故障排查心得体会与经典案例实战经验。完成学习,你就是明日技术大牛!点击查看视频网络抖动案例是一类处理难度较大的问题,原因主要是很多抖动发生的频率不高,且持续时间非常短极限情况可能仅有100ms以下,而很多用户的业务应用对实时性要求非常高,因此对此类在百毫秒的延迟也会非常敏感。本期云...

2019-04-18 10:41:10 218

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除