自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

果汁华的博客

我为了1%的细节通宵达旦。

  • 博客(200)
  • 收藏
  • 关注

转载 《听后感-罗振宇2023“时间的朋友”跨年演讲》

接着往下聊。今年得到做了许多场直播,有一个体感:只要一提到“35岁危机”“改行”“裁员”这几个关键词,大家的反应就很强烈。不管是主动还是被动,许多人在今年都想“动一动”,至少换一条赛道试试。看来,大家都想明白了:没有哪条道能一直走到黑了。你要是对这个话题感兴趣,我们来接着讲故事。今晚我想讲的第五个故事,是一个孩子不听劝的故事。她叫袁媛,是一位科班出身的建筑设计师,在国内首屈一指的房地产企业万科干了4年的项目管理。但在2019年,袁媛做了一个非常任性的决定,从万科辞职,改行去搞婚礼策划。

2023-01-19 23:50:12 3532

转载 Flink 架构——状态管理

flink状态管理

2022-07-25 20:14:37 287

原创 Google 引爆大数据时代的三篇论文-《GFS》、《BigTable》、《MapReduce》

大数据起源于-谷歌,于2003年起发布一系列论文(大数据三驾马车):1. 《The Google File System 》2. 《MapReduce: Simplified Data Processing onLarge Clusters》3.《Bigtable: A Distributed Storage System for Structured Data》1 、GFSGFS 是一个大型的分布式文件系统,为 Google 大数据处理系统提供海量存储,并且与 Ma...

2022-02-08 00:20:40 6080

原创 有效激励--

一、五招激励士气低落的员工员工为什么完成不了任务?员工不知道如何去做 -- 提供相应的培训,提高他们的技能; 某事或某人使他们无法工作 -- 弄清楚纠结是什么妨碍了员工的工作,帮助他扫除障碍; 员工不愿工作或不愿按照要求工作 -- 找到他们士气低落的原因,采取相应的措施激励员工;士气低落的具体表现:1、不再按时出勤,来点越来越晚,走的越来越早;2、抱怨甚至蔑视公司的一些规章制度;3、找各种理由不参加会议;4、工作变得拖沓,工作效率下降;5、经常表现出厌烦和消极态..

2022-02-07 19:21:13 1339

原创 敏捷领导力 - 修自己(练内功)

一、气场1、气场塑造方法论 -- 肢体语言高能姿势低能姿势:做两分钟高能姿势,提高自信。(不断练习)2、衣着设定3、公众表达(将故事能力)3层黄金圈法则。先想好为什要这么做,再想怎么做,最后讲什么。第一层:为什么要讲举例说明:身体姿势要展开 、不断用手势强化重点、声音语调要慢。有一个小技巧:话讲到一半,停顿一下,然后再讲。比如:开场的时候就停顿一下再开始。或者抛出一个问题,再停顿一下。再举个例子,年初动员大会...

2022-02-06 23:58:24 663

原创 Kubernetes -- 日志处理

首先需要明确的是,Kubernetes 里面对容器日志的处理方式,都叫作 cluster-level-logging,即:这个日志处理系统,与容器、Pod 以及 Node 的生命周期都是完全无关的。这种设计当然是为了保证,无论是容器挂了、Pod 被删除,甚至节点宕机的时候,应用的日志依然可以被正常获取到。而对于一个容器来说,当应用把日志输出到 stdout 和 stderr 之后,容器项目在默认情况下就会把这些日志输出到宿主机上的一个 JSON 文件里。这样,你通过 kubectl logs 命..

2022-02-04 23:35:06 3106

原创 Kubernetes-- 资源管理

在 Kubernetes 里,Pod 是最小的原子调度单位。这也就意味着,所有跟调度和资源管理相关的属性都应该是属于 Pod 对象的字段。而这其中最重要的部分,就是 Pod 的 CPU 和内存配置,如下所示:apiVersion: v1kind: Podmetadata: name: frontendspec: containers: - name: db image: mysql env: - name: MYSQL_ROOT_PASSWORD

2022-02-04 20:10:27 1184

原创 Kubernetes 容器网络

Linux 容器能看见的“网络栈”,实际上是被隔离在它自己的 Network Namespace 当中的。而所谓“网络栈”,就包括了:网卡(Network Interface)、回环设备(Loopback Device)、路由表(Routing Table)和 iptables 规则。对于一个进程来说,这些要素,其实就构成了它发起和响应网络请求的基本环境。需要指出的是,作为一个容器,它可以声明直接使用宿主机的网络栈(–net=host),即:不开启 Network Namespace,比..

2022-02-04 19:32:08 1085

原创 周报1-16

一、月度重点工作1、实时ID-Mapping版上线2、引入云客微服务框架stark,上线第一个微服务应用3、引入微前端框架,上线父应用和第一个子应用(bigdata-web)二、本周回顾1. 「集团SaaS版」工作进展CDP组织权限管理,支持cdp取数接口按组织进行数据权限过滤: 已提测2.「数芯平台」工作进展i)ID-Mapping(实时版)规则配置; -- 已提测 OneID_Gateway网关服务; -- 已提测 OneID_Generate服务(使用f...

2022-01-16 19:24:44 1182

转载 Kafka 3.0 需要关注哪些?

Apache Kafka 3.0 是一个大版本,其引入了各种新功能、API 发生重大变化以及对 KRaft 的改进—— Apache Kafka 的内置共识机制将取代 Apache ZooKeeper™。虽然 KRaft 还不推荐在生产中使用,但我们对 KRaft 元数据和 API 进行了许多改进。支持 Exactly-once 和分区重分配值得强调。我们推荐您查看 KRaft 的新功能并在开发环境中试用它。从 Apache Kafka 3...

2022-01-11 22:32:13 170

原创 Kafka -- 关于高水位和Leader Epoch的讨论

什么是高水位?在 Kafka 的世界中,水位的概念有一点不同。Kafka 的水位不是时间戳,更与时间无关。它是和位置信息绑定的,具体来说,它是用消息位移来表征的。用来区分已消费和未消费数据。 (Kafka 中也有低水位(Low Watermark),它是与 Kafka 删除消息相关联的概念)高水位的作用在 Kafka 中,高水位的作用主要有 2 个。1、定义消息可见性,即用来标识分区下的哪些消息是可以被消费者消费的。2、帮助 Kafka 完成副本同...

2022-01-11 19:49:36 1573

原创 Kafka -- 消费组到底是什么?

消费者组,即 Consumer Group,用一句话概括就是:Consumer Group 是 Kafka 提供的可扩展且具有容错性的消费者机制。既然是一个组,那么组内必然可以有多个消费者或消费者实例(Consumer Instance),它们共享一个公共的 ID,这个 ID 被称为 Group ID。组内的所有消费者协调在一起来消费订阅主题(Subscribed Topics)的所有分区(Partition)。当然,每个分区只能由同一个消费者组内的一个 Consumer 实例来消费。个人认为,理解 C..

2022-01-11 17:06:19 1758

原创 Kafka学习 -- 基础术语篇

一、为什么要用Kafka ?首先,Kafka 是什么呢?用一句话概括一下:Apache Kafka 是一款开源的消息引擎系统。根据维基百科的定义,消息引擎系统是一组规范。企业利用这组规范在不同系统之间传递语义准确的消息,实现松耦合的异步式数据传递。简单的说:系统 A 发送消息给消息引擎系统,系统 B 从消息引擎系统中读取 A 发送的消息。最基础的消息引擎就是做这点事的!不论是上面哪个版本,它们都提到了两个重要的事实:消息引擎传输的对象是消息...

2022-01-11 16:51:51 169

原创 业界成熟的内核架构长什么样?

Linux 的基本思想是一切都是文件:每个文件都有确定的用途,包括用户数据、命令、配置参数、硬件设备等对于操作系统内核而言,都被视为各种类型的文件。Linux 支持多用户,各个用户对于自己的文件有自己特殊的权利,保证了各用户之间互不影响。多任务则是现代操作系统最重要的一个特点,Linux 可以使多个程序同时并独立地运行。上图中大致分为五大重要组件,每个组件又分成许多模块从上到下贯穿各个层次,每个模块中有重要的函数和数据结构。具体每个模块的主要功能,我都给你列在了文稿里,你可以详细看看后面这张

2022-01-11 16:14:22 872

原创 标签数据开发

一、统计类标签开发1、近30日购买行为标签案例2、最新来访标签案例二、规则类标签1、用户价值类案例重要价值、重要保持、一般价值、一般发展2、用户活跃度标签案例高活跃、中活跃、低活跃、流失等标签。三、挖掘类标签1、案例背景文章类别划分2、特征选取及开发标注:人工对一批文档进行精准分类,作为训练集样本;训练:计算机从标注好的文档集中挖掘出能够有效分类的规则,生成分类器;分类:将生成的分类器应用在待分类的文档集中,从而获得文档的分类结果3、文..

2021-12-18 19:37:23 1646

原创 用户画像应用

一、经营分析1、商品分析分析购买爆品的用户在其他维度的特性(例如:年龄、性别、地域等等),以便进行精准营销,可以使用透视分析功能,来分析该用户群在各个维度的特征。2、用户分析 借助用户画像可以了解平台用户的性别、年龄、职业等各维度特征的用户量分布特征。3、渠道分析 根据增长黑客理论(AAARR)模型,将产品的营收路径分为激活 - 》 注册- 》留存-》下单-》传播。 在画像应用中,可以分析目标人群的渠道来源,使得渠道投...

2021-12-18 00:20:51 331

原创 面向业务的数据资产建设方法论:标签类目体系

摘要:标签类目体系方法论是一种将数据资产按照树形结构组织的方法,根目录为对象,枝干分支为类目,叶/花末端为标签。资产结果分为资产清单和资产实体两大部分,他们可以通过服务管理工具快速配置成可供业务使用的数据服务结果,以实现数据资产价值。一、基础结构1、根目录2、枝干分支3、叶、花末端二、连接赋能标签类目体系是基于“对象”的标签分类刻画,“对象”是类目体系的奇点。1、实体树之间通过关系树关联2、关系树是一种能量赋能3、业务使用是养分供给三、生长优化1、完整规划,由

2021-12-17 23:58:42 370

原创 互联网黑化

一、灵魂拷问1、你发的这个底层逻辑是什么?2、顶层设计在哪里?3、最终交付的价值是什么?3、过程中的抓手在哪里?5、如何保证结果的闭环?6、你比别人发的亮点在哪?7、我没有看到你的沉淀和思考?8、你有形成你自己的方法论吗?二、换一种说法,让别人听不懂1、“在网上卖”,看起来不够专业,你要说「抓住流量风口,布局线上新零售」。2、“到处投广告”,你要说「全链路深度营销,矩阵式打法」。再例如,北京后厂村的两位程序员在坐地铁时的对话:「好惨,我今天早上挤地..

2021-12-17 23:38:24 1407

转载 ClickHouse场景和未来的一些发展方向

ClickHouse场景和未来的一些发展方向

2021-12-12 19:06:07 1017

原创 面向业务的数据资产建设方法论:标签类目体系

摘要:标签类目体系方法论是一种将数据资产按照树状结构组织的方法, 根目录为对象, 枝干分支为类目, 叶/花末端为标签。资产结果分为资产清单和资产实体两 大部分, 它们可以通过服务管理工具快速配置成可供业务使用的数据服务结果, 以实现数据资产价值。引言:在数据中台概念中, 数据资产位于核心位置。广义上, 企业拥有所有权的数据资源都是其数据资产。但是这个广义定义过于宽泛,因此需要更多关注其精准定义——企业所拥有的能够带来经济价值的数据资源. 数据 资产一般都有较好的组织形式来保障完成“看-选-用-治..

2021-10-15 23:32:48 1724

原创 打造员工能力(组织能力杨三角系列三)

一、找对人:制胜团队的必要条件美国NBA赛事是篮球迷们绝不会错过的比赛,各支球队都有自己的明星球员,但是如果一支球队清一 色都由最佳球星组成梦幻队的话,这支球队是否一定能赢得冠军? 答案是未必。球队的实力不仅来自于球员 高超的个人能力,很大程度上还要依靠大家能力的互补和默契配合,例如,有的善于投篮得分,有的善于 抢篮板,有的善于防守。球队的胜利靠的是整个团队的战斗力。要在中国市场乃至全球市场制胜,企业需要打造如低成本、质量、速度、服务、创新或定制化等方面 的组织...

2021-10-05 14:06:53 1466

原创 组织能力的内涵和建设(组织能力杨三角系列二)

一、何为组织能力在第一章中,我们提到中国有很多“烟花企业”,它们能在短期内凭借创始人的敏锐直觉和运筹帷幄的 能力抓住商机、调动资源迅速崛起,但是这些企业却难以持续成功,它们缺乏的不是别的,正是扎实的组 织能力。组织能力(organizational capability)指的不是个人能力,而是一个团队(不管是10人、100人或 是100万人)所发挥的整体战斗力,是一个团队(或组织)竞争力的DNA,是一个团队在某些方面能够明 显超越竞争对手、为客户创造价值的能力。真正的组织能力具...

2021-10-05 13:38:00 726

原创 组织能力:企业成败的关键(组织能力杨三角系列一)

一、天时地利下的中国企业崛起改革开放30多年来,中国GDP保持年均近10%的高速增长。从2005年中国经济规模超过意大利,成为 世界第六大经济体,到2010年中国GDP超越日本,成为仅次于美国的“世界第二”,再到2014年,中国的经 济规模已经接近日本的两倍,让全球见证了中国日益强大的经济实力。中国已经成为名副其实的“制造大 国”,220多种工业产品产量位居世界第一,制造业净出口居世界第一位,制造业增加值在世界占比达到五 分之一多。改革开放的天时近3...

2021-10-05 13:22:58 2326

原创 数据指标管理

什么是指标?指标是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。数据指标构成如下:数据指标体系是对业务指标体系的汇总,用来明确指标的口径、维度、指标的取数逻辑等信息。它的价值体现在:全面支撑决策 指导业务运营 驱动用户增长 统一统计口径数据指标的主要类型:因此在数据指标管理系统中新建的指标就是如图的三类,其中派⽣指标⾮常常⻅,派⽣指标= 时间周期+统计粒度+修饰词+原⼦指标。对数据指标有⼀个基本概念了解和分类情况后,我们看下如何设计..

2021-07-16 23:52:24 2228

原创 客户数据平台(CDP)是什么?

Customer Data Platform (CDP)。 所有人都想从最基本的开始做起,了解客户是谁。这似乎很简单, 但客户与业务互动渠道的激增使得这个简单的目标变得极其复杂。 每个业务部门依赖的是客户数据的不同方面,他们都有自己的运用场景。 销售部门依赖于CRM、售后部门主要看客服系统、市场营销部门关心微信平台、数据分析团队使用各类数据分析工具。 这些工具各自产生新的、孤立的、片面的客户数据, 却无法快速同步, 甚至团队之间还怀疑对方数据是否正确。...

2021-07-16 23:03:56 7517 1

转载 HDFS的写入流程及副本复制策略

步骤补充 1.向namenode发送请求上传文件 然后在namenode里会进行检查是否存在该文件,权限问题 通过则给一个输出流对象 2.建立好pipeline管道后,客户端先把文件写入缓存中,达到一个块的大小时,会与第一个datanode建立连接开始流式的传输数据,这个datanode会一小部分一小部分的(4k)接受数据然后写入本地仓库,同时把这些数据传输到第二个datanode上;第二个datanode同样完成上面的操作,再传到第三个datanode ; 3. 整个上传完成...

2021-07-08 15:28:15 950

原创 创新模式 ---三级火箭:深度讲解互联网降维打击

先来讲讲360的三级火箭。360的第一级火箭是免费杀毒工具,利用这级火箭打破了持续10年的杀毒软件市场三国鼎立的局面,成为用户量最大的安全工具。360的第二级火箭是从免费杀毒工具变成为安全网络平台。进而推出360安全浏览器和360安全网址导航。360的第三级火箭就是它最终承载的商业闭环,从安全浏览器和网址导航的广告收入,获得企业的经营利润。互联网商业就是产品、流量、转化率三个词。搜狗的三级火箭第一级火箭:头部流量。今天搜狗在移动搜索方面80%-90%的流量来自腾讯,其中...

2021-07-03 23:42:14 1873

原创 用户体验--怎样绘制用户体验的地图

这一节讲用户体验地图和用户故事。什么是用户体验地图?用户体验地图就是通过画一幅画,用一种讲故事的方式,从一个特定的用户的角度出发,记录下他与产品或者服务进行接触、进入、互动的完整过程。怎样画用户体验地图?1、一个画像完整的人物角色:需要对”第一只羊“有完整地了解;2、清晰描述用户的目标和预期:他为什么来到你的草地上?他要什么?搞清楚用户的目标和预期到底是什么。3、服务触点:用户从接触你的服务,到实现他的目标之间,会跟你在产品上有哪些接触,你需要在这些地方服务用户。4、用户

2021-07-03 00:55:40 1420 1

原创 产品思维 -- 用户体验

一、用户体验的五个层次 推荐一本书《用户体验要素》,这本书提到”用户体验的要素,来自5个层次的层层选择与叠加建设“,这5层分别是:感知层 角色框架层 资源结构层 能力圈范围层 战略存在层 最核心的战略存在层最核心的战略存在层,就是着手做任何一个产品前,必须明确地定义这两个问题,你需要把它们贴在墙上,保证项目组的每个人都清楚,都认同:1、我们要通过这个产品得到什么?2、我们的用户要通过这个产品得到什么,它们为什么会依赖我们?你...

2021-07-03 00:24:33 308 1

原创 产品思维30讲(梁宁)-- 整体

最近在学习梁宁的产品思维,做一个笔记,写一些自己的心得。首先来整体看下,主要内容分为6个部分,有同理心、机会判断、系统能力、用户体验、创新模式和产品价值观。整理了下思维导图,接下来,我会对每部分单独写一篇文章进行分享。...

2021-07-02 23:31:53 2380

原创 kudu从0到1

背景:在KUDU之前,大数据主要以两种方式存储: 静态数据:以HDFS引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。 动态数据:以HBase、Cassandra作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是批量读取吞吐量远不如HDFS,不适用于批量数据分析的场景。 从上面分析可知,这两种数据再存储方式上完全不同,进而导致使用场景完全不同,但在真实场景中,边界可能没有那么清晰,面对既需要随机读写、又需要批量分析的大数据...

2021-06-13 23:23:57 1104 2

原创 网络、端口连通性检查(telnet、nc和tcpdump)

最近有一个需求打通两个集群的网络,使用telnet、nc和tcpdump测试端口的联通性。1)telnet大家最cahng

2021-06-02 16:11:52 1221

原创 DataGrip 连接 presto数据库

最近项目中有用到presto数据库了,为了方便的操作presto,想要通过安装插件的方式用DataGrip连接presto(毕竟DataGrip这位老朋友用起来是如此顺手)。1、下载presto jcdc连接jar包(https://prestodb.io/download.html)2、打开老朋友(DataGrip),添加自定义的 Driver选择刚才下载的JAR文件:选择你的Class、定义你的source名称:添加好了之后,我们就可以添加datasou...

2021-05-30 08:55:57 874

原创 记一次datax hdfswriter的踩坑记(上传文件到hdfs的坑)

写这个文档的初衷是方便后人在使用datax同步hdfs的时候及时脱坑,毕竟本人花了不少时间一步一步才排查出来的,在google、github、stackoverflow目前没有完整排坑文档(大部分只是到设置dfs.client.use.datanode.hostname这一步)。 背景是需要把数据从mysql同步到hdfs中,采用的工具是datax。1、拿到myql和hdfs的连接信息,写好job config文件,运行datax。直接报错:Caused by: org....

2021-05-30 08:30:12 3541

原创 《联盟: 互联网时代的人才变革》读后感

首先,终身雇佣制的关系的时代渐渐远去,我们逐渐进入自由雇佣制时代。自由雇佣制里:雇主犹豫于要不要对员工开展培训,而员工则纠结于要不要跳槽;雇主不断失去有价值的人才,而员工则无法全身心地投入所负责的工作。这种状态损害了公司、员工双方的利益。这本书的解决方案可以总结为:任期制+人脉情报+终身联盟。任期制分三种:轮转期:轮转期不是根据员工个人情况定制的,而且往往是高度可换的——将一名员工换入或换出预先设定的岗位很容易。入门级员工,帮助新员工从校园过渡到职场。转变期:与轮转期不同,转变期是个性化的。

2021-05-23 20:12:28 383 1

原创 架构五视图及对应的画图方式

一、逻辑架构:面向架构师、技术Leader、业务人员讲解,重点突出技术如何组合实现业务蓝图1、逻辑分层与业务蓝图保持一致2、构图元素:UI/访问层、业务逻辑层、通用技术层、数据存储层;调用、数据关系3、构图逻辑:上下支撑关系、左右组合关系;常用布局以上入口、下连接、左公共、右开放为最佳实践4、构图工具:drawio-General/drawio-Arrows二、运行架构:面向开发人员实际梳理流程讲解,重点突出业务流程下技术如何跑通1、主流程与特定场景的业务流程图保持一致2、构图元

2021-05-05 18:14:04 1364

原创 高效能人士的七个习惯(公众领域的成功:从独立到互赖)

习惯四:双赢思维---人际领导的的原则 做到双赢需要做到以下四个步骤: 1)从对方角度看待问题; 2)认清主要问题和顾虑(而非立场); 3)确定大家都能接受的结果; 4)实现这种结果的各种可能路径; 习惯五: 知彼解己---移情沟通的原则 知彼解己, 首先需要寻求去了解对方,然后再争取对方了解自己。这章大部分内容是让我们学会倾听,因为在你能够感同身受之前,人们一般不会主动向你...

2021-05-05 18:06:23 735

原创 高效能人士的七个习惯

七个习惯的简要定义和架构图习惯一:积极主动积极主动即采取,为自己的过去、现在以及未来的行为负责,并根据原则和价值观,而并非情绪或外在环境来下决定。习惯二: 以终为始所有的事情都要经过两次的创造, 先在脑海里酝酿,其次才是实质的创造。个人、家庭、组织在做任何计划时,均先拟出愿景和目标,并据此塑造未来,全心投注于自己最重视的原则、价值观和目标之上。领导工作的核心,就是在共有的使命、愿景和价值观之后,创造出一个文化。习惯三:要事第一要事第一即实质的创造,是梦想(你的目标、愿景价值观以及要事

2021-04-24 13:16:23 290

原创 大数据名词及基本原理

介绍maxcompute、hadoop、hive、hbase、spark、flink、adb、clickhouse、presto、hawq、greenplum、dremio、kudu、kafka等大数据领域相关技术、工具。一、MaxCompute:MaxCompute以表的形式存储数据,支持多种数据类型版本说明(1.0, 2.0, Hive),并对外提供SQL查询功能。您可以将MaxCompute作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。二、hadoopHad.

2021-04-23 20:24:54 1276

原创 联盟----互联网时代的人才变革

第一章 互联网时代的雇佣关系---通过联盟重建信任与忠诚1.联盟2.我们是一个团队,而不是一个家庭3.从开创型人才中获取价值4.改造团队第二章 任期制 --- 设计渐进性承诺1.通过诚实对话建立信任2.三类任期3.任期的组合4.任期的广泛适用性5.与员工建立长期关系6.付诸实践:领英如何利用任期制第三章 任期中的协调----协调员工与公司的目标和价值观1.不同任期的协调2.付诸实践:领英如何进行协调3.进行对话:给管理者的建议第四章 ...

2021-04-18 23:03:15 142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除