Frank201608-CSDN博客

原创 Spark算子系列第0篇：spark常用算子详解

一、Spark算子分类：Transformation 算子Transformation是变换/转换算子，具有lazy特性，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。常用操作有：map，filter，flatMap，union，sortByKey，reduceByKey等，官方文档如下：http://spar...

2020-02-08 16:00:00 493

原创 Spark算子系列第1篇： reduceByKey 和 groupByKey

第一步：创建RDDval words = Array("one", "two", "two", "three", "three", "three")val wordsRDD = sc.parallelize(words).map(word => (word, 1))wordsRDD.foreach(println)RDD运行结果如下：/*(one,1)(two,1)...

2020-02-08 11:24:34 557

翻译架构学习笔记：淘宝的 14 次架构演进之路

概述介绍淘宝从一百个并发到千万级并发情况下服务端的架构的演进过程，同时列举出每个演进阶段会遇到的相关技术，最后汇总了一些架构设计的原则。下面对几个最基础的概念进行介绍：分布式系统中的多个模块在不同服务器上部署，即可称为分布式系统，如Tomcat和数据库分别部署在不同的服务器上，或两个相同功能的Tomcat分别部署在不同服务器上高可用系统中部分节点失效时，其他...

2019-06-15 10:54:41 2583 1

原创 lookalike人群扩散算法

Facebook 这样通过一群已有的用户发现并扩展出其他用户的推荐算法就叫Lookalike。1.利用用户画像，给用户打标签，利用相同标签找到目标人群实例：某品牌的豆浆机进行Look-alike人群扩展投放取得家电厂商的第一方消费者数据，涵盖浏览、购买行为等ID信息。通过导入DMP进行全库记录匹配，找到个体的在线历史大数据。经由人群分析模型，洞察用户的个性倾向特征，通过标签算法挖掘，将数据...

2019-06-10 14:08:54 5783

转载关于技术规划、管理、架构的思考

一、关于技术规划三板斧技术规划规划分为三个部分的内容：第一部分：全局分析，这需要溯源历史，思考未来，要对未来有一定的预判。能够基于数据，基于专业，基于客户价值，同时结合公司的战略情况和组织的现状做分析。第二部分：定目标。这一部分非常关键，定义好目标以及非目标，哪些事情是不要做的也要讲明白，并且确认目标的实现路径，做好拆解。最后一部分：以终为始，从最终结果的角度，来溯源开始。从技术支...

2019-06-09 11:40:17 1674

原创初识Kubernetes

什么是 Kubernetes概述Kubernetes，简写成 K8s。K8s 是底层资源与容器间的一个抽象层，算作是一个分布式时代的 Linux。K8s 是 Google 开源的容器集群管理系统。在 Docker 技术的基础上，为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列完整功能，提高了大规模容器集群管理的便捷性。K8s 是一个完备的分布式系统支撑平台，具有...

2019-06-01 13:08:23 513

原创 Docker 学习笔记：第2节 Docker使用入门

运行一个新的容器：docker run -ti --name second ubuntu:16.04 bash命令解释：Docker run 是从一个镜像运行一个容器的指令。 -ti 参数的含义是：terminal interactive，这个参数可以让我们进入容器的交互式终端。 --name 指定容器的名字，后面的 first 就是我们给这个容器起的名字。 ubuntu:...

2019-05-04 12:11:18 212

原创 Docker 学习笔记：第1节初遇 Docker

----摘录《Docker 极简入门指南》本节要点：Docker 是什么？ Docker 重要概念 Docker 镜像（Image） Docker 容器（Container） Docker 仓库（Registry）为什么使用 Docker？Docker 是什么？Docker 可以把 Linux 系统像集装箱一样封装起来运行，就好像虚拟机一样，并且额外开销很低，一台笔记本几...

2019-04-28 21:06:32 134

原创 Spark:WordCount 步骤

scala> val data = sc.textFile("/library/wordcount/input/Data")//data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[9] at textFile as <console>:27scala> val flatted = data.flatM...

2019-04-21 21:03:45 180

翻译第05课：机器是如何学习的？

本文转载：《21 天入门机器学习》，以李烨老师的图文课《机器学习极简入门课》为学习素材，通过 21 天的社群学习模式带领大家入门机器学习。什么是机器学习？就是让机器自己学会某种东西，通过自身运行，学习事物的规律。人类对事物的认知，都不是孤立的，互相之间有着各种各样的关联。当我们说“苹果”的时候，可能马上就会想到那个圆圆的水果。也许还会想到香蕉等其他水果；或是想到咬了苹果一口的白...

2019-03-07 23:36:50 223

原创 hdfs命令列表

root@master:~# hadoop dfs -ls /user/rootDEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.Found 1 itemsdrwxr-xr-x - root supergroup

2016-11-20 19:39:03 542

原创大数据系统的Lambda架构

本文是对大数据系统的Lambda架构的理解

2016-11-11 15:27:22 1151

原创 Spark SQL与Hive的关系

Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业（辅以内存列式存储等各种和Hive关系不大的优化）；同时还依赖Hive Metastore和Hive SerDe（用于兼容现有的各种Hive存储格式）。这一策略导致了两个问题，第一是执行计划优化完全依赖于Hive，不方便

2016-11-05 20:45:39 3567

原创 Tachyon：Spark生态系统中的分布式内存文件系统

摘要：Tachyon把内存存储的功能从Spark中分离出来，使Spark可以更专注计算的本身，以求通过更细的分工达到更高的执行效率。Tachyon简介Tachyon是个分布式的内存文件系统，它在减轻Spark内存压力的同时，也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来，使Spark可以更专注计算的本身，以求通过更细的分工达到更高的执行

2016-11-04 15:55:42 664

原创 dubbo记录

**dubbo** 阿里开源的分布式服务架构以及流动计算架构。架构的演进过程： 1）单一应用架构当网站流量很小时，只需一个应用，将所有功能都部署在一起，数据访问框架(ORM) 是关键。 2）垂直应用架构将应用拆成互不相干的几个应用。此时，用于加速前端页面开发的 Web框架(MVC) 是关键。 3）分布式服务架构当垂直应用越来越多，应用之间交互不可避免，将核

2016-11-04 15:43:10 390

原创第58课：广告点击广告累计点击数分析与实现

第58课：广告点击广告累计点击数分析与实现

2016-10-12 10:36:14 1113

原创第55课：在线广告点击流处理代码的分析和实现

第55课：在线广告点击流处理代码的分析和实现

2016-09-28 15:53:33 750 1

原创第54课：作业讲解与广告点击实现代码

第54课：作业讲解与广告点击实现代码

2016-09-28 13:48:54 506

原创第53课： Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战

第53课： Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战

2016-09-28 09:40:44 695

原创第52课： Spark大型项目广告点击项目数据建模

Spark大型项目广告点击项目数据建模

2016-09-23 08:42:19 969

原创第51课： Spark大型项目下的Spark Streaming本质剖析

第51课： Spark大型项目下的Spark Streaming本质剖析（全面涵盖Spark 2.0的精髓）

2016-09-21 20:54:59 1117

原创第50课：Spark 2.0项目概述

第50课程 Spark 2.0项目概述

2016-09-21 19:56:05 665

原创第48课: Spark 2.0内幕深度解密和学习最佳实践

第48课: Spark 2.0内幕深度解密和学习最佳实践

2016-09-18 20:31:22 1071

原创第37课：Spark中Shuffle详解及作业

第37课：Spark中Shuffle详解及作业

2016-09-14 19:26:13 12881 3

原创第36课：Spark中Job执行过程详解

第36课：Spark中Job执行过程详解

2016-09-14 13:50:39 3998

原创第35课Spark Master、Worker、Driver、Executor工作流程详解

第35课Spark Master、Worker、Driver、Executor工作流程详解

2016-09-12 23:10:56 23281 2

原创第34课：在IDEA中开发Spark实战

第34课：在IDEA中开发Spark实战

2016-09-12 11:18:47 960

原创第33课：Spark架构剖析零基础初探

理解Spark架构，至关重要，下面分布讲解Spark实现架构。 1. Spark部署图：解释： 1）Driver Program 如果用做公司做项目来打比喻整个Spark集群，那么Driver就相当于PM，负责给Engineer（Executor）分配任务，由每个Engineer来并行完成部分工作。由PM来管理协调整个项目，包括容错。2）Cluster Manager 负责管理和分配

2016-09-11 17:42:53 908

原创大数据Spark“蘑菇云”行动-第14课Scala集合上的函数式编程实战及Spark源码鉴赏

大数据Spark“蘑菇云”行动-第14课Scala集合上的函数式编程实战及Spark源码鉴赏

2016-08-31 08:38:59 1032

原创大数据Spark“蘑菇云”行动-第13课Scala模式匹配实战和Spark源码鉴赏

大数据Spark“蘑菇云”行动-第13课Scala模式匹配实战和Spark源码鉴赏

2016-08-29 17:57:30 1030

原创大数据Spark“蘑菇云”行动-第12课：Scala函数式编程进阶（匿名函数、高阶函数、函数类型推断、Currying）与Spark源码鉴赏

Scala函数式编程进阶：（匿名函数、高阶函数、函数类型推断、Currying）与Spark源码鉴赏

2016-08-29 14:07:29 1013

原创大数据Spark“蘑菇云”行动-第26课：Scala的核心力量和黄金定律

本课也是Scala高级进阶第一课

2016-08-17 20:26:00 741

原创大数据Spark“蘑菇云”行动-第11课：Scala面向接口彻底实战和Spark源码鉴赏

Scala中的接口，

2016-08-17 08:41:24 938

原创大数据Spark“蘑菇云”行动-第10课：Scala继承彻底实战和Spark源码鉴赏

大数据Spark“蘑菇云”行动-第10课：Scala继承彻底实战和Spark源码鉴赏

2016-08-16 23:25:46 1000

原创 Spark源码定制第一课：通过案例对SparkStreaming透彻理解三板斧之一

第一课：通过案例对SparkStreaming透彻理解三板斧之一：解密SparkStreaming另类实验及SparkStreaming本质解析本期导读： 1 Spark源码定制选择从SparkStreaming入手；2 Spark Streaming另类在线实验；3 瞬间理解SparkStreaming本质。 1. 从SparkStreaming入手开始S

2016-05-08 16:45:40 2182

原创 spark发行版笔记2

spark发行版笔记2感谢DT大数据梦工厂支持提供以下内容，DT大数据梦工厂专注于Spark发行版定制。详细信息请查看简介：王家林：DT大数据梦工厂创始人和首席专家. 联系邮箱[email protected] 电话：18610086859 QQ:1740415547 微信号：18610086859上节课我们采用了降维的方式查看了整个spark streami

2016-05-02 12:42:47 574

转载王家林亲授《DT大数据梦工厂》第84讲：Scala中List和ListBuffer设计实现思考

王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载！第84讲：Scala中List和ListBuffer设计实现思考百度云盘：http://pan.baidu.com/s/1c0FGBzq360云盘：http://yunpan.cn/cdRp6eTd95umJ 访问密码 45c3腾讯微云：http://url.cn/cF431X

2015-08-11 19:56:18 673

原创王家林亲授《DT大数据梦工厂》大数据实战视频 Scala 深入浅出实战经典 - 第71讲

王家林老师亲授《DT大数据梦工厂》大数据实战视频 Scala 深入浅出实战经典（1-71讲）完整视频、PPT、代码下载：百度云盘：http://pan.baidu.com/s/1c0noOt6 腾讯微云：http://url.cn/TnGbdC 360云盘：http://yunpan.cn/cQ4c2UALDjSKy 访问密码 45e2 技术爱好者尤其是大数据爱好者可以加DT大数

2015-07-28 20:39:19 967

转载第66讲：Scala并发编程实战初体验及其在Spark源码中的应用解

王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载！第66讲：Scala并发编程实战初体验及其在Spark源码中的应用解析百度云：http://pan.baidu.com/s/1pJ5jzHx腾讯微云：http://url.cn/aSawrm360云盘：http://yunpan.cn/cctL3QYACaVNa 访问密码 c0fb

2015-07-23 18:00:49 697

转载 Scala 深入浅出实战经典

Scala 深入浅出实战经典（1-64讲）完整视频、PPT、代码下载：百度云盘：http://pan.baidu.com/s/1c0noOt6 腾讯微云：http://url.cn/TnGbdC 360云盘：http://yunpan.cn/cQ4c2UALDjSKy 访问密码 45e2

2015-07-23 14:10:47 1208

数据治理及经验分享1.8-简化.pdf

Hadoop入门简介.pdf

空空如也