6 Zen of Data Analysis

尚未进行身份认证

我要认证

Discover yourself, 不念过往,不畏将来,发掘数据之美

等级
TA的排名 7w+

qq表情是否可以贴入博客

贴一个试试

2020-06-26 08:57:17

大数据分析平台的演进之路

1、石器时代大数据技术刚起步时平台架构很简单,数据流从日志通过RSYNC(linux系统下的数据镜像备份工具)流入到Hive,然后通过Hive SQL语句统计分析,结果导入到MySQL,最后形成报表展示。整个流程的驱动基于Shell脚本完成,报表系统和数据处理是利用Java实现。所有业务需求都是手工处理,所有报表都要写Java代码开发,这个给开发人员造成了很大的工作量,并且用户获取数据周期长,速度慢。2、铁器时代整合了所有数据、所有计算资源和服务框架,重新构建形成一个大数据平台框架。底层是大

2020-06-26 08:54:29

Spark Yarn Cluster模式运行流程

以wordCount功能实现为例:命令行:bin/spark-submit –class WordCount –master yarn –deploy-mode cluster ./WordCount.jar ./input ./outputSpark Yarn Cluster模式运行流程命令行-脚本执行- SparkSubmit- 内部调用Client类里面的main方法并执行...

2020-03-26 12:06:29

Spark Yarn Client模式运行流程

以wordCount程序为例:命令行内容:bin/spark-submit –class WordCount –master yarn –deploy-mode client ./WordCount.jar ./input ./output运行流程命令行-脚本执行- SparkSubmit- 调用main(即Driver)-执行代码-初始化SC-任务切分-申请启动Executor...

2020-03-26 11:48:00

Spark 内核

Spark内核Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等。Spark核心组件DriverSpark驱动器节点,用于执行Spark任务中的main方法:将用户程序转化为作业(job);在Executor之间调度任务(task);跟踪Executor的执行情况;通过UI展...

2020-03-26 10:51:42

scala的timeStamp格式转换

源码如下:import java.text.SimpleDateFormatimport java.util.Dateobject timeStamp { def main (args : Array[String]) : Unit = { val timeStamp = "1584864313644".toLong val day =new Date(timeStam...

2020-03-22 16:30:17

tensorflow神经网络练习

import tensorflow as tfimport numpy as np#定义隐藏层def add_layer(inputs,in_size,out_size,activation_function=None): #默认无activation_function,则为linear_function Weights = tf.Variable(tf.random_normal...

2020-02-01 11:50:08

tensorflow之palceholder

tensorflow的palceholder必须配合字典 `feed_dict`使用

2020-01-30 06:01:27

TensorFlow之variables

TensorFlow的变量处理

2020-01-29 18:44:52

Tensorflow之Session

Tensorflow有两种Session的运行方式,案例如下:import tensorflow as tfmatrix1 = tf.constant([[3,3]])matrix2 = tf.constant([[2], [2]])product = tf.matmul(matrix1,matrix2)#matrix multiply 类似n...

2020-01-29 17:43:43

Tensorflow梯度下降优化案例

安装tensorflow之后,先用命令查看一下相关版本及路径,然后再开始完成第一个梯度下降优化的小案例。

2020-01-29 16:45:37

Python-Numpy语法总结-数组的索引和切片

普通索引和切片像列表一样的索引和切片a=np.arange(15).reshape(3,5)aarray([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])a[1][1]6a[[1,2]] #列表是不允许这样切的array([[ 5, 6, 7, 8, ...

2019-12-07 21:55:35

Python-Numpy语法总结-数组的排序及重塑

一维数组排序np.random.seed(2)a=np.random.randn(5)print(a)np.argsort(a) #返回一个索引的排序(默认升序)[-0.41675785 -0.05626683 -2.1361961 1.64027081 -1.79343559]array([2, 4, 0, 1, 3], dtype=int64)print(a.argso...

2019-12-07 21:06:41

Python-Numpy语法总结-数组的创建

NumPy 是什么?NumPy是使用Python进行科学计算的基础软件包。除其他外,它包括:功能强大的N维数组对象。精密广播功能函数。集成 C/C+和Fortran 代码的工具。强大的线性代数、傅立叶变换和随机数功能。#全部行都能输出from IPython.core.interactiveshell import InteractiveShellInteractiveShell....

2019-12-06 11:35:31

机器学习-推荐系统之基于物品的协同过滤

推荐系统可以把那些最终会在用户( 推荐系统可以把那些最终会在用户( 推荐系统可以把那些最终会在用户( 推荐系统可以把那些最终会在用户( 推荐系统可以把那些最终会在用户( 推荐系统可以把那些最终会在用户( User )和物品( )和物品( Item Item )之间产生的 )之间产生的 连接 提前找出来。 提前找出来。 提...

2019-11-23 16:24:45

机器学习-推荐系统之基于用户的协同过滤

人以群分 – 基于用户的协同过滤(User Collaborative Filtering,简称User CF)生活中可能有这样的朋友:他喜欢的书、电影,你也喜欢;他喜欢的衣服款式、美食餐厅你也十分推崇;……基本原理:通过用户对不同内容(物品)的行为,来评测用户之间的相似性,找到“邻居”基于这种相似性做出推荐:这种推荐的本质是,给相似的用户推荐其他用户喜欢的内容;这就是我们经常看...

2019-11-23 08:28:50

Sklearn中的深度学习基础算法-神经网络MLP

sklearn是专注于机器学习的库,它在神经网络的模块中特地标注:sklearn不是用于深度学习的平台,因此这个神经网络不具备做深度学习的功能,也不具备处理大型数据的能力,所以神经网络在sklearn中颇有被冷落的意思。原理讲解也非常简单,并没有详细的描述。但是使用神经网络的类还是有很多参数,写法详细。以多层感知机为基础的类:MLPClassifier-神经网络分类器class sklear...

2019-11-22 12:19:50

深度学习基础算法-神经网络

2层神经网络的实现使用Numpy矩阵来实现神经网络。我们先使用最简单的网络去实现,这个神经网络去掉了偏置和激活函数,只有权重。这里我们假设每条线上对应的权重就是各自的数字,那么如果用函数来表示的话,应该是可以看到,这样的表示方法非常的复杂,不方便,因此我们把神经网络的表示方法,改变成矩阵的乘法形式:实现该神经网络时,要注意X ,W ,Y 的形状,特别是X和W的对应维度的元素个数是否一致...

2019-11-22 12:02:29

深度学习基础算法-神经网络之激活函数

神经网络算法神经网络算法试图模拟生物神经系统的学习过程,以此实现强大的预测性能。不过由于是模仿人类大脑,所以神经网络的模型复杂度很高也是众所周知。在现实应用中,神经网络可以说是解释性最差的模型之一,商业环境中很少使用神经网络。然而除了商业分析,还有许多算法应用的部分,其中最重要的是深度学习和人工智能的领域,现在大部分已经成熟的人工智能技术:图像识别,语音识别等等,背后都是基于神经网络的深度学习算...

2019-11-22 11:03:00

机器学习-二分类SVC中的样本不均衡问题:重要参数class_weight

样本不均衡问题对于分类问题,永远都逃不过的一个痛点就是样本不均衡问题。样本不均衡是指在一组数据集中,标签的一类天生占有很大的比例,但我们有着捕捉出某种特定的分类的需求的状况。比如,我们现在要对潜在犯罪者和普通人进行分类,潜在犯罪者占总人口的比例是相当低的,也许只有2%左右,98%的人都是普通人,而我们的目标是要捕获出潜在犯罪者。这样的标签分布会带来许多问题。首先,分类模型天生会倾向于多数的类,...

2019-11-13 18:16:54

查看更多

勋章 我的勋章
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 推荐红人
    推荐红人
    发布高质量Blink获得高赞和评论,进入推荐栏目即可获得
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。