4 htfenght

尚未进行身份认证

暂无相关简介

等级
TA的排名 2w+

Python PEP8命名

PEP 8与命名最佳实践命名风格驼峰式命名法混合式命名法大写或者大写加下划线前缀和后缀应用范围:变量、函数和方法、property、类、模块、包变量常量:大写加下划线共有和私有变量:加下划线函数和方法小写加下划线(java一般使用驼峰表示法)特殊方法双下划线开始双下划线结束:比如__init__, __repr__参数参数名称使用小写property小写或者小写加下划线类驼峰命名法模块和包模块名称都使用小写,不带下划线如果模块式包的私

2020-05-15 18:37:59

python魔法方法

python3中比较重要魔法方法初始化和构造方法描述__new__(cls, other)对象实例化时调用.__init__(self, other)被__new__方法调用__del__(self)析构函数__new__(cls, […)__new__ 是用来创建类并返回这个类的实例, 而__init__只是将传入的参数来初始化该实例.__new__在创建一个实例的过程中必定会被调用,但__init__就不一定__init__(self, […)对象初

2020-05-15 18:36:44

Hadoop源码环境搭建及编译(Windows 、MAC)

Hadoop源码环境搭建及编译(Windows 、MAC)Windows1. 下载对应版本的Hadoop源码包2. 编译Hadoop源码编译源码最好是在linux平台,此处用CentOS 7.4平台编译源码使用root用户编译所有软件压缩包,放到**/opt/apps**目录2.1 查看编译说明文件将hadoop-2.7.0-src.tar.gz源码包放到/opt目录下将源码...

2020-02-25 15:57:34

一致性Hash算法

http://www.zsythink.net/archives/1182

2019-03-20 16:42:48

回归评价指标MSE、RMSE、MAE、R-Squared

原文地址前言分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。下面一一介绍均方误差(MSE)MSE (Mean Squared Error)叫做均方误差。看公式 这里的y是测试集上的。用 真实值-预测值 然后平方之后求和平均。猛着看一下这个公式是不是觉得眼熟,这不就是线性回归的损失函数嘛!!! 对,在线性回归的时候我们的目的就是让...

2019-01-25 09:59:21

Spark Maven项目打包后找不到主类

项目配置:IDEA + Maven + spark2.2 + scala 2.11.4 + java8问题:使用IDEA,Maven创建java和scala项目,写完代码本地运行没有问题,打包后,java程序没有问题,scala程序总是找不到主类java.lang.ClassNotFoundException: cn.spark.sql.SparkSQLDemo at java...

2019-01-24 12:50:52

Spark 作业资源调度

北风网spark学习笔记静态资源分配原理spark提供了许多功能用来在集群中同时调度多个作业。首先,回想一下,每个spark作业都会运行自己独立的一批executor进程,此时集群管理器会为我们提供同时调度多个作业的功能。第二,在每个spark作业内部,多个job也可以并行执行,比如说spark-shell就是一个spark application,但是随着我们输入scala rdd acti...

2019-01-23 10:58:29

Spark 作业监控

北风网spark学习笔记对于Spark作业的监控,Spark给我们提供了很多种方式:Spark Web UI,Spark History Web UI,RESTFUL API以及Metrics。SparkWebUI以及监控实验每提交一个Spark作业,并且启动SparkContext之后,都会启动一个对应的Spark Web UI服务。默认情况下Spark Web UI的访问地址是driv...

2019-01-23 10:54:30

spark 基于ZooKeeper实现HA高可用性以及自动主备切换

北风网spark学习笔记默认情况下,standalone cluster manager对于worker节点的失败是具有容错性的(迄今为止,Spark自身而言对于丢失部分计算工作是有容错性的,它会将丢失的计算工作迁移到其他worker节点上执行)。然而,调度器是依托于master进程来做出调度决策的,这就会造成单点故障:如果master挂掉了,就没法提交新的应用程序了。为了解决这个问题,spar...

2019-01-23 10:52:55

Jupyter Notebook 设置背景主题、字体大小以及输出部分显示不全的问题

原文地址        从开始阅读CNN的经典论文(LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet),实验室的师哥就建议看完论文后,用Tensorflow或者Keras复现一下论文的代码,就这样开始了入坑深度学习。复现论文的代码就需要使用深度学习的框架,我用的是Tensorflow...

2019-01-21 18:49:05

斯坦福机器学习课程汇总

以下内容来自斯坦福机器学习课程汇总前言这门课程将整个机器学习领域的基础知识,用浅显易懂的方式,深入浅出的进行了介绍。使得一个拥有高中数学知识的学生也能听得明白。如果你想要涉足机器学习、人工智能领域,或者对这一领域有浓厚的兴趣想要深入了解,那么你会发现很多机器学习入门课程推荐的资料中,都有吴恩达老师的这一系列课程。甚至在大多数资料中,都把这门课放在了首选的位置上。因此,我把吴恩达老师的课程...

2019-01-21 16:06:51

面试题33: 二叉搜索树的后续遍历

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.08** 面试题33: 二叉搜索树的后续遍历* 题目:输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历结果。** 分析: 对于二叉搜索树的后续...

2019-01-21 15:50:30

面试题34: 二叉树中和为某一值的路径

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.08** 面试题34: 二叉树中和为某一值的路径* 题目:输入一颗二叉树和一个整数,打印出二叉树中节点值得和为输入整数得所有路径。** 分析: 对于二...

2019-01-21 15:50:06

Spark Streaming性能调优

北风网spark学习笔记数据接收并行度调优通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,该Receiver接收一个数据流。因此可以通过创建多个输入DStream,并且配置它们接收数据源不同的分区...

2019-01-21 15:46:09

Spark Streaming容错机制以及事务语义详解

北风网spark学习笔记容错机制的背景要理解Spark Streaming提供的容错机制,先回忆一下Spark RDD的基础容错语义:RDD,Ressilient Distributed Dataset,是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系,(val lines = sc.textFile(hdfs file); val word...

2019-01-21 15:44:10

Spark Streaming 部署、升级和监控应用程序

部署应用程序有一个集群资源管理器,比如standalone模式下的Spark集群,Yarn模式下的Yarn集群等。打包应用程序为一个jar包,课程中一直都有演示。为executor配置充足的内存,因为Receiver接受到的数据,是要存储在Executor的内存中的,所以Executor必须配置足够的内存来保存接受到的数据。要注意的是,如果你要执行窗口长度为10分钟的窗口操作,那么Exec...

2019-01-21 15:39:24

SparkStreaming缓存、持久化机制、Checkpoint机制

缓存、持久化机制与RDD类似,Spark Streaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中。对DStream调用persist()方法,就可以让Spark Streaming自动将该数据流中的所有产生的RDD,都持久化到内存中。如果要对一个DStream多次执行操作,那么,对DStream持久化是非常有用的。因为多次操作,可以共享使用内存中的一份缓存数据。对于基于窗...

2019-01-21 15:36:12

Tensorflow-gpu环境搭建

第一步: 安装anaconda第二步:创建虚拟环境conda install nb_condaconda create -n tensorflow python=3.6 ipykernelipykernel的目的是让jupyter notebook可以使用虚拟环境第三步:进入虚拟环境,安装tensorflowactivate tensorflowconda install --...

2019-01-20 22:24:36

SparkConf、spark-submit以及spark-defaults.conf

北风网spark学习笔记SparkConf、spark-submit以及spark-defaults.confspark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置属性,并传递给我们的spark应用程序加载默认的配置属性,一大好处就在于,我们不需要在spark-submit脚本中设置所有的属性比如说,默认属性中有一个spark.master属性...

2019-01-14 16:05:47

standalone多作业资源调度

北风网spark学习笔记standalone多作业资源调度standalone集群对于同时提交上来的多个作业,仅仅支持FIFO调度策略,也就是先入先出默认情况下,集群对多个作业同时执行的支持是不好的,没有办法同时执行多个作业,因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源,此时相当于就是只能支持作业串行起来,一个一个运行了如果希望能够支持多作业同时运行,那么就需要调整一...

2019-01-10 15:54:40

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。