4 htfenght

尚未进行身份认证

暂无相关简介

等级
TA的排名 2w+

一致性Hash算法

http://www.zsythink.net/archives/1182

2019-03-20 16:42:48

回归评价指标MSE、RMSE、MAE、R-Squared

原文地址前言分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。下面一一介绍均方误差(MSE)MSE(MeanSquaredError)叫做均方误差。看公式这里的y是测试集上的。用真实值-预测值然后平方之后求和平均。猛着看一下这个公式是不是觉得眼熟,这不就是线性回归的损失函数嘛!!!对,在线性回归的时候我们的目的就是让...

2019-01-25 09:59:21

Spark Maven项目打包后找不到主类

项目配置:IDEA+Maven+spark2.2+scala2.11.4+java8问题:使用IDEA,Maven创建java和scala项目,写完代码本地运行没有问题,打包后,java程序没有问题,scala程序总是找不到主类java.lang.ClassNotFoundException:cn.spark.sql.SparkSQLDemoatjava...

2019-01-24 12:50:52

Spark 作业资源调度

北风网spark学习笔记静态资源分配原理spark提供了许多功能用来在集群中同时调度多个作业。首先,回想一下,每个spark作业都会运行自己独立的一批executor进程,此时集群管理器会为我们提供同时调度多个作业的功能。第二,在每个spark作业内部,多个job也可以并行执行,比如说spark-shell就是一个sparkapplication,但是随着我们输入scalarddacti...

2019-01-23 10:58:29

Spark 作业监控

北风网spark学习笔记对于Spark作业的监控,Spark给我们提供了很多种方式:SparkWebUI,SparkHistoryWebUI,RESTFULAPI以及Metrics。SparkWebUI以及监控实验每提交一个Spark作业,并且启动SparkContext之后,都会启动一个对应的SparkWebUI服务。默认情况下SparkWebUI的访问地址是driv...

2019-01-23 10:54:30

spark 基于ZooKeeper实现HA高可用性以及自动主备切换

北风网spark学习笔记默认情况下,standaloneclustermanager对于worker节点的失败是具有容错性的(迄今为止,Spark自身而言对于丢失部分计算工作是有容错性的,它会将丢失的计算工作迁移到其他worker节点上执行)。然而,调度器是依托于master进程来做出调度决策的,这就会造成单点故障:如果master挂掉了,就没法提交新的应用程序了。为了解决这个问题,spar...

2019-01-23 10:52:55

Jupyter Notebook 设置背景主题、字体大小以及输出部分显示不全的问题

原文地址    从开始阅读CNN的经典论文(LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet),实验室的师哥就建议看完论文后,用Tensorflow或者Keras复现一下论文的代码,就这样开始了入坑深度学习。复现论文的代码就需要使用深度学习的框架,我用的是Tensorflow...

2019-01-21 18:49:05

斯坦福机器学习课程汇总

以下内容来自斯坦福机器学习课程汇总前言这门课程将整个机器学习领域的基础知识,用浅显易懂的方式,深入浅出的进行了介绍。使得一个拥有高中数学知识的学生也能听得明白。如果你想要涉足机器学习、人工智能领域,或者对这一领域有浓厚的兴趣想要深入了解,那么你会发现很多机器学习入门课程推荐的资料中,都有吴恩达老师的这一系列课程。甚至在大多数资料中,都把这门课放在了首选的位置上。因此,我把吴恩达老师的课程...

2019-01-21 16:06:51

面试题33: 二叉搜索树的后续遍历

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码**htfeng*2018.10.08**面试题33:二叉搜索树的后续遍历*题目:输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历结果。**分析:对于二叉搜索树的后续...

2019-01-21 15:50:30

面试题34: 二叉树中和为某一值的路径

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码**htfeng*2018.10.08**面试题34:二叉树中和为某一值的路径*题目:输入一颗二叉树和一个整数,打印出二叉树中节点值得和为输入整数得所有路径。**分析:对于二...

2019-01-21 15:50:06

Spark Streaming性能调优

北风网spark学习笔记数据接收并行度调优通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,该Receiver接收一个数据流。因此可以通过创建多个输入DStream,并且配置它们接收数据源不同的分区...

2019-01-21 15:46:09

Spark Streaming容错机制以及事务语义详解

北风网spark学习笔记容错机制的背景要理解SparkStreaming提供的容错机制,先回忆一下SparkRDD的基础容错语义:RDD,RessilientDistributedDataset,是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系,(vallines=sc.textFile(hdfsfile);valword...

2019-01-21 15:44:10

Spark Streaming 部署、升级和监控应用程序

部署应用程序有一个集群资源管理器,比如standalone模式下的Spark集群,Yarn模式下的Yarn集群等。打包应用程序为一个jar包,课程中一直都有演示。为executor配置充足的内存,因为Receiver接受到的数据,是要存储在Executor的内存中的,所以Executor必须配置足够的内存来保存接受到的数据。要注意的是,如果你要执行窗口长度为10分钟的窗口操作,那么Exec...

2019-01-21 15:39:24

SparkStreaming缓存、持久化机制、Checkpoint机制

缓存、持久化机制与RDD类似,SparkStreaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中。对DStream调用persist()方法,就可以让SparkStreaming自动将该数据流中的所有产生的RDD,都持久化到内存中。如果要对一个DStream多次执行操作,那么,对DStream持久化是非常有用的。因为多次操作,可以共享使用内存中的一份缓存数据。对于基于窗...

2019-01-21 15:36:12

Tensorflow-gpu环境搭建

第一步:安装anaconda第二步:创建虚拟环境condainstallnb_condacondacreate-ntensorflowpython=3.6ipykernelipykernel的目的是让jupyternotebook可以使用虚拟环境第三步:进入虚拟环境,安装tensorflowactivatetensorflowcondainstall--...

2019-01-20 22:24:36

SparkConf、spark-submit以及spark-defaults.conf

北风网spark学习笔记SparkConf、spark-submit以及spark-defaults.confspark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置属性,并传递给我们的spark应用程序加载默认的配置属性,一大好处就在于,我们不需要在spark-submit脚本中设置所有的属性比如说,默认属性中有一个spark.master属性...

2019-01-14 16:05:47

standalone多作业资源调度

北风网spark学习笔记standalone多作业资源调度standalone集群对于同时提交上来的多个作业,仅仅支持FIFO调度策略,也就是先入先出默认情况下,集群对多个作业同时执行的支持是不好的,没有办法同时执行多个作业,因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源,此时相当于就是只能支持作业串行起来,一个一个运行了如果希望能够支持多作业同时运行,那么就需要调整一...

2019-01-10 15:54:40

Spark作业三种模式提交

北风网spark学习笔记Spark作业三种模式提交local模式提交spark作业spark作业运行集群,有两种部署方式,一种是SparkStandalone集群,还有一种是YARN集群+Spark客户端提交spark作业的两种主要方式,就是SparkStandalone和YARN,这两种方式,分别还分为两种模式,分别是clientmode和clustermode在体验stan...

2019-01-10 15:42:45

standalone部署细节以及相关参数

北风网spark学习笔记standalone部署细节以及相关参数配置集群中的worker节点如果想将某台机器部署成standalone集群架构中的worker节点(会运行workerdaemon进程)那么你就必须在那台机器上部署spark安装包配置conf/slaves文件在conf/salves文件中,哪些机器是作为worker节点的,可以配置你要在哪些机器上启动worker进...

2019-01-10 11:18:25

Spark Standalone集群架构

SparkStandalone集群架构SparkStandalone集群集群管理器,clustermanager:Master进程,工作节点:Worker进程搭建了一套Hadoop集群(HDFS+YARN)HDFS:NameNode、DataNode、SecondaryNameNodeYARN:ResourceManager、NodeManagerSpark集群(SparkSt...

2019-01-10 11:13:43

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得