自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

htfenght的博客

胜则谦逊,败则优雅

  • 博客(160)
  • 资源 (3)
  • 收藏
  • 关注

原创 C++编译错误: LNK2019

LNK2019错误(LIBCMTD.lib(exe_main.obj))在配置属性 -> 链接器 -> 系统里选择 窗口 (/SUBSYSTEM:WINDOWS)在项目属性-> C/C++ -> 预处理器 -> 预处理器定义里添加_WINDOWS

2020-07-22 18:37:44 1238

原创 C++编译出错: LNK2038

LNK2038错误解决上面的问题,把运行库改为多线程调试(/MTD)或者多线程调试DLL(/MDd)

2020-07-22 18:36:45 403

原创 C++编译报错 : C2760

C2760错误(语法错误)C2760错误解决办法:将符合模式改为否

2020-07-22 18:35:50 775

原创 Python PEP8命名

PEP 8与命名最佳实践命名风格驼峰式命名法混合式命名法大写或者大写加下划线前缀和后缀应用范围:变量、函数和方法、property、类、模块、包变量常量:大写加下划线共有和私有变量:加下划线函数和方法小写加下划线(java一般使用驼峰表示法)特殊方法双下划线开始双下划线结束:比如__init__, __repr__参数参数名称使用小写property小写或者小写加下划线类驼峰命名法模块和包模块名称都使用小写,不带下划线如果模块式包的私

2020-05-15 18:37:59 468

原创 python魔法方法

python3中比较重要魔法方法初始化和构造方法描述__new__(cls, other)对象实例化时调用.__init__(self, other)被__new__方法调用__del__(self)析构函数__new__(cls, […)__new__ 是用来创建类并返回这个类的实例, 而__init__只是将传入的参数来初始化该实例.__new__在创建一个实例的过程中必定会被调用,但__init__就不一定__init__(self, […)对象初

2020-05-15 18:36:44 173

原创 Hadoop源码环境搭建及编译(Windows 、MAC)

Hadoop源码环境搭建及编译(Windows 、MAC)Windows1. 下载对应版本的Hadoop源码包2. 编译Hadoop源码编译源码最好是在linux平台,此处用CentOS 7.4平台编译源码使用root用户编译所有软件压缩包,放到**/opt/apps**目录2.1 查看编译说明文件将hadoop-2.7.0-src.tar.gz源码包放到/opt目录下将源码...

2020-02-25 15:57:34 1526

转载 一致性Hash算法

http://www.zsythink.net/archives/1182

2019-03-20 16:42:48 165

转载 回归评价指标MSE、RMSE、MAE、R-Squared

原文地址前言分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。下面一一介绍均方误差(MSE)MSE (Mean Squared Error)叫做均方误差。看公式 这里的y是测试集上的。用 真实值-预测值 然后平方之后求和平均。猛着看一下这个公式是不是觉得眼熟,这不就是线性回归的损失函数嘛!!! 对,在线性回归的时候我们的目的就是让...

2019-01-25 09:59:21 1833

原创 Spark Maven项目打包后找不到主类

项目配置:IDEA + Maven + spark2.2 + scala 2.11.4 + java8问题:使用IDEA,Maven创建java和scala项目,写完代码本地运行没有问题,打包后,java程序没有问题,scala程序总是找不到主类java.lang.ClassNotFoundException: cn.spark.sql.SparkSQLDemo at java...

2019-01-24 12:50:52 5582 1

原创 Spark 作业资源调度

北风网spark学习笔记静态资源分配原理spark提供了许多功能用来在集群中同时调度多个作业。首先,回想一下,每个spark作业都会运行自己独立的一批executor进程,此时集群管理器会为我们提供同时调度多个作业的功能。第二,在每个spark作业内部,多个job也可以并行执行,比如说spark-shell就是一个spark application,但是随着我们输入scala rdd acti...

2019-01-23 10:58:29 635 1

原创 Spark 作业监控

北风网spark学习笔记对于Spark作业的监控,Spark给我们提供了很多种方式:Spark Web UI,Spark History Web UI,RESTFUL API以及Metrics。SparkWebUI以及监控实验每提交一个Spark作业,并且启动SparkContext之后,都会启动一个对应的Spark Web UI服务。默认情况下Spark Web UI的访问地址是driv...

2019-01-23 10:54:30 1181

原创 spark 基于ZooKeeper实现HA高可用性以及自动主备切换

北风网spark学习笔记默认情况下,standalone cluster manager对于worker节点的失败是具有容错性的(迄今为止,Spark自身而言对于丢失部分计算工作是有容错性的,它会将丢失的计算工作迁移到其他worker节点上执行)。然而,调度器是依托于master进程来做出调度决策的,这就会造成单点故障:如果master挂掉了,就没法提交新的应用程序了。为了解决这个问题,spar...

2019-01-23 10:52:55 2003

转载 Jupyter Notebook 设置背景主题、字体大小以及输出部分显示不全的问题

原文地址        从开始阅读CNN的经典论文(LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet),实验室的师哥就建议看完论文后,用Tensorflow或者Keras复现一下论文的代码,就这样开始了入坑深度学习。复现论文的代码就需要使用深度学习的框架,我用的是Tensorflow...

2019-01-21 18:49:05 1551

转载 斯坦福机器学习课程汇总

以下内容来自斯坦福机器学习课程汇总前言这门课程将整个机器学习领域的基础知识,用浅显易懂的方式,深入浅出的进行了介绍。使得一个拥有高中数学知识的学生也能听得明白。如果你想要涉足机器学习、人工智能领域,或者对这一领域有浓厚的兴趣想要深入了解,那么你会发现很多机器学习入门课程推荐的资料中,都有吴恩达老师的这一系列课程。甚至在大多数资料中,都把这门课放在了首选的位置上。因此,我把吴恩达老师的课程...

2019-01-21 16:06:51 542

原创 面试题33: 二叉搜索树的后续遍历

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.08** 面试题33: 二叉搜索树的后续遍历* 题目:输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历结果。** 分析: 对于二叉搜索树的后续...

2019-01-21 15:50:30 159

原创 面试题34: 二叉树中和为某一值的路径

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.08** 面试题34: 二叉树中和为某一值的路径* 题目:输入一颗二叉树和一个整数,打印出二叉树中节点值得和为输入整数得所有路径。** 分析: 对于二...

2019-01-21 15:50:06 211

原创 Spark Streaming性能调优

北风网spark学习笔记数据接收并行度调优通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,该Receiver接收一个数据流。因此可以通过创建多个输入DStream,并且配置它们接收数据源不同的分区...

2019-01-21 15:46:09 275

原创 Spark Streaming容错机制以及事务语义详解

北风网spark学习笔记容错机制的背景要理解Spark Streaming提供的容错机制,先回忆一下Spark RDD的基础容错语义:RDD,Ressilient Distributed Dataset,是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系,(val lines = sc.textFile(hdfs file); val word...

2019-01-21 15:44:10 278

原创 Spark Streaming 部署、升级和监控应用程序

部署应用程序有一个集群资源管理器,比如standalone模式下的Spark集群,Yarn模式下的Yarn集群等。打包应用程序为一个jar包,课程中一直都有演示。为executor配置充足的内存,因为Receiver接受到的数据,是要存储在Executor的内存中的,所以Executor必须配置足够的内存来保存接受到的数据。要注意的是,如果你要执行窗口长度为10分钟的窗口操作,那么Exec...

2019-01-21 15:39:24 644

原创 SparkStreaming缓存、持久化机制、Checkpoint机制

缓存、持久化机制与RDD类似,Spark Streaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中。对DStream调用persist()方法,就可以让Spark Streaming自动将该数据流中的所有产生的RDD,都持久化到内存中。如果要对一个DStream多次执行操作,那么,对DStream持久化是非常有用的。因为多次操作,可以共享使用内存中的一份缓存数据。对于基于窗...

2019-01-21 15:36:12 445

原创 Tensorflow-gpu环境搭建

第一步: 安装anaconda第二步:创建虚拟环境conda install nb_condaconda create -n tensorflow python=3.6 ipykernelipykernel的目的是让jupyter notebook可以使用虚拟环境第三步:进入虚拟环境,安装tensorflowactivate tensorflowconda install --...

2019-01-20 22:24:36 176

原创 SparkConf、spark-submit以及spark-defaults.conf

北风网spark学习笔记SparkConf、spark-submit以及spark-defaults.confspark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置属性,并传递给我们的spark应用程序加载默认的配置属性,一大好处就在于,我们不需要在spark-submit脚本中设置所有的属性比如说,默认属性中有一个spark.master属性...

2019-01-14 16:05:47 7991

原创 standalone多作业资源调度

北风网spark学习笔记standalone多作业资源调度standalone集群对于同时提交上来的多个作业,仅仅支持FIFO调度策略,也就是先入先出默认情况下,集群对多个作业同时执行的支持是不好的,没有办法同时执行多个作业,因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源,此时相当于就是只能支持作业串行起来,一个一个运行了如果希望能够支持多作业同时运行,那么就需要调整一...

2019-01-10 15:54:40 214

原创 Spark作业三种模式提交

北风网spark学习笔记Spark作业三种模式提交local模式提交spark作业spark作业运行集群,有两种部署方式,一种是Spark Standalone集群,还有一种是YARN集群+Spark客户端提交spark作业的两种主要方式,就是Spark Standalone和YARN,这两种方式,分别还分为两种模式,分别是client mode和cluster mode在体验stan...

2019-01-10 15:42:45 1711

原创 standalone部署细节以及相关参数

北风网spark学习笔记standalone部署细节以及相关参数配置集群中的worker节点如果想将某台机器部署成standalone集群架构中的worker节点(会运行worker daemon进程)那么你就必须在那台机器上部署spark安装包配置conf/slaves文件在conf/salves文件中,哪些机器是作为worker节点的,可以配置你要在哪些机器上启动worker进...

2019-01-10 11:18:25 1392

原创 Spark Standalone集群架构

Spark Standalone集群架构SparkStandalone集群集群管理器,cluster manager:Master进程,工作节点:Worker进程搭建了一套Hadoop集群(HDFS+YARN)HDFS:NameNode、DataNode、SecondaryNameNodeYARN:ResourceManager、NodeManagerSpark集群(Spark St...

2019-01-10 11:13:43 335

原创 Spark术语

Spark术语术语介绍Applicationspark应用程序,说白了,就是用户基于spark api开发的程序,一定是通过一个有main方法的类执行的,比如java开发spark,就是在eclipse中,建立的一个工程Application Jar这个就是把写好的spark工程,打包成一个jar包,其中包括了所有的第三方jar依赖包,比如java中,就用maven...

2019-01-10 11:13:01 234

原创 Spark集群概览

Spark集群概览Spark集群架构spark程序每次提交就是一个作业,提交到多个executor进程上去,多个进程并行运行作业第一步一段程序,spark代码,里面肯定是有main方法的,比如说是java/scala,运行这个代码,代码一旦跑起来,一定是运行在一个进程里面的进程会去执行main方法中的代码进程,程序跑起来的进程,通常来说就是jvm进程,java虚拟机进程,就是我们...

2019-01-10 11:12:28 193

原创 Python高级语法

Python高级语法内置类型list:动态的,大小可改变tuple:不可变,一旦创建不能修改dict:键值映射set :可变的、无序的、有限的集合,元素唯一高级语法迭代器迭代器是一个实现了迭代器协议的容器对象,主要基于以下两个方法__next__: 返回容器的下一个元素__iter__: 返回迭代器本身class CountDown: def __init_...

2019-01-05 14:32:20 241

转载 centos安装realvnc

下载vnc用root登录系统执行安装:$yum install xterm$rpm -ivh https://www.realvnc.com/download/file/vnc.files/VNC-Server-6.2.1-Linux-x64.rpm# 或$rpm -ivh https://www.realvnc.com/download/file/vnc.files/VNC-Ser...

2018-12-22 13:52:17 5497 1

原创 spark实战-移动端app访问流量日志分析

综合案例-移动端app访问流量日志分析移动端app访问流量日志分析背景如果你是在一个互联网公司,然后你的公司现在也在做移动互联网,做了一个手机app,那么你的手机app的用户,每次进行点击,或者是一些搜索操作的时候,都会跟你的远程的后端服务器做一次交互,也就是说,你的手机app,首先会往后端服务器发送一个请求,然后你的后端服务器会给你的手机app返回一个响应,响应的内容可能是图片、或者文字...

2018-12-06 16:50:26 1517

原创 Java知识点——线程的状态

线程的状态初始态:NEW创建一个Thread对象,但还未调用start()启动线程时,线程处于初始态。运行态:RUNNABLE在Java中,运行态包括就绪态 和 运行态。就绪态该状态下的线程已经获得执行所需的所有资源,只要CPU分配执行权就能运行。所有就绪态的线程存放在就绪队列中。运行态获得CPU执行权,正在执行的线程。由于一个CPU同一时刻只能执行一条线程,因...

2018-12-05 19:10:03 393

原创 Java知识点——多线程基础

多线程通过继承Thread类实现多线程Thread类存放在java.lang类库中,无需显示加载Thread类中,已经定义了run()方法,如果想要实现多线程,必须定义自己的子类,继承与Thread类,同时要重写Thread类的run方法,然后用用户自定义的线程类,生成对象,并调用该对象的start()方法,从而来激活一个线程。public class ThreadDemo_1 { pu...

2018-12-05 17:21:22 144

原创 决策树python实现

决策树python实现算法构造算法优缺点优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。算法流程收集数据:可以使用任何方法。准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。训练算法:构...

2018-12-05 15:27:45 1559

原创 KNN算法python实现

KNN算法python实现算法概述算法优缺点优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。算法流程1 收集数据:可以使用任何方法。2 准备数据:距离计算所需要的数值,最好是结构化的数据格式。3 分析数据:可以使用任何方法。4 训练算法:此步驟不适用于knn算法。5 测试算法:计算错误率。6 使用算法:首先...

2018-12-05 15:25:51 12781 2

原创 Java知识点-Java常用类库与异常的捕获与处理

Java常用类库String类String str1 = "hello world!";String str2 = "hello world!";Boolean result1 = (str1 == str2);String str3 = new String("hello world!");Boolean result2 = (str1 == str3);对于上面的例子,Stri...

2018-12-04 17:26:50 220

原创 Java知识点2-抽象类

抽象类包含抽象方法的类,就是抽象类,所谓抽象方法,就是只声明而为实现的方法。抽象类的规则如下:抽象类和抽象方法都必须使用abstract关键字修饰抽象类不能直接实例化,也就是不能直接使用new关键字去产生对象在抽象类中,定义时抽象方法只需声明,而无需实现含有抽象方法的类必须被声明为抽象类,抽象类的子类必须实现所有的抽象方法后,才能不叫抽象类,从而被实例化,否则这个子类环视个抽象类...

2018-12-03 16:51:18 201

原创 Java知识点

关于static关键字static修饰的成员,不能被非static修饰的成员访问被static修饰的变量称为类变量,被static修饰的方法称为类方法,他们被类的实例共享使用static定义的方法可以由类名称直接调用使用static类型声明的方法时,需要注意:如果类中声明了一个static类型的属性,则此类属性既可以在非static类型的方法中使用,也可以在static类型的方法中使用,...

2018-11-29 19:22:14 95

原创 面试题31: 栈的压入、弹出序列

Github/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.06** 面试题31: 栈的压入、弹出序列* 题目:输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是* 否为该栈的弹出顺序...

2018-11-29 17:01:39 168

原创 面试题32: 从上到下打印二叉树:不分行打印

Github/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.06** 面试题32: 从上到下打印二叉树* 题目一:不分行打印** 分析: 层序遍历************************...

2018-11-29 17:01:30 108

WPS二次开发接口.rar

WPS二次开发接口(三个版本),提供了WPS的API,可使用python、java、C语言进行二次开发

2019-10-30

《深度学习入门:基于Python的理论与实现》超清中文+源代码

本书最大的特点是“剖解”了深度学习的底层技术。正如美国物理学家 理查德·费曼(Richard Phillips Feynman)所说: “What I cannot create, I do not understand.”只有创造一个东西,才算真正弄懂了一个问题。本书就是教你如何创建深度学习模型的一本书。并且,本书不使用任何现有的深度学习框架,尽可能仅使用最基本的数学知识和Python 库,从零讲解深度学习核心问题的数学原理,从零创建一个经典的深度学习网络。

2018-12-11

HANDSON_DATA_SCIENCE_AND_PYTHON_MACHINE_LEARNING

My name is Frank Kane. I spent nine years at amazon.com and imdb.com, wrangling millions of customer ratings and customer transactions to produce things such as personalized recommendations for movies and products and "people who bought this also bought." I tell you, I wish we had Apache Spark back then, when I spent years trying to solve these problems there. I hold 17 issued patents in the fields of distributed computing, data mining, and machine learning. In 2012, I left to start my own successful company, Sundog Software which focuses on virtual reality environment technology, and teaching others about big data analysis.

2018-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除