超超人不会飞-CSDN博客

原创 Spark笔记之使用UDF（User Define Function）

转载于：https://help.aliyun.com/document_detail/27866.html https://www.cnblogs.com/cc11001100/p/9463909.html一、UDF介绍UDF（User Defined Function）即用户自定义函数。MaxCompute提供多种内建函数来满足您的计算需求，同时您还可以通过创建自定义函数来满足更多的计算需求。UDF广义的定义是自定义标量函数、自定义聚合函数及自定义表函数三种类型...

2020-08-09 10:23:26 594

原创机器学习西瓜书笔记（十）--------------降维与度量学习

目录降维与度量学习K近邻学习主成分分析（PCA）降维与度量学习样本的特征数称为维数（dimensionality），当维数非常大时，也就是现在所说的“维数灾难”，具体表现在：在高维情形下，数据样本将变得十分稀疏，因为此时要满足训练样本为“密采样”的总体样本数目是一个触不可及的天文数字，谓可远观而不可亵玩焉...训练样本的稀疏使得其代表总体分布的能力大大减弱，从而消减了学习器的泛化能力；同时当维数很高时，计算距离也变得十分复杂，甚至连计算内积都不再容易，这也是为什么支持向量机（SVM.

2020-07-19 11:45:57 413

原创机器学习西瓜书笔记（九）--------------聚类

聚类算法聚类是一种经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律，即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇，从而每个簇对应一个潜在的类别。聚类直观上来说是将相似的样本聚在一起，从而形成一个类簇（cluster）。那首先的问题是如何来度量相似性（similarity measure）呢？这便是距离度量，在生活中我们说差别小则相似，对应到多维样本，每个样本可以对应于高维空间中的一个数据点，若它们的距离

2020-07-19 11:43:10 318

原创机器学习西瓜书笔记（八）--------------集成学习

目录集成学习BoostingBagging与Random Forest结合策略集成学习集成学习通过构造多个学习器来完成学习任务。集成学习的构造是先产生一组个体学习器，然后用某种策略将他们结合起来。集成中只包含同类个体学习器，这样的集成是同质的，其个体学习器称为基学习器，学习算法也称为基学习算法。集成中包含不同类的个体学习器，这样的集成是异质，其中的个体叫组件学习器或者直接称为个体学习器。集成学习的基本结构为：先产生一组个体学习器，再使用某种策略将它们结合在一起。集成模..

2020-07-19 11:39:27 250

原创机器学习西瓜书笔记（七）--------------贝叶斯分类器

目录贝叶斯分类器的理论框架贝叶斯决策论极大似然法朴素贝叶斯分类器贝叶斯分类器的理论框架贝叶斯分类器的理论框架基于贝叶斯决策论（Bayesian decision theory），而贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。具体来说，若我们决策的目标是最小化分类错误率，贝叶斯最优分类器要对每个样本 x，选择能使后验概率 P( c | x )最大的类别 c 标记。.

2020-07-19 10:54:45 542

原创机器学习西瓜书笔记（六）--------------支持向量机

支持向量机支持向量机是一种经典的二分类模型，基本模型定义为特征空间中最大间隔的线性分类器，其学习的优化目标便是间隔最大化，因此支持向量机本身可以转化为一个凸二次规划求解的问题对于二分类学习，假设现在的数据是线性可分的，这时分类学习最基本的想法就是找到一个合适的超平面，该超平面能够将不同类别的样本分开，类似二维平面使用ax+by+c=0来表示，超平面实际上表示的就是高维的平面，如下图所示：函数间隔在超平面w'x+b=0确定的情况下，|w'x+b|能够代表点x距离超平面的远近，易..

2020-07-19 10:31:05 203

原创机器学习西瓜书笔记（五）--------------神经网络

目录神经元模型感知机与多层网络 BP神经网络算法常见神经网络深度学习神经元模型神经网路中最基本的成分是“神经元”模型，在生物神经网络中，每个神经元与其他神经元相连，当他“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元类的电位；如果某神经元的电位超过一个“阈值”，那么他就会被激活。将上述描述当成一个数学模型——M-P神经元模型，神经元接收来自n个神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传输，将神经元接收到的总输入值与神经元的自身的阈值进行...

2020-07-19 10:02:49 285

原创机器学习西瓜书笔记（四）--------------决策树

决策树学习是根据数据的属性采用树状结构建立的一种决策模型，可以用此模型解决分类和回归问题。常见的算法包括 ,ID3, C4.5，CART(Classification And Regression Tree)等。我们往往根据数据集来构建一棵决策树，他的一个重要任务就是为了数据中所蕴含的知识信息，并提取出一系列的规则，这些规则也就是树结构的创建过程就是机器学习的过程。决策树算法决策树算法主要是指决策树进行创建中进行树分裂(划分数据集)的时候选取最优特征的算法，他的主要目的就是要选取一个特征能够将...

2020-07-19 09:11:26 278

原创机器学习西瓜书笔记（三）-----------线性模型

机器学习西瓜书笔记（三）-----------线性模型目录一、基本形式二、线性回归三、对数几率回归四、线性判别分析五、多分类学习六、类别不平衡问题一、基本形式设定由n个属性描述的示例X = （x1; x2; x3; ...; xd），ω = （ω1; ω2;...;ωd），xi是X第i个属性的取值。线性模型尝试通过属性的线性组合来进行描述和预测f(X) = w1*x1 + w2*x2 + ...+wd*xd+ b一般用向量形式...

2020-07-15 22:17:52 404

原创机器学习西瓜书笔记（二）-----------模型评估与选择

模型评估与选择在这诸多模型当中，如何选择最佳的模型呢？这个过程，称之为模型选择。首先，要将数据集分为若干部分，其中一部分用于训练模型，另一部分用于测试模型的泛化能力；然后，对于测试的结果，我们给定一个性能度量参数，从数值上比较不同模型的泛化能力；再然后，通过复杂的比较检验方法，对不同的模型性能进行比较；最后，对于模型的性能，尝试给出一个解释。经验误差与过拟合评估方法...

2020-07-15 21:29:06 542

原创机器学习西瓜书笔记（一）---------绪论

机器学习笔记（一）---------绪论机器学习：致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。1.数据集（data set）：机器学习的基础是数据，数据的集合；2.示例instance、样本sample：每条数据描述了一个对象的信息，该对象称为示例，一般应用X表示；3.属性attribute、特征feature：数据描述的是样本在某些方面的性质，称之为属性；4...

2020-07-15 21:26:24 159

原创 Spark基于standalone和Yarn的两种提交模式

Spark基于standalone和YARN的两种提交模式回顾hadoop的yarn组件：ResourceManager:全局资源管理和任务调度 NodeManager:单个节点的资源管理和监控 ApplicationMaster:单个作业的资源管理和任务监控 Container:资源申请的单位和任务运行的容器Spark基于Yarn的两种提交模式（yarn-clus...

2020-01-10 19:14:52 418

原创 Spark第一个程序开发----WordCount

Spark第一个程序开发WordCountJava版本package cn.spark.java.core;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import o...

2020-01-10 19:14:08 188

原创《计算机组成原理》期末复习资料汇总

《计算机组成原理》期末复习资料汇总一、名词解释微程序：是指能实现一条机器指令功能的微指令序列。微指令：在机器的一个CPU周期内，一组实现一定操作功能的微命令的组合。微操作：执行部件在微命令的控制下所进行的操作。加减交替法：除法运算处理中对恢复余数法来说，当余数为正时，商“1”，余数左移一位，减除数；当余数为负时，商“0”，余数左移一位，加除数。有效地址：EA是一16位无符号...

2020-01-06 12:55:17 8505 2

原创 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing可能的原因：1. 时间没有同步HBase需要结点间的时间必须是同步的，可以使用date命令在Linux查看时间具体请看博客：https://blog.csdn.net/loopeng1/article/details/79051...

2019-12-01 19:35:41 208

原创 java版GDAL环境报错--Native library load failed. java.lang.UnsatisfiedLinkError: no gdalalljni in java.

（windows版）ERROR:Native library load failed.java.lang.UnsatisfiedLinkError: no gdalalljni in java.library.pathException in thread "main" java.lang.UnsatisfiedLinkError: org.gdal.gdalconst.gdalcon...

2019-11-25 19:39:14 11616 4

原创 java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/

Scala版本冲突--java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/ERROR:Exception in thread "main" java.lang.NoSuchMethodError:scala.collection.immutable.HashSet...

2019-11-25 15:04:41 363

原创 HBase底层的IO行为

HBase 底层的IO行为目录1 、Flush的工作原理2 、Compaction的原理3 、Region的split工作原理4、 WAL的原理1 、Flush的工作原理Flush的触发条件：1.（hbase.regionserver.global.memstore.siz...

2019-11-23 11:43:10 1480

原创 HBase Client的请求过程

HBase Client的请求过程1、 Client的请求过程涉及哪些角色和组件2、请求过程中涉及的组件有哪些可配置参数1、HBase写数据流程1.1:流程：Client请求Zookeeper确定meta表所在的RegionServer所在的地址，接着根据Rowkey找到数据所归属的RegionServ...

2019-11-23 09:55:55 655

原创 HBase表格的逻辑视图和物理视图

HBase表格的逻辑视图和物理视图逻辑视图（概念视图）：HBase以表的形式存储数据，表由行和列组成。列划分为若干个列簇HBase是一个键值（key-value）型数据库。HBase数据行可以类比成一个多重映射（map），通过多重的键（key）一层层递进可以定位一个值（value）。因为HBase数据行列值可以是空白的（这些空白列是不占...

2019-11-22 23:21:32 3525

原创 HBase表格

HBase表格数据规模大，单表可容纳数十亿行，上百万列；无模式，不像关系型数据库有严格的Scheme，每行可以有任意多的列，列可以动态增加，不同行可以有不同的列，列的类型没有限制；稀疏，值为空的列不占存储空间，表可以非常稀疏，但实际存储时，能进行压缩；面向列族，面向列族的存储和权限控制，支持列族独立查询；数据多版本，利用时间戳来标识版本；数据无...

2019-11-22 22:34:43 495

原创 HBase架构原理

HBase架构原理HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。HBase是Google BigTable的开源实现，与Google BigTable利用GFS作为其文件存储系统类似，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理BigTable...

2019-11-22 22:14:49 196

原创 PySpark学习笔记（一）

一、环境准备windowspython3.+pycharm或者anacondaspark安装版(解压好之后)二、设置环境变量添加系统变量（设置自己的路径）1.sparkSPARK_HOME=D:/bigdatashare/spark-2.4.3-bin-hadoop2.7Path=D:/bigdatashare/spark-2.4.3-bin-hado...

2019-10-15 23:12:24 462

原创 ERROR: bash: ls: command not found... Similar command is: 'lz'

出现错误的原因：添加环境变量时：（错误示范）export JAVA_HOME=/usr/software/jdkCLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libexport PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin在终端下输入这个命令回车会显示你的环境变量值e...

2019-10-06 18:06:51 2682 1

原创虚拟机自带jdk与普通用户上传安装jdk问题

一般Vmware虚拟机安装后，会有自带的jdk- openjdk但是普通用户安装hadoop等大数据组件过程中，按照要求步骤需要重新安装jdk在这个过程中就会产生jdk版本冲突首先，我们清楚，重新安装的jdk是供hadoop等大数据组件使用的，不作为其他用途。所以我们有两种解决办法：一、保留系统自带jdk，重新安装jdk,配置jdk环境变量仅供hadoop等组件使用二、删除系统自带jd...

2019-09-12 09:29:23 1157

原创栅格数据文件类型

栅格数据文件类型.tif文件-存储栅格数据以及包括坐标信息、地理参考系在内的tag，最主要的文件，单独存在可正常读取地理信息 tif.aux.xml文件-栅格统计数据等辅助信息辅助文件可存储以下内容：(1)、色彩映射表(2)、统计数据、直方图或表(3)、金字塔文件的指针(4)、坐标系(5)、变换(6)、投影信息.tfw-(TIFF-world fil...

2019-08-09 20:06:39 10945

原创 IntelliJ Idea 常用快捷键列表

IntelliJ Idea 常用快捷键列表Ctrl+Shift + Enter，语句完成“！”，否定完成，输入表达式时按 “！”键Ctrl+E，最近的文件Ctrl+Shift+E，最近更改的文件Shift+Click，可以关闭文件Ctrl+[ OR ]，可以跑到大括号的开头与结尾Ctrl+F12，可以显示当前文件的结构Ctrl+F7，可以查询当前元素在当前文件中的引用，然后按 F3...

2019-08-09 19:22:37 224

原创 scala学习笔记整理

scala基础知识1、基本介绍静态类型语言（scala/java）、面向对象编程，面向函数式编程、优点：速度快、简洁优雅、快速融入大数据生态圈（spark）、scala工程师…静态类型语言：变量的数据类型在程序编译阶段确定。动态类型语言：变量的数据类型在程序运行阶段确定。基于JVM(a.scala—>a.class(java)---->JVM)2、基本数据类型和变量2....

2019-08-09 19:21:41 280

原创 spark的安装与使用

spark的安装与使用1、 apache官网下载spark软件包选择hadoop2.7(版本要与hadoop版本对应)spark-2.4.3-bin-hadoop2.7.tgz2、下载scala scala官网下载3、使用共享文件夹上传4、解压移动sudo tar -xzvf spark-2.4.3-bin-hadoop2.7.tgz -C /usr/sparksudo t...

2019-07-29 16:18:08 1008

原创 Hadoop集群搭建

一、网络配置二、安装ssh免密登录三、安装VMware Tools四、安装jdk五、安装hadoop设备：VMware workstation ，Ubuntu ，jdk1.8 ，hadoop2.x一、网络配置 VMware虚拟机网络配置VMWare提供了三种工作模式，它们是bridged(桥接模式)、NAT(网络地址转换模式)和主机模式bridged模式VMnet0虚拟网...

2019-07-27 16:01:32 212

计算机组成原理期末复习资料汇总.doc

计算机组成原理期末复习资料、试题运算器、存储器、控制器、外部设备和输入输出子系统计算机的基本概念和基础知识，对计算机的各大基本部件的组成原理、设计方法及相互关系，与实际应用相结合。

2020-01-06

Python rasterio包（rasterio-1.1.0-cp38-cp38-win_amd64.whl）

gdal读取波段数据的接口为RasterIO，这是一个及其重要的函数，GDALDataset和GDALRasterBand类都有这个函数，利用GDALDataset类中的RasterIO时可以按指定波段数并按一定的波段序读取数据，GDALRasterBand类中的RasterIO可以读取该波段的数据，读数据时可以全部读取、读取某一块或抽样读取。用的多的是GDALRasterBand类的RaterIO函数.

2019-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人