瀛999-CSDN博客

原创 mac电脑安装homebrew及下载超时问题解决

1.homebrew安装命令：/bin/bash -c “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)”命令可能会更改，最新版可参考homebrew官网。2.如果Downloading Command Line Tools for xcode下载很慢或超时：可以自己去官网自己下载：苹果开发者官网。搜索Command Line Tools for xcode，找对应稳定版本下载

2020-07-19 09:30:14 2101

翻译 OLAP分析引擎Druid配置文件详解（五）：MiddleManager配置文件

摘要：本文是Druid配置文件系列博文的第五篇，我们将继续逐个介绍Druid的五大组件，本文将开始介绍Data Server中的middle manager和peon组件。以下配置都在middleManager/runtime.properties文件中。MiddleManager Process Config这些配置在其他组件中也都有，这里不太详细介绍，如需了解请查看之前的一篇博文Coordinator配置文件MiddleManager ConfigurationMiddle man

2020-07-12 16:38:45 1275

翻译 OLAP分析引擎Druid配置文件详解（四）：Overlord配置文件

本文是Druid配置文件系列博文的第四篇，我们将继续逐个介绍Druid的五大组件，前文已经介绍了Coordinator组件的配置文件，本文是第二个组件Overlord的介绍。

2020-05-24 17:24:00 954

翻译 OLAP分析引擎Druid配置文件详解（三）：coordinator配置文件

摘要：本文是Druid配置文件系列博文的第三篇，之前的文章已经介绍了Druid配置文件整体的组织结构以及公共配置文件，接下来将逐个介绍Druid的五大组件，本文是第一个组件Coordinator的介绍。以下配置都在coordinator/runtime.properties文件中。Coordinator Process Config属性含义备注是否需要修改dr...

2020-04-12 19:46:57 991

翻译 OLAP分析引擎Druid配置文件详解（二）：公共配置文件common.runtime.properties

摘要：本文是Druid配置文件系列博文的第二篇，在前一篇中介绍了Druid配置文件的组织结构，这一篇开始详细介绍各个配置文件中参数、意义、候选值等相关说明。本文主要介绍公共配置文件common.runtime.properties。common.runtime.properties配置文件参数介绍本文会对common.runtime.properties中的参数分组进行介绍。1....

2020-04-07 17:38:23 1194

原创 MarkDown使用中的问题和解决方案，持续更新

本人是一个MarkDown的使用新手，本文记录使用MarkDown遇到的一些问题和解决方案，方便自己查阅，也希望给别人提供帮助。持续更新中，如有错误或者更好的解决方案欢迎指正～

2020-04-07 11:23:29 357

翻译 OLAP分析引擎Druid配置文件详解（一）：文件组织形式

本文和接下来的几篇博文旨在介绍OLAP分析引擎Druid的配置文件，帮助使用的Druid的新手对Druid集群进行配置以满足基本需求，当然本系列博文也会对已经使用了Druid一段时间的用户有一些帮助，帮助这些用户根据自己的使用情况修改Druid配置，进一步提高性能和节省资源。本文的主要内容是Druid配置文件推荐组织形式。

2020-04-07 10:55:45 295

原创 Druid源码分析之send metrics

基本介绍：什么是Metric？metric就是Druid运行过程中产生的一些指标，如查询时间、查询成功数量、JVM参数、任务成功数等。Metric有什么用？对Druid进行异常监控报警，对指标数据进行分析等。Metric发送到哪？发送位置可以配置，包括日志、http等。send metric流程（以查询为例）：查询并得到查询结果生成QueryMetrics，里面...

2019-12-15 15:27:16 681

原创 git常用命令

git命令：git init 初始化一个仓库，会增加一个.git的目录git add <file> 增加文件到暂存区git commit -m <message> 提交git status 查看文件是否被修改过git diff 查看问价的不同git log 查看提交历史git reset --hard commit_id 回退到某个版本git...

2019-09-01 20:17:40 84

原创 tmux

基本介绍tmux是什么？•terminal multiplexer•Linux上的终端复用神器•可从一个屏幕上管理多个终端•能保存 session，而且还能多端实时直播 session基本概念：一个会话包含多个窗口一个窗口就是一个终端，可以包含多个窗格基本操作tmux中最重要的是一个快捷键前缀，几乎每个操作都需要，默认是Ctrl+b，可以按照如下方法修改...

2019-09-01 19:40:37 131

转载单例模式（java代码实现）

应用单例模式时，类只能有一个对象实例，这么做的目的是避免不一致状态。饿汉式单例：（立即加载）// 饿汉式单例public class Singleton1 { // 指向自己实例的私有静态引用，主动创建 private static Singleton1 singleton1 = new Singleton1(); // 私有的构造方法 privat...

2018-08-22 16:28:07 38775 3

转载红黑树

1.红黑树的特征（1）每个节点或者是黑色，或者是红色。（2）根节点是黑色。（3）每个叶子节点（NIL）是黑色。 [注意：这里叶子节点，是指为空(NIL或NULL)的叶子节点！]（4）如果一个节点是红色的，则它的子节点必须是黑色的。（5）从一个节点到该节点的子孙节点的所有路径上包含相同数目的黑节点。注意，根据特征5，没有一条从根到叶子的路径会超过其他路径的两倍，因此红黑树是一个近似二叉搜索树...

2018-08-15 00:30:41 1140

原创 Hive严格模式

Hive提供了一个严格模式，用如下方式设置：hive> set hive.mapred.mode=strict;这种模式是为了防止一些可能产生意想不到的不好的结果的查询执行，在这种模式下，以下三种查询被禁止：1.带有分区的表的查询如果对一个有分区的Hive表进行查询，除非where条件里包含分区字段，否则无法执行。进行这个限制的原因是，通常分区表数据量很大，不进行筛选可...

2018-08-14 12:28:50 687

翻译 Spark MLlib学习（1）-- Pipelines

基本概念DataFrame机器学习API使用来自Spark SQL的DataFrame作为数据集，它能包括多种数据类型，如文本、特征向量、标签、预测值等。Transformers一个Transformers是一个能转化一个DataFrame到另一个DataFrame的算法，例如，一个model可以转化带有特征的DataFrame为一个带有预测值的DataFrame。Transf...

2018-08-07 10:17:23 233

原创 sql使用技巧--排名函数、日期类型处理、LAG、LEAD

1.排名函数ROW_NUMBER他会为查询出来的每一行记录生成一个序号，依次排序且不会重复。示例代码如下：select ROW_NUMBER() OVER(order by [price] desc) as row_num,* from [Order]原始数据为id price 1 200 2 400 3 300 4 700 ...

2018-08-06 12:06:50 1710

翻译 Spark MLlib学习（1）--基本统计

Correlation支持的方法有Pearson相关系数和spearman相关系数。Pearson相关系数皮尔逊相关系数用来衡量定距变量的线性关系，取值范围是-1到1，接近0的变量相关性小，接近1或-1的变量相关性大。spearman相关系数斯皮尔曼相关性系数，通常也叫斯皮尔曼秩相关系数。“秩”，可以理解成就是一种顺序或者排序，那么它就是根据原始数据的排序位置进...

2018-08-03 17:09:10 621

翻译 Spark SQL使用简介（3）--加载和保存数据

加载和存储数据val usersDF = spark.read.load("examples/src/main/resources/users.parquet")usersDF.select("name", "favorite_color").write.save("namesAndFavColors.parquet")可以在加载和存储数据的时候选择数据源，对于内置数据源可以用他们的简...

2018-08-03 11:03:19 1414

翻译 Spark SQL使用简介（2）--UDF（用户自定义函数）

内建的DataFrame函数提供了正常的聚合函数，如count(), countDistinct(), avg(), max(), min()，我们也可以自己定义聚合函数，无类型的用户定义聚合函数按如下方式定义：import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expressions.Mut...

2018-08-02 23:48:31 653

翻译 Spark SQL使用简介（1）--基本使用

Spark SQL可以执行SQL查询，也可以从Hive中读数据。DataFrame = Dataset<Row>首先创建 SparkSessionimport org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basic exampl...

2018-08-01 21:03:17 357

转载 EM算法简介

1.简介 EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以算法被称为EM算法（Expectation Maximization Algorithm）。EM算法受到缺失思想影响，最初是为了解决数据缺失情况下的参数估计问题。其基本思想是：首先根据己经给出的观测数据，估计出模型参数的值；然后再依据上一步估计出的参数值估计缺失数据...

2018-08-01 18:52:03 4990

转载机器学习方法简介（5）--协同过滤推荐算法

协同过滤推荐算法主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类，分别是基于用户的协同过滤算法(user-based collaboratIve filtering)，和基于物品的协同过滤算法(item-based collaborative filtering)。1.基于用户的协同过滤算法(...

2018-08-01 13:57:43 468

转载机器学习方法简介（4）--主成分分析（PCA）

顾名思义，主成分分析方法是找出原始数据中的主要成分，用原始数据的主要成分代替原始数据达到降维的效果。那么我们如果寻找主成分呢？我们可以试图在样本空间中找到一个超平面，使得样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开，这个超平面的方向即为主成分。经过推导可知（推导过程省略），假如我们需要将n维样本数据映射为维的主成分数据，我们找到协方差矩阵的个最大的特征向量...

2018-08-01 13:11:19 380

转载机器学习方法简介（3）--kmeans

kmeans是最著名的聚类算法，聚类算法就是计算种群中的距离，根据距离的远近将数据划分为多个族群。kmeans算法首先需要确定k的数量，即全部样本所包含类别的数量。然后选择k个初始中心点，之后我们计算所有样本点与k个中心点之间的距离，对于任意一个样本点，它与哪个中心点距离最小我们就将其分配到该中心点所在类。完成所有样本点的分配后将重新计算中心点。重复上述过程，比较样本点与中心点的距离并将样本点...

2018-07-31 19:46:17 331

原创机器学习方法简介（2）--决策树、随机森林、朴素贝叶斯

1.决策树决策树是一种用于对实例进行分类的树形结构。Hunt算法是一种采用局部最优策略的决策树构建算法，它同时也是许多决策树算法的基础，包括ID3、C4.5和CART等。Hunt算法的递归定义如下： (1) 如果中所有记录都属于同一个类，则 t 是叶结点，用标记。 (2) 如果中包含属于多个类的记录，则选择一个属性测试条件（attribute test condition），...

2018-07-31 15:45:03 3429

原创机器学习方法简介（1）--线性回归、逻辑回归、神经网络、支持向量机

机器学习方法就是计算机根据已有的数据，得出某个模型，然后利用此模型预测未来的一种方法。机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。1.回归算法回归算法包括线性回归和逻辑回归线性回归使用“最小二乘法”来求解，“最小二乘法”的思想是这样的，假设我们拟合出的直线代表数据的真实值，而观测到的数据代表拥有误差的值。为了尽可能减小误差的影...

2018-07-31 12:22:45 4696

转载机器学习基本工作流程

注：此篇博客为转载，尊重原创。原文链接地址为：http://blog.csdn.net/longxinchen_ml/article/details/50749614作者：龙心尘 && 寒小阳时间：2016年2月。出处：http://blog.csdn.net/longxinchen_ml/article/details/50749614 http://blog.cs...

2018-07-28 19:28:34 363

转载 MapReduce实现基本SQL操作的原理

Join的实现原理select u.name, o.orderid from order o join user u on o.uid = u.uid;在map阶段的输出中给每个value一个tag，用于区分数据来源，在shuffle过程将具有相同key的数据合并在一起，在reduce阶段对key相同的不同来源的数据进行join。Group By的实现原理 select r...

2018-07-27 20:43:06 898 1

转载数学符号大全

虽然在 Mathtype 能输入绝大多数想要的数学字符，但是有些在 Visio 中无法输入，可以在这里找出，copy就好了，嘻嘻～ 1、几何符号　　⊥ ∥ ∠ ⌒ ⊙ ≡ ≌ △　　2、代数符号　　∝ ∧ ∨ ～ ∫ ≠ ≤ ≥ ≈ ∞ ∶　　3、运算符号　　如加号（＋），减号（－），乘号（×...

2018-07-25 23:23:38 5910

原创类加载的生命周期

首先上图接下来，逐个介绍各个过程：1.加载（1）通过一个类的全限定名来获取这个类的二进制字节流。（2）将这个字节流所代表的的静态存储结构转化为运行时数据结构。（3）在内存中（HotSpot虚拟机中是方法区）生成代表这个类的java.lang.Class对象，作为这个类的访问入口。2.验证这一过程的目的是确保二进制字节流包含的信息符合虚拟机的要求，并且不会危害虚拟机的...

2018-07-25 19:34:07 475

转载 KMP算法

KMP算法要解决的问题就是在字符串（也叫主串）中的模式（pattern）定位问题。说简单点就是我们平时常说的关键字搜索。模式串就是关键字（接下来称它为P），如果它在一个主串（接下来称为T）中出现，就返回它的具体位置，否则返回-1（常用手段）。解决上述问题的直观方法是使用暴力匹配方法，即从左到右一个个匹配，如果这个过程中有某个字符不匹配，就跳回去，将模式串向右移动一位。初始化：之后比...

2018-07-24 20:26:08 119

转载 MapReduce之shuffle过程

shuffle的主要职责是将map任务产生的输出，按照partitioner组件制定的规则，分发给reduce任务。主要分为3个过程，map端的spill过程，reduce端的copy和sort过程。1.spill过程map任务不断地以<K,V>对的形式把结果输出到内存的一个数据结构中，这个数据结构叫Kvbuffer，是一个字节数组。Kvbuffer不仅存数据，也保存对...

2018-07-20 17:21:42 160

原创 Spark的ShuffleManager

ShuffleManager的主要职责是shuffle过程的执行、计算和处理。包括HashShuffleManager和SortShuffleManager。1.2版本以前的Spark使用HashShuffleManager，1.2版本以后使用SortShuffleManager。1.未经优化的HashShuffleManager在shuffle write阶段，也就是一个stage结束之...

2018-07-20 14:01:23 474

转载 MapReduce过程

MapReduce由两个阶段组成，map阶段和reduce阶段：map阶段：1.从hdfs上读取文件，将文件的每一行解析成一个<K,V>对。2.对解析后的<K,V>对执行用户实现的map函数。3.对2所得结果进行分区。分区过程将在接下来学习Partitioner4.对不同分区中的数据进行排序和分组。5.（可选）对每个组的数据进行本地合并。该过程接下来...

2018-07-20 11:51:05 257

gan785160627的博客