axxbc123-CSDN博客

原创 xyz

数据算法：Hadoop/Spark大数据处理技巧https://item.jd.com/11993447.html 图解Spark：核心技术与案例实战https://item.jd.com/12021791.html https://item.jd.com/11889267.htmlHadoop 2.X HDFS源码剖析 Spark大数据分析实战https...

2017-04-22 13:20:50 534

原创【Spark109】Windows上运行spark-shell

如何在Windows上运行spark-shell 1. 下载winutils.exe，加入放置到d:/software/Hadoop/bin/winutils.exe目录下，注意，winutils.exe文件的上级目录一定是bin2. 开启一个windows命令行窗口，在d:/software/Hadoop/bin目录下执行winutils.exe chmod 777 D:\tmp\...

2016-10-13 18:13:22 1301

原创【Linux八】查看某个进程的线程数

pstree -p `ps -e | grep cassandra| awk '{print $1}'` | wc -l查看Cassandra进程的线程数 pstree -p | wc -l查看所有的线程数 pstree -p <pid> | wc -l查看指定进程的线程数...

2016-08-25 10:33:23 564

原创【Scala十九】关于function入参类型逆变，返回结果协变

class CSuper {}class C extends CSuper {}class C2 extends CSuper {}class CSub extends C {}object Scala8 { /*** * * @return */ val func1 : ...

2016-08-20 16:49:16 393

原创【Hive十九】Hive JDBC URL for Kerberos secured cluster

对于如下的Hive JDBC连接串，!connect jdbc:hive2://hiverserver.node:10000/default;principal=hive/[email protected];kerberosAuthType=kerberos;hive.server2.proxy.user=0e276318a87ced54171884ed765e9962; 使用hi...

2016-06-08 11:22:31 684

原创【Hadoop二十一】Hadoop ProxyUser

关于Hadoop ProxyUser的出现动机，参看https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/Superusers.html 线上环境做了如下配置  <property> <name>...

2016-06-08 10:49:37 2345

原创【Hadoop二十】WebHDFS

访问地址是 http://hadoop.bit.com:50070/webhdfs/v1/user？op=LISTSTATUS 其中的user是HDFS上的文件路径/user, HTTP REST API的详细信息参看https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/WebHDFS....

2016-06-08 10:32:09 190

原创【Hadoop十九】HDFS权限设置

1.hdfs权限检查启用，需要在hdfs-site.xml中做如下配置： <property> <name>dfs.permissions.enabled</name> <value>true</value> 1.1. 默认情况下，用户在HDFS上创建的文件和目录的权限是rwxr-xr-x，即...

2016-06-08 08:47:22 1627 2

原创【Hive十八】Hive QL中使用配置的变量

1. 使用set命令，设置参数hive>set XYZ=abchive>select * from t1 where line = '${hiveconf:XYZ}' 等价于 hive>set XYZ=’abc‘hive>select * from t1 where line = ${hiveconf:XYZ} 2.以hive --hi...

2016-05-27 13:21:40 193

原创【Linux命令七】tar命令

1. 创建tar包，对目录打包tar czvf localdir.tar.gz localdir 2. 不解压的情况下，查看tar.gz包的内容tar ft localdir.tar.gz注意ft是没有-的，这个跟jar ft abc.jar的格式一样...

2016-05-26 17:57:09 222

原创【Linux命令六】CP命令

建立如下的目录结构：.└── d1 ├── d10 │ └── scheduler-center.log └── result.json 1. 执行如下命令cp d1 d2那么报错，cp: 略过目录"d1"，并且当前目录下并没有d2目录 2. cp -r d1 d2...

2016-05-26 07:52:47 214

原创【Linux命令五】SCP命令

SCP命令可以将本机的一个文件复制到远程指定目录下，也可以将本机的一个目录递归复制到远程的指定目录下，远程递归复制很重要，比如对于hadoop集群，在一台机器上配置完成，需要将整个目录复制到远程各个节点 scp -r localdir hadoop@localhost:/home/hadoop/learninglinux/ddd 以上命令将本机的localdir递归复制到...

2016-05-26 07:45:34 715

原创【Linux命令四】SSH命令

ssh命令在分布式集群环境下很重要，可以用于在一台机器XYZ上通过将要执行的shell脚本分发各个节点机器，然后通过ssh命令，在XYZ这台机器上，远程执行各个节点上的这个脚本， 1. 如果要远程执行的命令很多很长，可以写一个脚本，然后首先分发这个脚本，再执行这个脚本ssh可以借助for循环依次执行下面的语句,从而达到在各个节点执行a.sh的目的REMOTE_HOST=local...

2016-05-26 07:40:57 253

原创【Hive十七】Hive Thrift Server HA配置

<property> <name>hive.server2.support.dynamic.service.discovery</name> <value>true</value> </property> <property> <name>hive.server

2016-05-24 11:14:19 412

原创【Hive十六】Hive SQL Standard Based Hive Authorization

启用授权选项，默认是false，后面的授权操作基于此选项为true进行set hive.security.authorization.enabled=true========================基于用户的授权===============================获取当前用户set system:user.name授权在指定库下面删除表grant drop on database...

2016-05-24 10:57:39 237

原创【Hive十五】Hive IO相关

1. Hadoop配置压缩算法(Hadoop的配置属性，Hive读取core-site.xml文件中的配置，可以再hive-site.xml中配置以覆盖Hadoop中的配置)key: io.compression.codecsvalue:org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCode...

2016-05-24 10:10:28 367

原创【Spark109】yarn命令相关

1. 杀死一个运行在Yarn上的application yarn application -kill application_1428487296152_25597 2

2015-09-07 18:13:31 145

原创【Spark108】Spark SQL动态代码生成四

日志： 2015-09-02 14:46:27,765-[TS] DEBUG Executor task launch worker-3 org.apache.spark.sql.execution.joins.SortMergeJoin - Creating Projection: List(classId#2), inputSchema: List(stuId#0, stuNa...

2015-09-02 18:07:46 300

原创【Spark107】Spark SQL动态代码生成三

代码 2015-09-02 14:46:27,226-[TS] DEBUG Executor task launch worker-1 org.apache.spark.sql.catalyst.expressions.codegen.GenerateSafeProjection - code for input[0, StringType],input[1, StringType],i...

2015-09-02 18:04:27 392

原创【Spark106】Spark SQL动态代码生成二

代码 public SpecificOrdering generate(org.apache.spark.sql.catalyst.expressions.Expression[] expr) { return new SpecificOrdering(expr);}class SpecificOrdering extends org.apache.spark.sql....

2015-09-02 18:02:45 357

原创【Spark105】Spark SQL动态代码生成一

2015-09-02 14:46:27,681-[TS] DEBUG Executor task launch worker-0 org.apache.spark.sql.catalyst.expressions.codegen.GenerateUnsafeProjection - code for input[0, StringType],input[1, StringType],in...

2015-09-02 18:01:38 960

原创【Hadoop十七】HDFS HA配置

基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台hadoop.masterhadoop.slave1hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverControllerhadoop...

2015-06-13 15:53:13 184

原创【Hadoop十六】Capacity Scheduler

在Hadoop2.5.2中，默认的资源调度器默认使用的算法是计算能力调度器，配置文件位于/etc/hadoop/capacity-scheduler.xml,不做任何修改，它的配置文件内容如下，默认配置中显示了一些可用的配置参数以及这些配置参数的默认值，以及这些配置参数的含义 <configuration> <property> <na...

2015-06-13 13:14:02 118

原创【Scala十八】视图界定与上下文界定

Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a > b是不正确的，因...

2015-06-13 11:48:56 343

原创【Spark104】Spark源代码构建打包

1. 带有ganglia的二进制包，打包成tgz指定参数--tgz./make-distribution.sh --name 2.4.0 --tgz -Phadoop-2.4 -Dhadoop.version=2.4.0 -Pyarn -Phive -Phive-0.13.1 -Phive-thriftserver -Pspark-ganglia-lgpl -DskipTests...

2015-06-11 09:09:16 143

原创【Spark103】Task not serializable

Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法1. package spark.examples.s...

2015-06-08 20:16:34 359

原创【Scala十七】Scala核心十一：下划线_的用法

下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用scala> val list = List(-3,8,7,9)list: List[Int] = List(-3, 8, 7, 9)scala> list.filter(_ > 7)res...

2015-06-07 13:36:44 560

原创【Scala十六】Scala核心十：柯里化函数

本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数A way to write functions with multiple parameter lists. For instancedef f(x: Int)(y: Int) is a c...

2015-06-07 12:01:31 801

原创【Spark102】Spark存储模块BlockManager剖析

Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave...

2015-06-06 16:23:26 152

原创【Spark101】Scala Promise/Future在Spark中的应用

Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.ht...

2015-06-06 15:42:21 432

原创【Spark100】Spark Streaming Checkpoint的一个坑

Spark Streaming UI这块是本篇额外的内容，与主题无关，只是把它记录下来Spark Streaming UI上一组统计数字的含义 StreamingStarted at: 1433563238275(Spark Streaming开始运行的时间)Time since start: 3 minutes 51 seconds（Spark S...

2015-06-06 12:22:34 483

原创【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

以如下代码为例（SocketInputDStream）：Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据的流转...

2015-06-06 11:02:13 1472

原创【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Mast...

2015-06-06 10:36:38 152

原创【Spark九十七】RDD API之aggregateByKey

1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type, U, than the ...

2015-06-01 21:09:40 282

原创【Spark九十六】RDD API之combineByKey

1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明： /**...

2015-06-01 20:39:39 108

原创【Java命令九】jar命令

1. 不解压的前提下，列出jar包中包含的内容，比如class等 jar tf jar文件路径

2015-05-31 10:47:14 160

原创【Java命令三】jps

jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -helpusage: jps [-help] jps [-q] [-mlvV] [<hostid>]Definitions: <hostid>: <hostname>[:&lt...

2015-05-31 10:44:27 152

原创【Hadoop十五】Hadoop Counter

1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of large read ...

2015-05-30 16:49:29 255

原创【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析

#!/bin/bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information ...

2015-05-23 14:02:39 155

原创【Mahout一】基于Mahout 命令参数含义

1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathname ...

2015-05-23 13:30:04 309

Hadoop权威指南第三版(英语原版)

HBase权威指南英文版

空空如也