自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(344)
  • 资源 (2)
  • 收藏
  • 关注

原创 xyz

数据算法:Hadoop/Spark大数据处理技巧https://item.jd.com/11993447.html 图解Spark:核心技术与案例实战https://item.jd.com/12021791.html https://item.jd.com/11889267.htmlHadoop 2.X HDFS源码剖析 Spark大数据分析实战https...

2017-04-22 13:20:50 534

原创 【Spark109】Windows上运行spark-shell

如何在Windows上运行spark-shell 1. 下载winutils.exe,加入放置到d:/software/Hadoop/bin/winutils.exe目录下,注意,winutils.exe文件的上级目录一定是bin2. 开启一个windows命令行窗口,在d:/software/Hadoop/bin目录下执行winutils.exe chmod 777 D:\tmp\...

2016-10-13 18:13:22 1301

原创 【Linux八】查看某个进程的线程数

pstree -p `ps -e | grep cassandra| awk '{print $1}'` | wc -l查看Cassandra进程的线程数 pstree -p | wc -l查看所有的线程数 pstree -p <pid> | wc -l查看指定进程的线程数...

2016-08-25 10:33:23 564

原创 【Scala十九】关于function入参类型逆变,返回结果协变

class CSuper {}class C extends CSuper {}class C2 extends CSuper {}class CSub extends C {}object Scala8 { /*** * * @return */ val func1 : ...

2016-08-20 16:49:16 393

原创 【Hive十九】Hive JDBC URL for Kerberos secured cluster

对于如下的Hive JDBC连接串,!connect jdbc:hive2://hiverserver.node:10000/default;principal=hive/[email protected];kerberosAuthType=kerberos;hive.server2.proxy.user=0e276318a87ced54171884ed765e9962;  使用hi...

2016-06-08 11:22:31 684

原创 【Hadoop二十一】Hadoop ProxyUser

关于Hadoop ProxyUser的出现动机,参看https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/Superusers.html 线上环境做了如下配置  <!--hadoop proxyuser-->  <property>    <name>...

2016-06-08 10:49:37 2345

原创 【Hadoop二十】WebHDFS

访问地址是 http://hadoop.bit.com:50070/webhdfs/v1/user?op=LISTSTATUS 其中的user是HDFS上的文件路径/user, HTTP REST API的详细信息参看https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/WebHDFS....

2016-06-08 10:32:09 190

原创 【Hadoop十九】HDFS权限设置

1.hdfs权限检查启用,需要在hdfs-site.xml中做如下配置:      <property>    <name>dfs.permissions.enabled</name>    <value>true</value> 1.1. 默认情况下,用户在HDFS上创建的文件和目录的权限是rwxr-xr-x,即...

2016-06-08 08:47:22 1627 2

原创 【Hive十八】Hive QL中使用配置的变量

1. 使用set命令,设置参数hive>set XYZ=abchive>select * from t1 where line = '${hiveconf:XYZ}' 等价于 hive>set XYZ=’abc‘hive>select * from t1 where line = ${hiveconf:XYZ} 2.以hive --hi...

2016-05-27 13:21:40 193

原创 【Linux命令七】tar命令

1. 创建tar包,对目录打包tar czvf localdir.tar.gz localdir 2. 不解压的情况下,查看tar.gz包的内容tar ft localdir.tar.gz注意ft是没有-的,这个跟jar ft abc.jar的格式一样...

2016-05-26 17:57:09 222

原创 【Linux命令六】CP命令

建立如下的目录结构:.└── d1    ├── d10    │   └── scheduler-center.log    └── result.json 1. 执行如下命令cp d1 d2那么报错,cp: 略过目录"d1",并且当前目录下并没有d2目录 2. cp -r d1 d2...

2016-05-26 07:52:47 214

原创 【Linux命令五】SCP命令

SCP命令可以将本机的一个文件复制到远程指定目录下,也可以将本机的一个目录递归复制到远程的指定目录下,远程递归复制很重要,比如对于hadoop集群,在一台机器上配置完成,需要将整个目录复制到远程各个节点 scp  -r localdir hadoop@localhost:/home/hadoop/learninglinux/ddd 以上命令将本机的localdir递归复制到...

2016-05-26 07:45:34 715

原创 【Linux命令四】SSH命令

ssh命令在分布式集群环境下很重要,可以用于在一台机器XYZ上通过将要执行的shell脚本分发各个节点机器,然后通过ssh命令,在XYZ这台机器上,远程执行各个节点上的这个脚本, 1. 如果要远程执行的命令很多很长,可以写一个脚本,然后首先分发这个脚本,再执行这个脚本ssh可以借助for循环依次执行下面的语句,从而达到在各个节点执行a.sh的目的REMOTE_HOST=local...

2016-05-26 07:40:57 253

原创 【Hive十七】Hive Thrift Server HA配置

<property>    <name>hive.server2.support.dynamic.service.discovery</name>    <value>true</value>  </property>  <property>    <name>hive.server

2016-05-24 11:14:19 412

原创 【Hive十六】Hive SQL Standard Based Hive Authorization

启用授权选项,默认是false,后面的授权操作基于此选项为true进行set hive.security.authorization.enabled=true========================基于用户的授权===============================获取当前用户set system:user.name授权在指定库下面删除表grant drop on database...

2016-05-24 10:57:39 237

原创 【Hive十五】Hive IO相关

1. Hadoop配置压缩算法(Hadoop的配置属性,Hive读取core-site.xml文件中的配置,可以再hive-site.xml中配置以覆盖Hadoop中的配置)key: io.compression.codecsvalue:org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCode...

2016-05-24 10:10:28 367

原创 【Spark109】yarn命令相关

1. 杀死一个运行在Yarn上的application yarn application -kill application_1428487296152_25597  2 

2015-09-07 18:13:31 145

原创 【Spark108】Spark SQL动态代码生成四

 日志: 2015-09-02 14:46:27,765-[TS] DEBUG Executor task launch worker-3 org.apache.spark.sql.execution.joins.SortMergeJoin - Creating Projection: List(classId#2), inputSchema: List(stuId#0, stuNa...

2015-09-02 18:07:46 300

原创 【Spark107】Spark SQL动态代码生成三

代码 2015-09-02 14:46:27,226-[TS] DEBUG Executor task launch worker-1 org.apache.spark.sql.catalyst.expressions.codegen.GenerateSafeProjection - code for input[0, StringType],input[1, StringType],i...

2015-09-02 18:04:27 392

原创 【Spark106】Spark SQL动态代码生成二

代码 public SpecificOrdering generate(org.apache.spark.sql.catalyst.expressions.Expression[] expr) { return new SpecificOrdering(expr);}class SpecificOrdering extends org.apache.spark.sql....

2015-09-02 18:02:45 357

原创 【Spark105】Spark SQL动态代码生成一

 2015-09-02 14:46:27,681-[TS] DEBUG Executor task launch worker-0 org.apache.spark.sql.catalyst.expressions.codegen.GenerateUnsafeProjection - code for input[0, StringType],input[1, StringType],in...

2015-09-02 18:01:38 960

原创 【Hadoop十七】HDFS HA配置

基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。 测试环境有三台hadoop.masterhadoop.slave1hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper,DFSZKFailoverControllerhadoop...

2015-06-13 15:53:13 184

原创 【Hadoop十六】Capacity Scheduler

在Hadoop2.5.2中,默认的资源调度器默认使用的算法是计算能力调度器,配置文件位于/etc/hadoop/capacity-scheduler.xml,不做任何修改,它的配置文件内容如下,默认配置中显示了一些可用的配置参数以及这些配置参数的默认值,以及这些配置参数的含义 <configuration> <property> <na...

2015-06-13 13:14:02 118

原创 【Scala十八】视图界定与上下文界定

Context Bound,上下文界定,是Scala为隐式参数引入的一种语法糖,使得隐式转换的编码更加简洁。 隐式参数首先引入一个泛型函数max,用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型,只有运行时才会代入真正的类型,因此调用a > b是不正确的,因...

2015-06-13 11:48:56 343

原创 【Spark104】Spark源代码构建打包

 1. 带有ganglia的二进制包,打包成tgz指定参数--tgz./make-distribution.sh --name 2.4.0 --tgz -Phadoop-2.4 -Dhadoop.version=2.4.0 -Pyarn -Phive -Phive-0.13.1 -Phive-thriftserver -Pspark-ganglia-lgpl -DskipTests...

2015-06-11 09:09:16 143

原创 【Spark103】Task not serializable

Task not serializable是Spark开发过程最令人头疼的问题之一,这里记录下出现这个问题的两个实例,一个是自己遇到的,另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在,至少目前阶段碰到此类问题,没有什么章法1. package spark.examples.s...

2015-06-08 20:16:34 359

原创 【Scala十七】Scala核心十一:下划线_的用法

下划线_在Scala中广泛应用,_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方,本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用scala> val list = List(-3,8,7,9)list: List[Int] = List(-3, 8, 7, 9)scala> list.filter(_ > 7)res...

2015-06-07 13:36:44 560

原创 【Scala十六】Scala核心十:柯里化函数

本篇文章重点说明什么是函数柯里化,这个语法现象的背后动机是什么,有什么样的应用场景,以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数A way to write functions with multiple parameter lists. For instancedef f(x: Int)(y: Int) is a c...

2015-06-07 12:01:31 801

原创 【Spark102】Spark存储模块BlockManager剖析

Spark围绕着BlockManager构建了存储模块,包括RDD,Shuffle,Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构,即Driver上BlockManager充当了Master角色,而各个Slave上(具体到应用范围,就是Executor)的BlockManager充当了Slave...

2015-06-06 16:23:26 152

原创 【Spark101】Scala Promise/Future在Spark中的应用

Promise和Future是Scala用于异步调用并实现结果汇集的并发原语,Scala的Future同JUC里面的Future接口含义相同,Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景,具体参见Scala在线文档:http://docs.scala-lang.org/sips/completed/futures-promises.ht...

2015-06-06 15:42:21 432

原创 【Spark100】Spark Streaming Checkpoint的一个坑

Spark Streaming UI这块是本篇额外的内容,与主题无关,只是把它记录下来Spark Streaming UI上一组统计数字的含义 StreamingStarted at: 1433563238275(Spark Streaming开始运行的时间)Time since start: 3 minutes 51 seconds(Spark S...

2015-06-06 12:22:34 483

原创 【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

 以如下代码为例(SocketInputDStream):Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中,撇开异常情况不谈(Receiver有重连机制,restart方法,默认情况下在Receiver挂了之后,间隔两秒钟重新建立Socket连接),读取到的数据通过调用store(textRead)方法进行存储。数据的流转...

2015-06-06 11:02:13 1472

原创 【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

在分析源代码之前,首先对Standalone Cluster Mode的资源调度有一个基本的认识:首先,运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下,Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU,这就需要Mast...

2015-06-06 10:36:38 152

原创 【Spark九十七】RDD API之aggregateByKey

1. aggregateByKey的运行机制  /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type, U, than the ...

2015-06-01 21:09:40 282

原创 【Spark九十六】RDD API之combineByKey

1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API,这些API封装在PairRDDFunctions类中,通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一 首先看一下combineByKey的方法说明: /**...

2015-06-01 20:39:39 108

原创 【Java命令九】jar命令

1. 不解压的前提下,列出jar包中包含的内容,比如class等 jar tf jar文件路径  

2015-05-31 10:47:14 160

原创 【Java命令三】jps

jps很简单,用于显示当前运行的Java进程,也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -helpusage: jps [-help] jps [-q] [-mlvV] [<hostid>]Definitions: <hostid>: <hostname>[:&lt...

2015-05-31 10:44:27 152

原创 【Hadoop十五】Hadoop Counter

  1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of large read ...

2015-05-30 16:49:29 255

原创 【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析

#!/bin/bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information ...

2015-05-23 14:02:39 155

原创 【Mahout一】基于Mahout 命令参数含义

1. mahout seqdirectory  $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathname ...

2015-05-23 13:30:04 309

Hadoop权威指南第三版(英语原版)

Hadoop权威指南第三版(英语原版),高清晰版,对想学习Hadoop的同学很有帮助

2014-07-24

HBase权威指南英文版

HBase权威指南

2014-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除