自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

圈圈任

专注做一件事

  • 博客(20)
  • 收藏
  • 关注

转载 MYSQL级连表查询优化

https://blog.csdn.net/Tim_phper/article/details/78344444?locationNum=9&fps=1https://blog.csdn.net/Tim_phper/article/details/78357016

2018-04-25 11:21:20 226

原创 HDFS 副本存放磁盘选择策略详解

在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的...

2018-04-23 10:56:41 1849

原创 Linux批量删除文件

一、删除几个文件 rm 文件1 文件2 删除文件夹下面所有文件 rm * -rf 删除某些固定字母开头的文件 rm xxx*  删除一类文件 rm *.txt二、利用命令:find . -name "*.c" | xargs rm -rf发现当前文件夹及其子目录下面都没有了.c文件。三、假设要删除的目录/manyfiles下面有大量的文件...

2018-04-18 11:28:17 13159

原创 Spark Streaming 中管理 Kafka Offsets 的几种方式

Offset管理概述Spark Streaming集成了Kafka允许用户从Kafka中读取一个或者多个topic的数据。一个Kafka topic包含多个存储消息的分区(partition)。每个分区中的消息是顺序存储,并且用offset(可以认为是位置)来标记消息。开发者可以在他的Spark Streaming应用中通过offset来控制数据的读取位置,但是这需要好的offset的管理机制。O...

2018-04-17 17:32:14 304

原创 谈谈反向代理Nginx

一、先讲个故事很久以前,老王去饭店吃饭,需要先到饭店,七荤八素点好菜,坐等饭菜上桌,然后大快朵颐,不亦乐乎。有了第三方订餐外卖平台(代理),老王懒得动身前往饭店,老王打个电话或用APP,先选好某个饭店,再点好菜,外卖小哥会送上门来。由于某个品牌的饭店口碑特别好,食客络绎不绝涌入,第三方订餐电话也不绝于耳,但是限于饭店接待能力有限,无法提供及时服务,很多食客等得不耐烦了,纷纷铩羽而归,饭店老总看着煮...

2018-04-16 15:40:19 137

原创 关于java时间规则设置

一、maven的pom.xml中配置<!-- 时间调度类 -->        <dependency>            <groupId>org.quartz-scheduler</groupId>            <artifactId>quartz</artifactId>            <ve...

2018-03-30 13:57:08 667

原创 Python之模块

一、Python内部模块(1)废话不多说直接上例子import math #导入math模块# 导入该模块后就拥有了math这个变量指向这个模块,那么利用math这个变量就可以访问math模块的所有功能def modelTest(): l=[1.0, 2.3, 3.3, 4.3, 5.1] a=math.fsum(l) print len(l) if len(...

2018-03-08 11:09:26 92

原创 python装饰器

一、装饰器:(1)在说装饰器之前,请先搞懂高阶函数,嵌套函数,匿名函数,函数式编程;(附带链接:http://blog.csdn.net/weixin_41076809/article/details/79455192)(2)再清楚这个#首先def foo(): print 'foo' foo # 表示是函数foo() # 表示执行foo函数#接着def foo(): ...

2018-03-06 16:29:28 128

原创 python的嵌套函数,递归,匿名函数,函数式编程,高阶函数,内置函数

一、嵌套函数:说白了就是函数内部套了另外一个函数,既然函数套函数,那就有内部函数和外部函数之分(1)注意,内部函数不能被外部直接使用(2)在外部函数中不能使用内部函数的参数,特别是在外部返回函数时,不能附带内部函数的参数举例:def outer(x): def inner(y): return x*y return innerprint outer(1)(2)#...

2018-03-06 11:55:02 353

原创 建立SBT项目要点

一、首先安装scala,配置本机的环境变量(注意,scala版本和spark版本的匹配性)二、在IDEl中,file——settings——plungs——搜索scala进行install下载三、再搜索sbt进行install,这里要注意sbt的版本选0.13四、下载好后,在本机的用户路径C:\Users\jado\.sbt下添加文件repositories(一般路径为:C:\Users\jado...

2018-03-05 15:01:32 236

原创 关于spark-evn.sh的配置(里面有worker的设置)

一、在终端程序输入命令:sudo gedit /usr/local/spark/conf/spark-env.sh(用gedit打开spark-env.sh的文件)打开后找到:export SPARK_MASTER_IP=master(设置master的IP或者服务器名称)export SPARK_WORKER_CORES=1(设置每个Worker使用的CPU核心)export SPARK_WOR...

2018-03-01 09:38:22 476

原创 Broadcast广播变量

一、共享变量可以节省内存与运行时间,提高并行处理的执行效率,共享变量包括:(1)Broadcast广播变量(2)accumulator累加器二、广播变量使用规则:1、可以使用SparkContext.broadcast([初始值])创建2、使用.value的方法读取广播变量的值3、广播变量被创建后,不可以被修改例如:val kvFruit = sc.parallelize(list((1,"app...

2018-02-28 16:30:05 1235

原创 关于spark-evn.sh的配置(里面有worker的设置)

一、在终端程序输入命令:sudo gedit /usr/local/spark/conf/spark-env.sh(用gedit打开spark-env.sh的文件)打开后找到:export SPARK_MASTER_IP=master(设置master的IP或者服务器名称)export SPARK_WORKER_CORES=1(设置每个Worker使用的CPU核心)export SPARK_WOR...

2018-02-28 11:56:39 2900

原创 Hadoop+Spark+Hbase单节点安装详解

环境(举例)操作系统版本:SUSE Linux Enterprise Server 11 (x86_64) SP3IP:192.168.0.23主机名:HADOOP软件路径:/data/installHadoop集群路径:/dataJAVA_HOME路径:/usr/jdk1.8.0_66 版本组件名 版本 说明 JRE java version "1.8.0_66" Java(TM) SE...

2018-02-28 11:15:56 1295

原创 Hadoop+Spark集群安装步骤详解

一、环境:操作系统版本:SUSE Linux Enterprise Server 11 (x86_64) SP3主机名:192.168.0.10    node1192.168.0.11    node2192.168.0.12    node3192.168.0.13    node4 软件路径:/data/installHadoop集群路径:/dataJAVA_HOME路径:/usr/jdk1...

2018-02-28 11:12:40 708

原创 关于Spark的local[N]

local[N]代表在本地运行,使用N个线程,也就是说可以同时执行N个程序,虽然在本地运行,但是因为cpu大多是多个核心,所以使用多个线程会加速执行,那么local[4]就代表4个线程...

2018-02-28 10:49:17 2515

原创 Spark的Cluster模式架构图

一、在Spark的官网文件中,可以看到Spark的Cluster模式架构图,浏览器输入:https://spark.apache.org/docs/latest/cluster-overview.html(1)DriverProgram 就是程序员设计的Spark程序,在Spark中必须定义SparkContext,它是开发Spark应用程序的入口(2)SparkContext是通过Cluster...

2018-02-28 10:44:04 868

原创 apt进行软件包管理,查询java的版本

一、命令:sodu apt-get updata1、在Linux中,可以使用apt进行软件包管理,也可以使用apt-get下载安装软件包,下载安装之前,为了获取最新的软件包版本必须先运行apt-get updata。这个命令会连接到Apt Server,更新最新的软件包信息2、运行apt-get必须具有superuser权限,所以在前面加上sudo例如:使用apt-get安装JDKsudo apt...

2018-02-28 09:51:51 1104 1

原创 Spark机器学习的介绍

一、机器学习架构(1)机器学习通过算法,使用历史数据进行训练,训练完成后会产生模型,未来当有新的数据提供时,我们可以用训练产生的模型进行预测,(2)训练数据是由Features、Label组成 Features:数据的特征,例如湿度,风向,风速,季节,气压Label:数据的标签,也就是我们希望预测的目标,例如(0,不会下雨,1,会下雨)天气(1,晴天;2,雨天;3,阴天;4,下雪)、气温训练阶段:...

2018-02-23 10:43:07 532

原创 windows下检查是否安装了JDK以及查看JDK安装路径 windows下检查是否安装了JDK以及查看JDK安装路径

一、查看是否安装了JDK(1)cmd进入命令窗口(2)输入java -version,出现: java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b14) Java HotSpot(TM) 64-Bit Serve...

2018-02-23 10:17:57 11351

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除