圈圈任-CSDN博客

转载 MYSQL级连表查询优化

https://blog.csdn.net/Tim_phper/article/details/78344444?locationNum=9&fps=1https://blog.csdn.net/Tim_phper/article/details/78357016

2018-04-25 11:21:20 226

在 HDFS 中，DataNode 将数据块存储到本地文件系统目录中，具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中，一般都会配置多个目录，并且把这些目录分别配置到不同的设备上，比如分别配置到不同的HDD（HDD的全称是Hard Disk Drive）和SSD（全称Solid State Drives，就是我们熟悉的...

2018-04-23 10:56:41 1849

原创 Linux批量删除文件

一、删除几个文件 rm 文件1 文件2 删除文件夹下面所有文件 rm * -rf 删除某些固定字母开头的文件 rm xxx* 删除一类文件 rm *.txt二、利用命令：find . -name "*.c" | xargs rm -rf发现当前文件夹及其子目录下面都没有了.c文件。三、假设要删除的目录/manyfiles下面有大量的文件...

2018-04-18 11:28:17 13159

原创 Spark Streaming 中管理 Kafka Offsets 的几种方式

Offset管理概述Spark Streaming集成了Kafka允许用户从Kafka中读取一个或者多个topic的数据。一个Kafka topic包含多个存储消息的分区（partition）。每个分区中的消息是顺序存储，并且用offset（可以认为是位置）来标记消息。开发者可以在他的Spark Streaming应用中通过offset来控制数据的读取位置，但是这需要好的offset的管理机制。O...

2018-04-17 17:32:14 304

原创谈谈反向代理Nginx

一、先讲个故事很久以前，老王去饭店吃饭，需要先到饭店，七荤八素点好菜，坐等饭菜上桌，然后大快朵颐，不亦乐乎。有了第三方订餐外卖平台（代理），老王懒得动身前往饭店，老王打个电话或用APP，先选好某个饭店，再点好菜，外卖小哥会送上门来。由于某个品牌的饭店口碑特别好，食客络绎不绝涌入，第三方订餐电话也不绝于耳，但是限于饭店接待能力有限，无法提供及时服务，很多食客等得不耐烦了，纷纷铩羽而归，饭店老总看着煮...

2018-04-16 15:40:19 137

原创关于java时间规则设置

一、maven的pom.xml中配置 <dependency> <groupId>org.quartz-scheduler</groupId> <artifactId>quartz</artifactId> <ve...

2018-03-30 13:57:08 667

原创 Python之模块

一、Python内部模块（1）废话不多说直接上例子import math #导入math模块# 导入该模块后就拥有了math这个变量指向这个模块，那么利用math这个变量就可以访问math模块的所有功能def modelTest(): l=[1.0, 2.3, 3.3, 4.3, 5.1] a=math.fsum(l) print len(l) if len(...

2018-03-08 11:09:26 92

原创 python装饰器

一、装饰器：（1）在说装饰器之前，请先搞懂高阶函数，嵌套函数，匿名函数，函数式编程；（附带链接：http://blog.csdn.net/weixin_41076809/article/details/79455192）（2）再清楚这个#首先def foo(): print 'foo' foo # 表示是函数foo() # 表示执行foo函数#接着def foo(): ...

2018-03-06 16:29:28 128

原创 python的嵌套函数，递归，匿名函数，函数式编程，高阶函数，内置函数

一、嵌套函数：说白了就是函数内部套了另外一个函数，既然函数套函数，那就有内部函数和外部函数之分（1）注意，内部函数不能被外部直接使用（2）在外部函数中不能使用内部函数的参数，特别是在外部返回函数时，不能附带内部函数的参数举例：def outer(x): def inner(y): return x*y return innerprint outer(1)(2)#...

2018-03-06 11:55:02 353

原创建立SBT项目要点

一、首先安装scala，配置本机的环境变量（注意，scala版本和spark版本的匹配性）二、在IDEl中，file——settings——plungs——搜索scala进行install下载三、再搜索sbt进行install，这里要注意sbt的版本选0.13四、下载好后，在本机的用户路径C:\Users\jado\.sbt下添加文件repositories（一般路径为：C:\Users\jado...

2018-03-05 15:01:32 236

原创关于spark-evn.sh的配置（里面有worker的设置）

一、在终端程序输入命令：sudo gedit /usr/local/spark/conf/spark-env.sh（用gedit打开spark-env.sh的文件）打开后找到：export SPARK_MASTER_IP=master（设置master的IP或者服务器名称）export SPARK_WORKER_CORES=1（设置每个Worker使用的CPU核心）export SPARK_WOR...

2018-03-01 09:38:22 476

原创 Broadcast广播变量

一、共享变量可以节省内存与运行时间，提高并行处理的执行效率，共享变量包括：（1）Broadcast广播变量（2）accumulator累加器二、广播变量使用规则：1、可以使用SparkContext.broadcast（[初始值]）创建2、使用.value的方法读取广播变量的值3、广播变量被创建后，不可以被修改例如：val kvFruit = sc.parallelize(list((1,"app...

2018-02-28 16:30:05 1235

原创关于spark-evn.sh的配置（里面有worker的设置）

一、在终端程序输入命令：sudo gedit /usr/local/spark/conf/spark-env.sh（用gedit打开spark-env.sh的文件）打开后找到：export SPARK_MASTER_IP=master（设置master的IP或者服务器名称）export SPARK_WORKER_CORES=1（设置每个Worker使用的CPU核心）export SPARK_WOR...

2018-02-28 11:56:39 2900

原创 Hadoop+Spark+Hbase单节点安装详解

环境（举例）操作系统版本：SUSE Linux Enterprise Server 11 (x86_64) SP3IP：192.168.0.23主机名：HADOOP软件路径：/data/installHadoop集群路径：/dataJAVA_HOME路径：/usr/jdk1.8.0_66 版本组件名版本说明 JRE java version "1.8.0_66" Java(TM) SE...

2018-02-28 11:15:56 1295

原创 Hadoop+Spark集群安装步骤详解

一、环境：操作系统版本：SUSE Linux Enterprise Server 11 (x86_64) SP3主机名：192.168.0.10 node1192.168.0.11 node2192.168.0.12 node3192.168.0.13 node4 软件路径：/data/installHadoop集群路径：/dataJAVA_HOME路径：/usr/jdk1...

2018-02-28 11:12:40 708

原创关于Spark的local[N]

local[N]代表在本地运行，使用N个线程，也就是说可以同时执行N个程序，虽然在本地运行，但是因为cpu大多是多个核心，所以使用多个线程会加速执行，那么local[4]就代表4个线程...

2018-02-28 10:49:17 2515

原创 Spark的Cluster模式架构图

一、在Spark的官网文件中，可以看到Spark的Cluster模式架构图，浏览器输入:https://spark.apache.org/docs/latest/cluster-overview.html（1）DriverProgram 就是程序员设计的Spark程序，在Spark中必须定义SparkContext，它是开发Spark应用程序的入口（2）SparkContext是通过Cluster...

2018-02-28 10:44:04 868

原创 apt进行软件包管理,查询java的版本

一、命令：sodu apt-get updata1、在Linux中，可以使用apt进行软件包管理，也可以使用apt-get下载安装软件包，下载安装之前，为了获取最新的软件包版本必须先运行apt-get updata。这个命令会连接到Apt Server,更新最新的软件包信息2、运行apt-get必须具有superuser权限，所以在前面加上sudo例如：使用apt-get安装JDKsudo apt...

2018-02-28 09:51:51 1104 1

原创 Spark机器学习的介绍

一、机器学习架构（1）机器学习通过算法，使用历史数据进行训练，训练完成后会产生模型，未来当有新的数据提供时，我们可以用训练产生的模型进行预测，（2）训练数据是由Features、Label组成 Features：数据的特征，例如湿度，风向，风速，季节，气压Label：数据的标签，也就是我们希望预测的目标，例如（0，不会下雨，1，会下雨）天气（1，晴天；2，雨天；3，阴天；4，下雪）、气温训练阶段：...

2018-02-23 10:43:07 532

原创 windows下检查是否安装了JDK以及查看JDK安装路径 windows下检查是否安装了JDK以及查看JDK安装路径

一、查看是否安装了JDK（1）cmd进入命令窗口（2）输入java -version,出现： java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b14) Java HotSpot(TM) 64-Bit Serve...

2018-02-23 10:17:57 11351

圈圈任

转载 MYSQL级连表查询优化

原创 HDFS 副本存放磁盘选择策略详解

原创 Linux批量删除文件

原创 Spark Streaming 中管理 Kafka Offsets 的几种方式

原创谈谈反向代理Nginx

原创关于java时间规则设置

原创 Python之模块

原创 python装饰器

原创 python的嵌套函数，递归，匿名函数，函数式编程，高阶函数，内置函数

原创建立SBT项目要点

原创关于spark-evn.sh的配置（里面有worker的设置）

原创 Broadcast广播变量

原创关于spark-evn.sh的配置（里面有worker的设置）

原创 Hadoop+Spark+Hbase单节点安装详解

原创 Hadoop+Spark集群安装步骤详解

原创关于Spark的local[N]

原创 Spark的Cluster模式架构图

原创 apt进行软件包管理,查询java的版本

原创 Spark机器学习的介绍

原创 windows下检查是否安装了JDK以及查看JDK安装路径 windows下检查是否安装了JDK以及查看JDK安装路径

空空如也

空空如也