为了九亿少女的期待-CSDN博客

原创史上最全的spark面试题——持续更新中

1.spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合Dataset：就是一个集合，用于存放数据的Destributed：分布式，可以并行在集群计算Resilient：表示弹性的，弹性表示1.RDD中的数据可以存储...

2018-09-09 16:34:10 67732 7

原创 SparkStreaming介绍以及演示示例程序

简介：SparkStreaming是spark的一个模块，进行实时流数据的处理，如何处理呢，就是把数据流沿用一系列的批次数据，然后用DStream的抽象封装那么DStream是什么呢？RDD + 时间 = 有一个抽象的DStream，代表一个连续的数据流我们都知道，spark的抽象是RDD，用SparkContext抽象进行封装，sparkSQL的抽象是DataSet/DataFrame，...

2018-09-03 17:11:10 737

原创用Spark写出的内容存储到MySQL中

def data2MySQL (it: Iterator[(String,Int)])={ //一个迭代器代表一个分区，分区中有多条数据 //先获得一个JDBC连接 val conn: Connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/bigdata?characterEncoding...

2018-08-29 22:01:48 581

原创 Scala中的二分查找法

def binarySerch(lines:Array[(Long,Long,String)],ip:Long):Int = { var low = 0 var high = lines.length-1 while (low <= high){ val middle = (low+high)/2 if((ip >= lines(middle)._1) &...

2018-08-29 21:59:40 1415 2

原创将String类型的IP地址转换成Long类型

def ip2Long(ip:String):Long = { val fragments = ip.split("[.]") var ipNum = 0L for (i<-0 until fragments.length){ ipNum = fragments(i).toLong | ipNum << 8L } ipNum}

2018-08-29 21:58:12 672

原创 Scala高级语法之隐式（implicit）详解

implicit（隐式转换数据类型）定义一个变量a，数据类型是Int类型，但是我们赋予的值是3.12，所以它会报错，那么我们现在写一个方法那么现在就定义成功了，所以这就是隐式转换，编译器自动转换使用这个命令可以查看Scala中的隐式转换然后我们开始介绍一下这个implicit隐式掌握implicit的用法是阅读spark源码的基础，也是学习Scala其他的开源...

2018-08-24 18:00:35 2005

原创 Scala中数组和集合的基本API语法

数组在Scala中，数组分为定长数组（Array）和变长数组(ArrayBuffer)* 定长数组指的是：长度不可变，内容可变* 变长数组指的是：长度可变，内容可变首先，我们检查一下内容是否可变：我们可以看到内容是可变的，那么长度呢？那么数组的长度是不可变的；我们现在来定义一个可变长数组：首先内容是可变的那么长度是否可变：我们可以看到，长度也是可变的，所以ArrayBuffer是...

2018-08-21 16:03:37 563

原创 Scala环境配置以及基本语法

1.进Scala的官网，点击下载2.选择要下载的是msi还是zip3.我选择的是msi，然后进行手动安装；4.环境搭建：（1）环境变量的配置：首先配置一个SCALA_HOME（2）然后配置PATH（3）测试出现上图就表示成功5.数据类型Scala 和 Java 一样，有 7 种数值类型 Byte、Char、Short、Int、Long、Flo...

2018-08-18 22:35:41 347

转载带宽，线速以及吞吐量的概念

带宽带宽应用的领域非常多，可以用来标识信号传输的数据传输能力、标识单位时间内通过链路的数据量、标识显示器的显示能力。1、在模拟信号系统又叫频宽，是指在固定的时间可传输的资料数量，亦即在传输管道中可以传递数据的能力。通常以每秒传送周期或赫兹(Hz)来表示。 2、在数字设备中，带宽指单位时间能够通过链路的数据量。通常以bps来表示，即每秒可传输之位数。线速线速指网络设备交换转发能力...

2018-08-17 18:16:45 2580

前文：之前写了一篇高可用HA的namenode运行机制，那么今天我们来配置一下HA的环境，想详细看一下HA原理的可以在上一篇文章中查看，首先需要声明的是我的主机名是sparkKing-master，两个从节点是sparkKing-salve，sparkKing-salve02，所以这里请大家看到这几个词的时候，不要怀疑自己看到了个什么玩意儿，就是我当初傻了吧唧，为了装13起名的。好，现在开始配置！...

2018-08-16 23:07:41 590 1

原创高可用HA的namenode运行机制

先给大家看一张图：那么下面我再详细介绍一下：hdfs 是一个分布式文件系统，有namenode和datanode，我们都知道，一旦namenode荡机，整个集群就会瘫痪，那么这个问题怎么处理：一般我们都会有两个namenode，我们知道有一个secondary namenode，但是我们知道这个namenode并不能执行namenode的功能，他只是帮namenode做操作日...

2018-08-15 16:41:26 1110

原创 phoneix的安装部署以及使用

1.下载在官网http://www.apache.org/dyn/closer.lua/phoenix/中选择提供的镜像站点中下载与安装的HBase版本对应的版本。本地使用的1.3.1，故下载的apache-phoenix-4.11.0-HBase-1.3/的tar.gz包。 2.3 安装配置声明：本人由于之前脑壳子瓦特了，主机名：sparkKi...

2018-08-13 16:27:31 411

原创 HBase的过滤器

比较过滤器因为继承自CompareFilter的过滤器比基类FilterBase多了一个compare()方法，它需要使用传入参数定义比较操作的过程。可用值己经列下表中。比较器CompareFilter所需要的第二类类型是比较器( comparator )，比较器提供了多种方法来比较不同的键值。比较器都继承自WritableByteArrayComparable, WritableBy...

2018-08-13 11:58:34 415

原创 HBase基本API操作（有图有真相）

首先，在写JAVA程序之前要将hbase的jar包准备好：1.命名空间的创建：2.查看所有的表：3.删除命名空间：4.创建表：5.删除表：6.设置表：这是原始的people表，那么我们现在进行更改：7.往表中添加内容：首先我先创建了一张表：现在添加内容：8.循环添加内容：...

2018-08-12 22:19:32 901

原创 HBase基本shell命令

1.进入hbase shell console$HBASE_HOME/bin/hbase shell（可以在profile以及.bash_profile进行全局的配置）如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoa...

2018-08-10 22:01:58 229

转载史上最详细的hadoop环境搭建

史上最详细的Hadoop环境搭建2017年10月10日 15:23:59阅读数：94758GitChat 作者：鸣宇淳原文：史上最详细的Hadoop环境搭建关注公众号：GitChat 技术杂谈，一本正经的讲技术【不要错过文末活动哦】前言Hadoop在大数据技术体系中的地位至关重要，Hadoop是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在...

2018-07-23 10:13:53 877

转载记忆mySQL增删改查

表头(header): 每一列的名称;列(row): 具有相同数据类型的数据的集合;行(col): 每一行用来描述某个人/物的具体信息;值(value): 行的具体信息, 每个值必须与该列的数据类型相同;键(key): 表中用来识别某个特定的人\物的方法, 键的值在当前列中具有唯一性。MySQL脚本的基本组成与常规的脚本语言类似, MySQL 也具有一套对字符、单词以及特殊符号的使用规定, MyS...

2018-07-12 17:39:34 330

为了九亿少女的期待