自由幻想的人儿-CSDN博客

原创 linux下的mysql安装

参考：https://blog.csdn.net/liu_yulong/article/details/503284471.首先确定以前是否有安装mysql。 rpm -qa | grep -i mysql; rpm -e --nodeps ....(删除所有mysql的软件)2.mysql 的安装目录 /var/lib/mys...

2019-12-14 13:28:16 147

原创 hadoop集群参数修改--以及start-all.sh无法启动resourcemanager的问题

hadoop集群参数修改：1.hadoop-env.sh 修改jdk的路径 2.core-site.xml  <property> <name>fs.defaultFS</name> <value>hdfs://centos1:9000</...

2019-12-04 16:35:48 864

转载 java中单例模式的懒汉式写法

import java.io.IOException;import java.util.Properties;/** * 功能：可以为别人提供一个唯一的properties对象 * 单例模式：懒汉式的写法。考虑了多线程情况下的线程安全问题。 * */public class PropsHolder { private static Properties prop; pub...

2018-02-08 21:57:21 480

转载 scala中使用fastjson来解析字符串

import com.alibaba.fastjson.JSONobject JsonDemo { def main(args: Array[String]) { val text = "{\"name\":\"name1\", \"age\":55，\"fv"\:"22"}" val json = JSON.parseObject(text)

2018-02-07 13:25:11 4319 1

原创 sparkstreaming整合kafka参数设置，message偏移量写入redis

kafka高级数据源拉取到spark，偏移量自我维护写入到redis,建立redis连接池。需要导入groupId>org.apache.sparkgroupId>artifactId>spark-streaming-kafka-0-10_2.11artifactId>version>2.2.1version>dependency>导入redis的客户端的java的

2018-02-05 16:13:29 1601 2

原创 sparkstreaming整合kafka参数设置，message偏移量写入mysql

kafka高级数据源拉取到spark，偏移量自我维护，借助scalikejdbc写入到mysql。需要导入dependency>groupId>org.scalikejdbcgroupId>artifactId>scalikejdbc_2.11artifactId>version>2.5.0version>dependency>dependency>groupI

2018-02-05 16:05:20 3494 2

原创 scalikejdbc框架对mysql数据库进行增删改查，事务创建

1.在scala中想要操作mysql数库中的数据，可以使用scalikejdbc。2.导入依赖。3.在resource文件中添加application.conf文件。然后配置参数。db.default.driver="com.mysql.jdbc.Driver"db.default.url="jdbc:mysql://localhost:3306/bbs?characterEnc

2018-02-04 21:04:22 1557

*****************首先要安装jdk，zookeeper集群，kafka集群。******************启动kafka集群是先要启动zookeeper集群的：/bigdata/apps/zookeeper-3.4.6/bin/zkServer.sh startkafka集群的启动：/bigdata/apps/kafka_2.11-0.10.2.1/bin/kafka-ser...

2018-02-03 23:45:11 426

原创 spark streaming实时流式处理wordcount，数据写出到redis

Spark Streaming是spark的一个组件，可以对实时流式数据进行数据处理，数据的基本操作对象是DStream.DStream是一系列的RDDs。这个对象将流式的数据按时间切分为一系列的rdd的数据文件。然后就对数据进行处理。rdd=DStrema At Batch Time。思想：创建对象ssc，实时读取文件，处理，输出结果写出到redis（建立连接redis）可以设计到

2018-02-01 23:07:19 5193

原创 spark-SQL的数据源的读写--jdbc--parquet--json--CSV

关于spark-sql的读写文件的方法，数据源分为这几类：1.jdbc连接mysql的文件的读写//从mysql中读取数据，需要指定表，驱动类。 val url = "jdbc:mysql://localhost:3306/bbs?characterEncoding=utf-8" val tname = "t_acc_Ip" val conn = new Propertie...

2018-01-31 22:03:56 656

原创 spark-sql使用UDF函数实现ip映射省份，数据写出到mysql参数设置。

spark-SQL使用广播变量以及应用数据库的UDF自定义函数的查询会比两张表的连接更加的优化的程序的执行。两表连接是比较费效率的。spar-sql 2.x的数据读取，处理，添加schema信息，常见表，SQL查询。将sql结果输出到mysql的api参数设置。还可以创建时设置参数：val conf = new SparkConf() .set("spark.

2018-01-31 20:25:07 1568

原创 spark-sql 1.x版本与2.x版本的wordcount实现

spark-sql的操作对象由dataframe变为了datasetspark-sql是spark的一个组件，可以在spark程序中进行SQL查询。是一个分布式的sql查询引擎。spark-sql在1.3的版本中开始使用dataframe对象，来对数据进行操作。dataframe=rdd+schema语法风格分为两种：SQL语法风格：dataframe对象注册虚拟表后查询，DSL语法风格dataf...

2018-01-29 22:13:53 499

原创 Spark中ip映射数据应用库，二分查找省份，将结果写入mysql

需求：* 根据数据应用库，查找ip对应的省份，将数据写出到mysql。（二分查找方法）* 使用广播变量进行执行优化。import java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.

2018-01-28 23:17:53 780 1

原创 Spark的高可用机制HA

1.安装zookeeper集群，修改配置文件，之后启动zookeeper的服务。之后使用命令zkServer.sh start分别启动你的每台机器上面的zk服务。可以使用命令zkServer.sh status查看状态。2.已经安装好spark集群。在配置文件中修改一些配置，将master的信息注册在你的zookeeper的集群上。具体的命令是：export SPA

2018-01-28 20:04:00 746

原创 linux时间同步命令

--：ntpdate us.pool.ntp.org同时还有其他的服务器：1.cn.pool.ntp.org2.cn.pool.ntp.org3.cn.pool.ntp.org另外可以直接设置： date -s "2018-01-01 12:00:00"在设置集群的时候要保证集群的时间是一致的（尤其是在使用分布式系统，例如HBASE的时候，确保时间一致性，否...

2018-01-28 19:27:13 13206

原创 Spark中自定义分区器实现shuffle

Spark中实现了两种类型的分区函数，一个是基于哈希的HashPartitioner,另外一个是基于范围的RangPartitioner。只对于key--value的的RDD才有Partitioner。决定shuffle后的分区输出数量。同时我们可以自定义Partitioner。 import java.net.URLimport org.apache.spark.rdd

2018-01-27 23:18:11 1783 1

原创 Scala的两种比较器Ordered于Ordering

scala中想要实现对一组自定义对象的排序，使用比较器的实现1.自定义对象实现特质Ordered，同时实现Serializable的序列化import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Created by hqs on 2018/1/27. *

2018-01-27 22:31:49 1801

原创 Spark中master与worker的进程通信实现

1.构建master的actorpackage SparkRPCimport akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport scala.collection.mutable/** * Created by hqs on 2018/1/24. * 1.

2018-01-27 22:05:02 2492 1

自由幻想的博客