自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

自由幻想的博客

吾亦无他,为熟能尔

  • 博客(18)
  • 收藏
  • 关注

原创 linux下的mysql安装

参考:https://blog.csdn.net/liu_yulong/article/details/503284471.首先确定以前是否有安装mysql。 rpm -qa | grep -i mysql; rpm -e --nodeps ....(删除所有mysql的软件)2.mysql 的安装目录 /var/lib/mys...

2019-12-14 13:28:16 147

原创 hadoop集群参数修改--以及start-all.sh无法启动resourcemanager的问题

hadoop集群参数修改:1.hadoop-env.sh 修改jdk的路径 2.core-site.xml <!-- hdfs的文件系统指定 --> <property> <name>fs.defaultFS</name> <value>hdfs://centos1:9000</...

2019-12-04 16:35:48 864

转载 java中单例模式的懒汉式写法

import java.io.IOException;import java.util.Properties;/** * 功能:可以为别人提供一个唯一的properties对象 * 单例模式:懒汉式的写法。考虑了多线程情况下的线程安全问题。 * */public class PropsHolder { private static Properties prop; pub...

2018-02-08 21:57:21 480

转载 scala中使用fastjson来解析字符串

import com.alibaba.fastjson.JSONobject JsonDemo {  def main(args: Array[String]) {    val text = "{\"name\":\"name1\", \"age\":55,\"fv"\:"22"}"    val json = JSON.parseObject(text)   

2018-02-07 13:25:11 4319 1

原创 sparkstreaming整合kafka参数设置,message偏移量写入redis

kafka高级数据源拉取到spark,偏移量自我维护写入到redis,建立redis连接池。需要导入groupId>org.apache.sparkgroupId>artifactId>spark-streaming-kafka-0-10_2.11artifactId>version>2.2.1version>dependency>导入redis的客户端的java的

2018-02-05 16:13:29 1601 2

原创 sparkstreaming整合kafka参数设置,message偏移量写入mysql

kafka高级数据源拉取到spark,偏移量自我维护,借助scalikejdbc写入到mysql。需要导入dependency>groupId>org.scalikejdbcgroupId>artifactId>scalikejdbc_2.11artifactId>version>2.5.0version>dependency>dependency>groupI

2018-02-05 16:05:20 3494 2

原创 scalikejdbc框架对mysql数据库进行增删改查,事务创建

1.在scala中想要操作mysql数库中的数据,可以使用scalikejdbc。2.导入依赖。3.在resource文件中添加application.conf文件。然后配置参数。db.default.driver="com.mysql.jdbc.Driver"db.default.url="jdbc:mysql://localhost:3306/bbs?characterEnc

2018-02-04 21:04:22 1557

原创 kafka命令行使用

*****************首先要安装jdk,zookeeper集群,kafka集群。******************启动kafka集群是先要启动zookeeper集群的:/bigdata/apps/zookeeper-3.4.6/bin/zkServer.sh startkafka集群的启动:/bigdata/apps/kafka_2.11-0.10.2.1/bin/kafka-ser...

2018-02-03 23:45:11 426

原创 spark streaming实时流式处理wordcount,数据写出到redis

Spark Streaming是spark的一个组件,可以对实时流式数据进行数据处理,数据的基本操作对象是DStream.DStream是一系列的RDDs。这个对象将流式的数据按时间切分为一系列的rdd的数据文件。然后就对数据进行处理。rdd=DStrema At Batch Time。 思想:创建对象ssc,实时读取文件,处理,输出结果写出到redis(建立连接redis)可以设计到

2018-02-01 23:07:19 5193

原创 spark-SQL的数据源的读写--jdbc--parquet--json--CSV

关于spark-sql的读写文件的方法,数据源分为这几类:1.jdbc连接mysql的文件的读写//从mysql中读取数据,需要指定表,驱动类。 val url = "jdbc:mysql://localhost:3306/bbs?characterEncoding=utf-8" val tname = "t_acc_Ip" val conn = new Propertie...

2018-01-31 22:03:56 656

原创 spark-sql使用UDF函数实现ip映射省份,数据写出到mysql参数设置。

spark-SQL使用广播变量以及应用数据库的UDF自定义函数的查询会比两张表的连接更加的优化的程序的执行。两表连接是比较费效率的。spar-sql 2.x的数据读取,处理,添加schema信息,常见表,SQL查询。将sql结果输出到mysql的api参数设置。 还可以创建时设置参数:val conf = new SparkConf() .set("spark.

2018-01-31 20:25:07 1568

原创 spark-sql 1.x版本与2.x版本的wordcount实现

spark-sql的操作对象由dataframe变为了datasetspark-sql是spark的一个组件,可以在spark程序中进行SQL查询。是一个分布式的sql查询引擎。spark-sql在1.3的版本中开始使用dataframe对象,来对数据进行操作。dataframe=rdd+schema语法风格分为两种:SQL语法风格:dataframe对象注册虚拟表后查询,DSL语法风格dataf...

2018-01-29 22:13:53 499

原创 Spark中ip映射数据应用库,二分查找省份,将结果写入mysql

需求:* 根据数据应用库,查找ip对应的省份,将数据写出到mysql。(二分查找方法)* 使用广播变量进行执行优化。import java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.

2018-01-28 23:17:53 780 1

原创 Spark的高可用机制HA

1.安装zookeeper集群,修改配置文件,之后启动zookeeper的服务。之后使用命令zkServer.sh start分别启动你的每台机器上面的zk服务。可以使用命令zkServer.sh status查看状态。2.已经安装好spark集群。在配置文件中修改一些配置,将master的信息注册在你的zookeeper的集群上。具体的命令是:export SPA

2018-01-28 20:04:00 746

原创 linux时间同步命令

--:ntpdate us.pool.ntp.org同时还有其他的服务器:1.cn.pool.ntp.org2.cn.pool.ntp.org3.cn.pool.ntp.org另外可以直接设置: date -s "2018-01-01 12:00:00"在设置集群的时候要保证集群的时间是一致的(尤其是在使用分布式系统,例如HBASE的时候,确保时间一致性,否...

2018-01-28 19:27:13 13206

原创 Spark中自定义分区器实现shuffle

Spark中实现了两种类型的分区函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangPartitioner。只对于key--value的的RDD才有Partitioner。决定shuffle后的分区输出数量。同时我们可以自定义Partitioner。  import java.net.URLimport org.apache.spark.rdd

2018-01-27 23:18:11 1783 1

原创 Scala的两种比较器Ordered于Ordering

scala中想要实现对一组自定义对象的排序,使用比较器的实现1.自定义对象实现特质Ordered,同时实现Serializable的序列化import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Created by hqs on 2018/1/27. *

2018-01-27 22:31:49 1801

原创 Spark中master与worker的进程通信实现

1.构建master的actorpackage SparkRPCimport akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport scala.collection.mutable/** * Created by hqs on 2018/1/24. * 1.

2018-01-27 22:05:02 2492 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除