6 点滴笔记

尚未进行身份认证

我要认证

点滴笔记、努力生活、加油!

等级
TA的排名 13w+

Spark | SparkSQL架构

目录SparkSQLDataFrame APIDataFrame & DataSet & RDD 三者区别SparkSQL 组成SparkSQL Catalyst OptimizerTreeTreeNodeQueryPlanExpressionRuleRuleExecutorCatalyst大致流程Referencesspark.version = 2.4.4站在上帝角度学习下SparkSQL架构相关内容SparkSQL...

2020-07-01 15:51:03

1_基础版JDBC-DBHelper扩展(事务及大数据操作)

**1_JDBC-DBHelper基础扩展 **/MyProperties.java/public class MyProperties extends Properties{ private static MyProperties myproperties;private MyProperties(){ InputStream iis = MyProperties.class.

2020-06-30 14:12:50

Spark | 基于源码解析SparkSession初始化过程

Spark.version: 2.4.4Apache Spark 2.0引入了SparkSession,其为用户提供了一个统一的切入点来使用Spark的各项功能,例如不再需要显式地创建SparkConf, SparkContext 以及 SQLContext,因为这些对象已经封装在SparkSession中。另外SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。其次SparkSession通过生成器设计模式(Builder Design Pa

2020-06-28 18:50:36

Spark | SparkSql Insert Overwrite 小文件过多

SparkSql在执行Hive Insert Overwrite Table 操作时,默认文件生成数和表文件存储的个数有关,但一般上游表存储个数并非下游能控制的,这样的话得考虑处理小文件问题。小文件产生原因:spark.sql.shuffle.partitions=200 ,sparksql默认shuffle分区是200个,如果数据量比较小时,写hdfs时会产生200个小文件。可尝试通过以下操作来解决小文件过多问题,如下Shuffle Partition--conf spark.s...

2020-06-22 20:48:16

Flink | Windows环境搭建Local测试模式

首先,Flink官网下载地址 :https://flink.apache.org/downloads.html。环境:Java 8Scala 2.11.8flink-1.6.1-bin-hadoop27-scala_2.11.tgz安装模式: Local1、将flink*.tgz解压到本地目录:D:\CodeSoft\CodeEnvironment\flink-1.6.12、在配置文件.\conf\flink-conf.yaml 修改默认端口(8081),改为9091...

2020-06-12 09:26:00

Flink | 入门实践WordCount

开发Flink程序有固定的流程?1、获取执行环境2、加载/创建初始化数据源3、指定操作是数据的转换算子4、指定计算好的数据存放位置(Sink)5、调用execute()触发执行程序注意: Flink程序也是延迟计算的, 只有最后调用execute()时才会真正触发执行程序Scala基于Flink 批处理实现WordCount,如下:object SocketWordCount { def main(args: Array[String]): Unit = { .

2020-06-11 21:08:47

Spark | 读取Hive表数据写入MySQL

import java.sql.Connectionimport scala.collection.mutable.ArrayBufferobject JdbcTemplateUtil extends Serializable { /** * 单条操作 * @param sql * @param params */ def executeSql(conn: Connection, sql: String, params: ...

2020-06-11 14:38:34

Spark | 记录下Spark作业执行时常见的参数属性配置

Spark CoreSpark StreamingSpark SQL

2020-06-08 15:28:33

Spark | 基础概念

Spark基础核心概念Spark 任务提供多层分解的概念,Spark 组件将用户的应用程序分解为内部执行任务并提供执行容器,资源管理为 Spark 组件提供资源管理和调度。应用程序(Application):应用程序(Application):由一个 Driver Program 和多个 Job 构成。 作业(Job): RDD 中由 Action 操作所生成的一个或多个调度阶,即由多个 Stage 组成。 调度阶段(Stage):也叫作任务集(Task Set),因 RDD 之间依赖关系拆

2020-06-08 14:43:33

Flink | 基础入门小结

待续。。。。。

2020-06-05 16:10:38

Java | 并发包(JUC)

记录下:https://segmentfault.com/a/1190000015558984

2020-03-26 14:01:59

Java | 单例模式中双重校验锁的volatile变量有什么作用?

单例模式的双重校验锁方式如下:/** * 双重校验锁(在饿汉模式基础上进一步优化) * 1、构造方法私有化 * 2、在定义静态对象时加volatile锁来确保初始化时对象的唯一性 * 3、定义获取对象实例方法,并在方法体中通过synchronized(Object)给单例类加锁来保障操作的唯一性 * */class DoubleCheckedLockingSingleton{ ...

2020-03-26 12:34:56

Java | 设计模式-单例模式

/** * 懒汉模式(线程安全) * 1、构造方法私有化 * 2、定义一个私有静态对线instance(静态属性或方法属于类) * 3、定义加锁的静态方法获取该对线(加锁且先检查再执行) * */class LazySingleton{ private static LazySingleton instance; private LazySingleton(){}...

2020-03-26 09:41:36

Python | 将HDFS文件上传到阿里云

# -*- coding: UTF-8 -*- #!/usr/local/bin/python2.7 ##/usr/bin/python #import codecsimport osimport shutilimport json import sys import paramikoimport hashlibimport requestsimport socketi...

2020-03-19 14:17:22

Python | 基于PythonWebHDFS迁移HDFS数据到本地并压缩

先回顾下之前PythonWebHDFS的操作 :基于WebHDFS REST API操作HDFS记录下工作中写过的脚本,如下:1、dateUtile.py: 主要选取需要迁移数据的时间区间。import datetimeimport sysimport os def dateRange(beginDate, endDate): dates = [] dt ...

2020-03-18 18:56:09

Python | Python3 Windows 下载视频

第一步:下载安装Python3,并配置好环境变量等。官网下载地址, https://www.python.org/downloads/windows/下载可执行文件,如下:第二步: "Win+R" 快捷键进入CMD黑框框状态,如下Check:第三步: 通过pip3安装you-get工具:然后按提示在分别执行这两个 更新升级命令:pip3 install...

2020-03-18 18:42:53

Java | TCP的三次握手&四次挥手

TCP数据在传输之前会建立连接需要进行3次沟通,一般被称为"三次握手";在数据传输完成断开连接得时候要进行4次沟通,一般称为"四次挥手"。再来看下TCP报头中得6个标志比特,也就是控制位6位,它们中得多个可以被同时设置为1,如下:控制位 说 明 URG 1:紧急指针有效; 0:忽略紧急指针得值; ACK 1:确认号有效; 0:表示在报文中不...

2020-03-12 10:47:24

Java | JVM调优总结[转]

做个标记:https://www.cnblogs.com/dirgo/p/11175774.html

2020-03-10 10:06:43

Java | IDEA中查看字节码

在JDK工具包的bin目录下,有一个java可执行文件javap即javap.exe,该工具可以查看java编译后的class文件。使用命令如下:javap -c Test.class因此可以基于该命令在IDEA中设置宏,来快捷使用javap查看字节码,设置过程如下:1、打开IDEA,点击File->Settings。选择Tools->External Tool。点击左上...

2020-02-28 10:49:39

Java | count++ & ++count

1、从字节码角度分析count++// 先看下count++的代码public class TestCount{ public static void main(String[] args) { int count = 0; int result = count++; System.out.println(result); // ...

2020-02-28 10:30:22

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。