3 花和尚也有春天

尚未进行身份认证

我要认证

会收集一些不错的文章,时常品读,也学着自己总结一些东西,坚持努力的方向!

等级
TA的排名 2k+

java:阿里巴巴Java开发手册中的DO、DTO、BO、AO、VO、POJO定义

分层领域模型规约:DO( Data Object):与数据库表结构一一对应,通过DAO层向上传输数据源对象。 DTO( Data Transfer Object):数据传输对象,Service或Manager向外传输的对象。 BO( Business Object):业务对象。 由Service层输出的封装业务逻辑的对象。 AO( Application Object):应用对象。 在Web层与Service层之间抽象的复用对象模型,极为贴近展示层,复用度不高。 VO( View Object)

2020-06-30 17:28:04

Spark:RDD checkpoint容错机制

经过上一节的学习,我们了解到合理地将RDD持久化/缓存,不仅直接避免了RDD的重复计算导致的资源浪费和占用还提升了RDD的容错性,而且间接提升了分析任务的完成效率,那么为什么又会需要基于checkpoint的容错机制,在什么情况下需要设置checkpoint呢?对RDD进行checkpoint操作,会将RDD直接存储到磁盘上,而不是内存,从而实现真正的数据持久化。checkpoint实际上对RDDlineage(RDD依赖关系图谱)的辅助和重新切割修正,当RDD依赖关系过于冗长和复杂时,即依赖...

2020-06-29 00:27:39

Spark:持久化存储等级选取策略 /persist() / cache() /Storage Level

那么我们应该如何选取持久化的存储级别呢?实际上存储级别的选取就是Memory与CPU之间的双重权衡,可以参考下述内容:(1)如果RDD的数据量对于集群内存容量压力较小,可以很好地兼容默认存储级别(MEMORY ONLY),那么优先使用它,这是CPU工作最为高效的种方式, 可以很好地提高运行速度。(2)如果(1)不能满足,即集群的内存资源相较于cpu资源十分匮乏,则尝试使用MEMORY_ ONLY_ SER,且选择一种快速 的序列化工具,也可以达到一种不错的效果。(3)一般情况下不要把数据持久

2020-06-28 22:57:52

scala:占位符的使用

在上面的实例中,用到了Scala占位符(_ ),若读者对Scala占位符还不甚了解,可以参考学习以下七个Scala占位符的常见用法:(1) import 导入包的所有成员,相当于Java的*,如import scala.math._。比Java方便的一点是它可以导 入某个类下的所有静态成员,Java则需要import static。(2)占位符,表示某一个参数,这个用法比较多。比如对collection、sequence 或者本章所学的RDD调用方法map、filter、sortWith、 fore

2020-06-27 16:10:46

Spark: sortBy和sortByKey函数详解

https://blog.csdn.net/hellojoy/article/details/81162741

2020-06-27 00:52:05

Spark:对于提交命令的理解

如何使用spark-submit将打包好的jar提交到Spark上运行?打开终端,在终端中输入spark-submit --help, 可以查看spark-submit的详细帮助。下面说一下 spark-submit 的详细帮助。(1) --class 指向程序中的主类。 例如:--class "helloworld"(2) --master 是指集群的master URL。 举个例子,在本地运行就可以这样写:local模式:- -master local /...

2020-06-26 19:10:24

spark:sparkstreaming 0.08版本 从 kafka 采集数据,并调用HTTP接口传参

pom:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/

2020-06-19 11:19:08

spark:sparkstreaming 0.10版本 案例1:从 kafka 采集数据,并存储到 Hbase Demo示例 / 案例2:实时更新mysql

pom:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/

2020-06-19 10:38:06

sql:hive:mysql:group by与distinct 去重

源数据(mysql)id userid subject score1 001 语文 90.02 001 数学 92.03 001 英语 80.04 002 语文 88.05 002 数学 90.06 002 英语 75.57 003 语文 70.08 003 数学 85.09 003 英语 90.010 003 政治 82.011 001 语文 91.012 001 语文 92.0源数据(hive)C1 C2 C3 C4.

2020-06-17 10:32:15

spark:RDD和DataFrame和DataSet三者间的区别

RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中,DataSet会逐步取代RD

2020-06-16 22:50:44

spark:sparksql:Spark SQL/DataFrame/DataSet操作(四)-----Join

https://blog.csdn.net/lingbo229/article/details/82464466

2020-06-15 17:32:51

spark:sparksql:dataset、dataframe、rdd互转关系

2020-06-12 14:50:32

jvm:查看jvm各块儿空间的使用详细情况,如堆,方法区

[root@xg ~]# jmap -heap 15653Attaching to process ID 15653, please wait...Debugger attached successfully.Server compiler detected.JVM version is 25.181-b13using thread-local object allocation.Parallel GC with 18 thread(s)Heap Configuration: Mi.

2020-06-04 18:28:05

sql:hive:函数:udf函数中使用case when

valanDF:DataFrame=spark.sql(s"""|select|namecn,UDFtest('10003',(casewhenstatus='A'then'1'whenstatus='B'then'2'whenstatus='C'then'3'end),origin)buss|from dd.lients|wheress='3'|andupdat...

2020-06-01 17:12:24

sql:hive:mysql:函数:NVL、NVL2、NULLIF,IFNULL、Coalesce

NVL:第一个参数为空(注意这里是指null,不是空串)那么显示第二个参数的值,如果第一个参数的值不为空,则显示第一个参数本来的值select NVL(age,9999999 ) from tmp.testage223999999977...mysql中没有nvl ()函数,使用ifnull代替SELECT ifnull(valuess,'11111') a FROM test_regexp;NVL2:格式:NVL2(expr1,expr2, expr3)如果该.

2020-05-27 17:10:42

sql:mysql:查询所有数据库+表名+字段名+字段类型+注释

select TABLE_SCHEMA '数据库',TABLE_NAME '表名',COLUMN_NAME '字段名',COLUMN_TYPE '字段类型',COLUMN_COMMENT '注释'from information_schema.columns where table_schema in (SELECT SCHEMA_NAME AS `Database` FROM INFORMATION_SCHEMA.SCHEMATA)

2020-05-26 16:38:08

spark:sparksql:sparksql的agg函数,作用:在整体DataFrame不分组聚合

1、agg(expers:column*) 返回dataframe类型 ,同数学计算求值df.agg(max("age"), avg("salary"))df.groupBy().agg(max("age"), avg("salary"))2、agg(exprs: Map[String, String])返回dataframe类型 ,同数学计算求值 map类型的df.agg(Map("age" -> "max", "salary" -> "avg"))df.groupBy()....

2020-05-24 00:53:51

Spark:coalesce()方法和repartition()方法

https://blog.csdn.net/olizxq/article/details/82808412

2020-05-23 21:54:52

hadoop:JournalNode的作用

NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步了。上面在Activ

2020-05-18 19:36:45

hive:正则:匹配中文/英文/数字(REGEXP 和 rlike)

数据:Java开发工程师Java工程师海外BD岗移动web研发工程师DBA工程师JAVA高级开发工程师PHP开发工程师android资深开发经理课程顾问/sales managerEPM认证工程师品牌总监分时租赁总经理销售总经理硬件测试工程师薪酬管理岗算法工程师大区销售总监财务经理研发总监110100110100130100130100160100200500160100110100110100110100484946964861474

2020-05-15 16:48:50

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享达人
    分享达人
    成功上传6个资源即可获取