zx_love-CSDN博客

转载 CentOS7下安装Redash

CentOS7下安装Redash安装docker-ce docker-compose1、安装docker-ce首先删除较旧版本的docker（如果有）：yum remove docker docker-common docker-selinux docker-engine-selinux docker-engine docker-ce下一步安装需要的软件包：yum install -y yum-utils device-mapper-persistent-data lvm2..

2020-08-20 11:10:14 882

原创 SQL查询，分组取top n

SQL查询，分组取top n关系型数据库 mysql：1、自身join，having count(1) > n2、嵌套查询，where n < (select count(1) from table where xx=xx)分布式 hive sql：使用开窗函数row_number() over (partition by xx order by xxx)select *from( select *, row_number() over (parti...

2020-08-20 10:58:04 1319

原创 Hadoop与Spark并行度设置问题（mr、spark任务提交参数的设置、spark-submit参数调优）

并行度的影响合理的并行度，不能太小也不要过大。并行度较小：并发度小，执行效率低；（失去分布式计算的意义）并行度过大：资源申请上的劣势。导致ApplicationMaster在向yarn提交资源申请时不能做到数据本地化（分配执行任务的机器不是数据所在机器，yarn resourcemanager在分配资源时选择数据本地、同机架、集群随机三种方式，优先级从前到后），甚至由于集群剩余资源不足而处于排队等待状态，申请资源时间成为整个任务执行时间的瓶颈；每个task的初始化时间拖了任务执行时间的后腿（一

2020-07-02 21:55:58 1492 2

原创通俗易懂的Hive知识分享

hive sql通过hive cli或者hive server2（jdbc链接）hive cli：hive -e “your sql” 执行sql并退出hive -S -e “your sql” 静默模式，返回结果省去执行耗时、结果行数等信息hive -f /xx/your_sql.hql 执行指定文件中的sql（进入hive shell模式时，可以使用source指定sql文件）hive外部表与管理表（内部表）管理表 —— hive控制着数据的生命周期（删除表时，数据会被删除），数据存储在默

2020-06-28 20:56:54 591

原创 Flink大数据计算框架

本文从flink基本概念、flink的特点有点开始介绍，并详细介绍了flink save point的应用，以及flink提交参数的设置及其含义。。。

2019-09-02 21:37:37 742

原创 Hadoop数据存储orc与parquet格式的选择

对于orc与parquet这两种列式存储格式，网上能找到大量的介绍以及对比，此处简单总结一下：orc VS parquet： orc存储压缩率比parquet要高；一般来说，orc读取效率比parquet要高； parquet支持嵌套数据格式，orc原生不支持嵌套数据类型（但可通过复杂数据类型如map<k,v>间接实现，此处情况即对应第二条中的“特例”，...

2019-09-01 17:40:20 3998

原创【Spark】重分区

重分区的两种方式（coalesce与reparation）：dataset（spark2.0以上，dataset/dataframe）：coalesce（shuffle=false）；reparation（shuffle=true，且可按column进行分区）；rdd：coalesce（默认shuffle=false，可传参数，开启shuffle）；reparation（shuffle=t...

2019-08-31 01:53:08 2241

原创 Auto email使用文档

欢迎使用Auto emailAuto email是一个使用Java 实现的自动化读取MySQL数据表单发送电子邮件的工具。他可以帮你实现由MySQL数据库中数据生成邮件报表、excel附件以及各类图表。。。

2019-08-11 15:45:49 3894

原创 Flink实时写入MongoDB

通过flink的RichSinkFunction，实现连接MongoDB，实时写入数据（也可以自定义一个类继承RichSinkFunction）此处需注意，由于RichSinkFunction是序列化对象，此时可以使用@transient (private) lazy来表示不需序列化，否则可能会报异常。（其中@trainsient可以避免overhead，lazy可以第一次被调用时正确地初始...

2019-08-06 16:17:37 8931

原创 Flink数据写入Elastic Search

需要注意的是，flink连接es时，端口号需要使用tcp端口（一般es默认http端口为9200，tcp端口为9300）。代码如下： //es配置 val config = new java.util.HashMap[String, String] config.put("bulk.flush.max.actions", "1") config.put("c...

2019-08-06 15:56:16 1049

原创 Flink连接Zookeeper消费Kafka数据

废话不多说，直接上代码片段，示例代码（scala版本）： val env = StreamExecutionEnvironment.getExecutionEnvironment // kafka 配置 val ZOOKEEPER_HOST = "host:prot" val KAFKA_BROKERS = "host:port" val TRANSAC...

2019-08-06 15:38:05 2436

转载 SpringData连接ElasticSearch

https://docs.spring.io/spring-data/elasticsearch/docs/3.1.0.RELEASE/reference/html/#repositories.query-methods.details

2019-07-09 11:00:20 953

原创数据仓库设计与实现入门（一、ODS/DW/BN简介）

一、从数据流的逻辑上来讲，数据可以分为ODS层（原始日志数据），DW层（数据仓库），BN（统计结果数据）Spark/SparkStreaming任务加载原始日志（离线处理flume落地到hadoop集群的hdfs或实时消费kafka数据）提取业务最原始数据，根据业务逻辑生成ODS层数据（分类/分流后的原始日志）；再根据业务场景进一步将业务ODS层数据划分到DW层（处理后的数据模型）；最后跟...

2019-04-02 19:20:23 3062

原创 Hive表更名问题——RENAME TABLE

RENAME TABLEALTER TABLE table_name RENAME TO new_table_name这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之，老的表名并未“释放”，对老表的更改会改变新表的数据？不，数据所在的位置会移动到hive表默认路径下。如果建表是指定路径LOCATION，那么重名之后，路径会变更。...

2018-11-07 15:30:33 29117

转载 linux中grep命令的用法

转自：https://www.cnblogs.com/flyor/p/6411140.html作为linux中最为常用的三大文本（awk，sed，grep）处理工具之一，掌握好其用法是很有必要的。首先谈一下grep命令的常用格式为：grep [选项] ”模式“ [文件]grep家族总共有三个：grep，egrep，fgrep。常用选项：　　-E ：开启扩展（Extend）...

2018-10-18 17:36:25 230

原创 Spark离线计算优化——leftOuterJoin优化

两个k-v格式的RDD进行leftOuterJoin操作如果数据量较大复杂度较高的话计算可能会消耗大量时间。可以通过两种方式进行优化：1、leftOuterJoin操作前，两个RDD自身进行reduceByKey操作（保证key唯一）；2、两个RDD先map成结果k-v格式，再将两个RDD进行reduceByKey操作（避免使用leftOuterJoin操作），示例：RDD1：（a, a1）RDD...

2018-06-06 19:13:03 3408

原创 Spark离线计算优化——增量小数据集更新全量大数据集

有两个k-v格式的RDD需要union之后再进行reduceByKey操作（如：要将每日增量几十万的数据更新到全量几亿的数据）优化方案：先将两个RDD公共部分提取出来，然后将公共部分先union再进行reduceByKey，最后将结果和前面没有交集的RDD相加（union）具体做法：将较小的RDD1的key放入set并广播broadcast，然后将大的RDD2过滤filter出含该key较...

2018-06-06 18:56:44 3759

原创 Hive SQL查询结果写入指定hdfs路径

将hive查询结果写入指定hdfs路径下：set mapred.reduce.tasks = 1;insert overwrite directory '/xx/xx/'ROW FORMAT DELIMITED FIELDS TERMINATED BY '~'select cols...from tableNamewhere conditions...distribute by ran...

2018-06-06 18:32:13 10406

转载数据库连接池中的maxIdle,MaxActive,maxWait参数

参考原文链接1 原文链接2name：表示你的连接池的名称也就是你要访问连接池的地址auth：是连接池管理权属性，Container表示容器管理type：是对象的类型driverClassName：是数据库驱动的名称url：是数据库的地址username：是登陆数据库的用户名password：是登陆数据库的密码maxIdle，最大空闲数，始终保留在池中的最大连接数，如果启用，将定期检查限制连接，超...

2018-05-23 10:44:10 18568

原创如何合理设置spark-submit参数

基础的一些参数：--executor-cores 2（每台机器核数）--num-executors 20 （executor 节点数，不要太多5-20，如果程序涉及数据交换较多，节点数过多会，大量shuffle write需要跨机器网络传输数据，影响实际执行效率；同时与集群资源有关，申请资源需要合理，不要影响其他业务；集群网络不佳时，节点数过多会扩大对执行效率的影响）--driver...

2018-01-24 15:40:05 1809

原创 Hive建立外部表表external table

Hive建表（外部表external）：CREATE EXTERNAL TABLE `table_name`( `column1` string, `column2` string, `column3` string)PARTITIONED BY ( `proc_date` string)ROW FORMAT SERDE 'org.apache.hadoop

2018-01-22 14:21:13 17184

原创 python selenium网络爬虫模拟登陆

from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium import webdriverdriver = webdriver.Chrome()driver.get("http://登陆网站链接")try:assert u"通过网页标题，判断网

2017-11-10 17:22:09 477

原创 python 调用webserver接口请求数据

主要接口调用如下，具体实现看具体需求。import sudsfrom suds.client import Clientclient = Client(set_client)try:result = client.service.getMemberList(ParamsJson = str(ParamsJson))except suds.WebFault,ex:pr

2017-11-09 20:10:05 2948

原创 MySQL 格式问题

mysql保留字段小数点后两位小数用函数：truncate(xx,2)即可。四舍五入：round(xx,2)format(xx,2) （format返回string，默认千位上会带逗号，可以在数据库配置里面更改）cast(xx, AS signed) 转成整数

2016-11-15 14:04:15 371

原创 ubuntu下配置php+apache+mysql

安装php7.0: sudo apt-get install php7.0安装apache2: sudo apt-get install apache2安装MySQL: sudo mysql-server还要安装配置Apache与MySQL 之间的连接：sudo apt-get install libapache2-mod-auth-mysqlPHP与MySQL之间的连接：sudo

2016-09-14 15:51:01 518

转载 MySQL日期函数大全

DAYOFWEEK(date) 　返回日期date是星期几(1=星期天,2=星期一,……7=星期六,ODBC标准)mysql> select DAYOFWEEK('1998-02-03'); 　　-> 3 WEEKDAY(date) 　返回日期date是星期几(0=星期一,1=星期二,……6= 星期天)。 mysql> select WEEKDAY('1997-10-04

2016-09-05 15:55:14 269

原创 kittle连接数据库（连接SQL server、MySQL）

1.安装好数据库与kittle，打开数据库。SQL server还要打开SQL server配置管理器查看MSSQLSERVER协议中的TCP/IP是否启用并查看端口号（在属性中，一般设为1433）。2.在Windows防火墙中为端口号（SQLserver：1433，MySQL：3306）添加入站规则。3.在kittle的bin目录下添加sqljdbc.jar和mysql-conector

2016-07-27 19:27:48 829

原创 Java toString()方法

每个非基本类的对象都有一个toString()方法，若编辑器本来希望的是一个String，但获得的却是某个这样的对象，就会调用这个方法。如果我们创建一个允许这种行为的类时，就需要写一个toString()方法。//类再生，合成的语法class Soap{ private String s; Soap(){ System.out.println("Soap"); s = new

2016-07-17 12:39:15 381

原创 Java 匿名类不能拥有一个构建器

class Wrapping{ private int i; public Wrapping(int x){ i = x; } public int value(){ return i; }}public class Parcel5 { public Wrapping wrap(int x){ return new Wrapping(x){ public int

2016-07-17 12:23:14 342

原创 Java 匿名类示例

//匿名类interface Contents{ int value();}public class Parcel4 { public Contents cont(){ return new Contents(){ private int i = 11; public int value(){ return i; } };//此处需要分号，表示匿名类的

2016-07-17 12:04:44 436

原创 Java 方法的作用域中的内部类（不是在“外部类”的作用域中，当然，此处也没有相对的外部类）

interface Contents{ int value();}interface Destination{ String readLabel();}public class Parcel3 { public Destination dest(String s){ class PDestination implements Destination{ private

2016-07-16 21:51:20 395

原创 Java private和protected修饰的内部类调用方法

Parcel2.javaabstract class Contents{ abstract public int value();}interface Destination{ String readLabel();}public class Parcel2 { private class PContents extends Contents{ private int i

2016-07-16 21:22:22 5978

原创 Java 简单的内部类

内部类，即将一个类定义置于另一个类的定义之中。public class Parcel1 { class Contents{ private int i = 11; public int value(){ return i; } } public Contents cont(){ return new Contents(); } class Destina

2016-07-16 20:39:08 345

原创 Java 多线程之Thread类继承

Thread类中最重要的方法是run()，run()是属于那些会与程序中其他线程“并发”或“同时”执行的代码。线程并不是按照它们创建时的顺序执行的。事实，CPU处理一个现有线程集的顺序是不确定的，除非我们使用Thread中的setPriority()方法调整它们的优先级。public class SimpleThread extends Thread{ private int count

2016-07-16 18:38:09 447

转载 ubuntu软件源设置

转自：点击打开链接deb http://debian.ustc.edu.cn/ubuntu/ vivid main multiverse restricted universedeb http://debian.ustc.edu.cn/ubuntu/ vivid-backports main multiverse restricted universedeb http://debian.u

2016-03-18 16:38:33 447

原创操作系统课程设计2 编写Linux bash脚本

1.使用vim新建一个test.sh文件编写脚本文件，保存并退出。2.设置脚本文件test.sh的权限：chmod +x test.sh3.运行脚本文件 ./test.shtest.sh示例：#!/bin/bashecho hello world! # 输出

2016-03-04 20:15:39 618

原创操作系统课程设计1 Linux下编译c++文件

1.使用vim新建编写c文件：vim test.cpp2.编译运行：g++ test.cpp -o test 输出显示：./a.out

2016-03-04 20:14:53 1634

原创英雄联盟萌萌哒小锤子波比台词

选人时所说的台词：这里会和平的。（旧版本的台词，估计不久之后就会更改）Ctrl+1：‘一个德玛西亚人，一个诺克萨斯人和一个弗雷尔卓德人，走进了一间酒馆。老板问：想来点什么？德玛西亚人说：嗯，我要来杯葡萄酒，啊，不对，来杯麦芽酒，嗯，没错！然后诺克萨斯人说：我要来杯。。。来杯葡萄酒，对，他是想要杯葡萄酒。而弗雷尔卓德人说：给我随便来一杯，但不要是。。。等等，是什么来着，我从头来过吧。Ctr

2015-12-23 21:26:54 32176

原创 poj3252Round Numbers

DescriptionThe cows, as you know, have no fingers or thumbs and thus are unable to play Scissors, Paper, Stone' (also known as 'Rock, Paper, Scissors', 'Ro, Sham, Bo', and a host of other names) in

2014-09-06 21:05:08 522

原创 Balanced Number

DescriptionA balanced number is a non-negative integer that can be balanced if a pivot is placed at some digit. More specifically, imagine each digit as a box with weight indicated by the digit. Whe

2014-09-06 20:51:50 514

EasyConnect

sqljdbc4.jar

RPG游戏制作工具

空空如也