自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 口水交流群

不定时 更新

2022-04-08 14:39:11 140

原创 Spark on Yarn上传文件

Spark On Yarn client/cluster模式下--files的使用

2022-08-12 16:57:26 482 1

原创 Window系统运行常用命令

命令 含义 说明 cmd 打开命令编辑器 mstsc 打开远程桌面 calc 打开计算器 taskmgr 打开任务处理器 regedit 打开注册表编辑器 notepad 打开记事本 mspaint 打开画图 winword 打开word excel 打开excel write 打开写字板 io...

2020-05-28 11:32:18 178

原创 离线数仓常见问题

数据漂移:ODS的表在同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据

2020-05-19 09:45:23 1409

原创 接受入参工具类ParameterTool

一、Flink中的ParameterTool工具类//// Source code recreated from a .class file by IntelliJ IDEA// (powered by Fernflower decompiler)//package org.apache.flink.api.java.utils;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFound

2020-05-19 09:34:53 3276

原创 Elasticsearch Restful 操作数据

_index 索引(文档存储的地方)_type 文档存储的类型_id 文档的唯一标识curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里面是有curl工具的,如果没有请yum安装即可。​curl -X 指定http的请求方法 有HEAD G...

2020-05-08 17:11:34 169

原创 Python基础与高级

类型 Numbers(数字):int|logn|float|complex 布尔:true、false String(字符串) List(列表) Tuple(元组) 元组的元素不能修改 Dictionary(字典) Set()集合,可以快速的完成对list中的元素去重复的功能数据类型转换 int()|long()|float()|...

2020-04-29 10:59:54 186

原创 海量日志数据处理

1、海量日志TOPN对不能完全加载到内存中处理的海量数据,考虑“分而治之”+Hash的算法思想1.按照标识字段的Hash(IP)%1024(根据具体情况设置)值,把海量日志分别存储到1024个小文件中(每个标识所有数据只会存储到1个小文件中)。2.对于每一个小文件,可以构建一个标识字段为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个标识字段;3.可以得到...

2020-04-28 11:28:40 666

原创 理解MySQL索引B+树与事务

参考博客:http://www.liuzk.com/410.html

2020-04-28 11:04:34 258

原创 hive、sparksql统计每小时的在线人数、访问时长、平均访问时长

一、业务场景描述vpn的访问日志有三个字段,用户名、时间、状态,如 张三、‘2020-04-28 10:00:00'、’login',即张三这个用户10点登陆了vpn如 张三、‘2020-04-28 11:10:00'、’login',即张三这个用户11:10退出了vpn现了一天的访问vpn的日志,如果某个用户第一条就是logout,就默认该用户的今天的第一次登录为0点,如果某个用...

2020-04-28 10:54:51 4234 1

原创 Datax数据预处理Transformer的使用

transformer定义Transformer定义:在数据同步、传输过程中,可以对数据传输进行特殊定制化的需求场景,包括1.数据字段头部、中间、尾部插入常量2.数据字段字符转换,如hz转成杭州3.数据字段置0...

2020-02-27 09:44:11 3400

原创 Flume增量抽取Oracle数据到Kafka

在Flume的lib下引入如下两个包flume-ng-sql-source-1.5.2.jarojdbc5.jar配置flink文件# declare source channel sinkagentTest0.channels = channelTest0agentTest0.sources = sourceTest0agentTest0.sinks = sinkTest0...

2019-11-15 14:19:23 1082

原创 ES 基本CURL操作

基本命令详见官网:https://www.elastic.co/guide/en/elasticsearch/reference/5.4/index.html_index 索引(文档存储的地方)_type 文档存储的类型_id 文档的唯一标识curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。简单的认为是可以在命...

2019-11-11 16:54:58 3256

原创 Flink: Job submission failed

原因:提交flink程序给Yarn时无法形成jobgraph可能由于jobgraph过大,jobmanager内存不足引起,可增大jobmanager内存 可能形成flink web在时间内没启动好,可在flink配置文件把web.timeout参数调大 web.timeout: 1000000akka.client.timeout:600sakka.ask.timeout:600s...

2019-07-24 09:49:19 1353

原创 Kafka常用操作

1.Kafka监控kafka-manager: https://github.com/yahoo/kafka-manager2.启动Kafka## 启动zookeeperbin/zkServer.sh start## 打开zk客户端查询bin/zkCli.sh -server dsjcx1:2181,dsjcx2:2181,dsjcx3:2181## 启动kafkabin/ka...

2019-07-24 09:15:27 252

原创 Git常用命令

#1.生成ssh key,可在~/.ssh目录查看ssh-keygen -t rsa -C "[email protected]"#2.把公钥id_rsa.pub填到(copy到)gitlab的SSH KEYS上#手动复制粘贴or 命令式pbcopy < ~/.ssh/id_rsa.pub#3.ssh命令测试通过ssh -T -p 30001 hua.yh@gitlab...

2019-07-18 10:38:53 107

原创 Python多进程示例

#!/usr/bin/env python# -*- coding:utf-8 -*-''' @author:yann @datetime:2019/1/29 3:50 PM'''import urllib2import jsonimport hashlibimport MySQLdbimport sysimport multiprocessingfrom date...

2019-07-18 10:34:02 157

原创 数据调研

一、数据调研思路有些中间表可能业务上有物理删除,同步这些数据的时候要考虑

2019-07-17 22:58:28 411

原创 Flink的执行计划Execution Plan Visualization

一、生成执行计划方式一:用flink info命令执行自己对应的jar包 如bin/flink info examples/test.jar 方式二:在代码中加入 env.getExecutionPlan把上述任一方式执行产生的json复制出来二、查看执行计划打开生成flink执行计划的网站https://flink.apache.org/visualizer/ 并把json...

2019-07-17 22:53:19 819

原创 知网——杭州图书馆

在杭州缴纳过社保的杭州图书馆默认会为其开通账号进入杭州图书馆https://www.hzlib.net/ 点击登录 卡号为身份证号,初始密码为身份证9-14位3. 进入后,点击 电子资源----》更多----》中国知网CNKI4. 可以通过新版或者旧版进入知网官网5. 可以尽情在知网下载论文了。...

2019-07-09 19:02:37 7812 2

原创 Linux常用命令

linux# mac常用vimgg 第一行G 最后一行^ (shift+6) 行首$(shift+4)行尾u 撤消操作ctrl+r 恢复上一步的撤销操作open . # 打开当前目录、文件open -n /Applications/Safari.app/ # 开启新Safari窗口caffeinate -t 3600 # 一小时不进入睡眠状态purge # 清除内存和...

2019-07-09 19:02:05 82

原创 hive知识点

-- 创建并使用数据库create database db_0625;use db_0625;-- 创建内部表create table if not exists t_0625(sid int,sname string) row format delimited fields terminated by ',' stored as textfile;-- 创建外部表crea...

2019-03-01 15:33:25 196

原创 ES知识点

Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。在ES中,索引(index)指的是具有相同属性的文档的集合,每个索引(index)包含多个类型(type),每个类型又包含多个文档(document),每个文档包含了多个字段(field)。如果跟关系...

2019-02-28 19:31:21 597

原创 Elasticsearch配置

## ---------------------------------- Cluster -----------------------------------# 集群名称cluster.name: my-application## ------------------------------------ Node -----------------------------------...

2019-02-28 19:17:34 96

原创 ssh框架的整合(struts-2.5.5+spring-4.3.4+hibernate-5.2.4)

ssh框架的整合(struts-2.5.5+spring-4.3.4+hibernate-5.2.4)1.jdk-1.8 tomcat7的环境下2.创建web项目3.导包(struts+spring+hibernate)4.在src创建struts.xml 和 spring.xml(applicationContext.xml) struts.xml头添加几个常用属性(可不加)

2016-11-26 14:43:42 2368 1

原创 JDBC操作DAO的通用类

package com.servlet.dao;import java.lang.reflect.Field;import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import jav

2016-11-04 18:26:18 316

原创 JDBC (c3p0、dbcp、jndi及不使用连接池)

以下对java连接mysql数据库进行总结,包括c3p0、dbcp、jndi及不使用连接池的的连接方式(下文简称jdbc)。1.不使用连接池方式(Jdbc)1.1 工具类(JdbcUtil.java)package com.jdbc.util;import java.io.IOException;import java.io.InputStream;import jav

2016-10-28 20:57:13 4227 1

原创 mysql的基本概念及使用

MYSQL知识点回忆DDL(Data Definition Language):数据定义语言,用来定义数据库对象:库、表、列等;操作数据库DML(Data Manipulation Language):数据操作语言,用来定义数据库记录(数据);表的增删改DCL(Data Control Language):数据控制语言,用来定义访问权限和安全级别;用户的操作创建修改权限DQL(Da...

2016-10-25 13:10:44 252

JDBC (c3p0、dbcp、jndi及不使用连接池)代码

java连接数据库的几种方式

2016-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除