自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(141)
  • 资源 (1)
  • 收藏
  • 关注

原创 java时间转化

java时间转化

2023-03-30 09:19:43 188 1

原创 dinky安装问题

dinky连接kafka1.16.0

2023-03-22 18:54:52 767

原创 Sqoop Hook

atlas(sqoop hook)

2022-11-16 10:05:11 912

原创 Mysql数据导入Mysql之生产实践

数据迁移

2022-09-17 20:54:40 343

原创 Ambari升级Atlas1.1.0到2.2.0

Ambari升级Atlas1.1.0到Atlas2.2.0

2022-09-02 19:52:54 909 2

原创 Java处理已经处理的数据

java处理数据

2022-08-30 19:31:17 313

原创 oracle的odbc

oracle

2022-08-30 19:24:58 340

原创 Atlas源码解析——全量导入hive数据

atlas源码解析

2022-07-29 15:12:55 669 1

原创 Maven

maven依赖冲突

2022-07-21 16:45:47 148

原创 Flink入门——单词统计

flink单词统计

2022-06-07 10:00:13 327

原创 sh脚本的时间获取

date -d "1 day 2022-03-12" +%Y-%m-%d=> 2022-03-13date -d "-1 day 2022-03-12" +%Y-%m-%d=>2022-03-11实际的昨天yesterday=$(date +%Y-%m-%d -d '-1 day')

2022-05-19 15:04:45 809

原创 git log的使用

git log:显示提交日志根据时间搜素:1、–after 显示比某一特定日期更近的提交git log --after="2022.04.01" 显示2022年4月1日之后的提交2、–before 显示在某一个日志之前的操作git log --before="2022.05.01" 显示2022年5月1号之前的提交3、–since --until 查询指定范围时间内的提交git log --since="2022.04.01" --until="2022.05.01"根据

2022-04-24 12:48:48 1656

原创 git的工作区和暂存区,管理修改,撤销修改,删除文件

git和其他的版本控制系统如SVN的一个不同之处就是有暂存区的概念工作区:就是在我们电脑能看到的目录版本库:工作区有一个隐藏目录.git,这个不算工作区,而是git版本库。git版本库里面存了很多东西,其中最重要的就是stage(或者交index)的暂存区,还有git为我们自动创建的第一个分支master,以及指向master的一个指针HEAD我们把文件提交到git版本库里增加的时候,是分两步执行的第一步:git add 把文件添加进去,实际上就是把文件修改增加到暂存区;第二步:git c

2022-04-22 17:45:40 1661

原创 git上传已经修改的文件

在进行修改文件之前我们需要查看我们是在那个分支上进行修改的(默认在实际开发中我们不使用master分支)我们修改的文件[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vi7vYsPC-1650620633362)(/Users/lifuwei/Library/Application Support/typora-user-images/image-20220422095720046.png)]查看修改后的状态git statusOn branch lChan.

2022-04-22 17:44:11 581

原创 git版本回退

我们在gitee中提交了三次代码分别的为:version1Git is a version control system.Git is free software.version2Git is a distributed version control system.Git is free software.version3Git is a distributed version control system.Git is free software distributed un.

2022-04-22 17:43:24 1242

原创 hive中常见的日期函数

常见hive的时间函数1、时间戳转化为日期函数from_unixtime('1566390082')from_unixtime('1566390082', 'yyyy-MM-dd')from_unixtime('1566390082', 'yyyyMMdd')2019-08-21 20:21:22 2019-08-21 201908212、将日期转换为时间戳unix_timestamp('2019-08-21 20:21:22')unix_timestamp('2019-08-.

2022-01-26 11:22:51 7960

原创 SQL练习第一题

题目表名:macro_index_data字段名:数据期(年月) 地区代码 指标代码 指标类型 (增速、总量) 指标值 数据更新时间occur_period area_code index_code index_type index_value update_time说明:罗湖区的区划代码为 440305000000、GDP指标代码为gmjj_jjzl_01、指标类型的枚举值分别是增速(TB)、总量(JDZ)问题请写出,2020年4个季度中G

2022-01-26 11:20:46 1954

原创 各类日期转化的utils

package com.asiniafo.dpi_new.dpi.utils;import java.text.SimpleDateFormat;import java.time.LocalDateTime;import java.time.ZoneId;import java.time.format.DateTimeFormatter;import java.util.Date;/** * 日期转换的utils */public class DateUtil { priva

2022-01-12 11:16:04 103

原创 连接orcale

package com.asiniafo.dpi_new.dpi.utils;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;/** * 连接oracle */public class DBUtilSjzx { private static String driver = "oracle.jdbc

2022-01-12 10:59:03 298

原创 在项目中的定时作用

Calendar cal = Calendar.getInstance();//不仅可以获取当前时间,还能指定需要获取的时间点,在项目中应用中达到定时的作用cal.add(Calendar.DATE,1); //获取每个月的第五天+1天(也就是获取每个月的第6天)String data = new SimpleDateFormat("yyyyMMdd").format(cal.getTime());...

2022-01-12 10:54:45 76

原创 Hanlp分词器(通过spark)

这里主要是对内容数据进行标签处理这里我们是用分词器是HanLPHanLP是哈工大提供的一种中文分词的工具,因为他支持Java API这里我们使用spark + hanlp进行中文分词1、准备工作##1. 在hdfs创建目录用于存放hanlp的数据[root@hadoop ~]# hdfs dfs -mkdir -p /common/nlp/data##2. 将hanlp的工具上传到服务器的指定位置##3. 解压到当前目录[root@hadoop soft]# tar -zxvf ha.

2022-01-10 16:53:43 1727

原创 通过sparksql读取presto中的数据存到clickhouse

整体结构Configpackage com.fuwei.bigdata.profile.confimport org.slf4j.LoggerFactoryimport scopt.OptionParsercase class Config( env:String = "", username:String = "", password:String = "", .

2022-01-08 15:55:10 1830

原创 presto日期函数的使用

date_diff():求出两个时间的差值,里面的放的是两个时间戳,后面-前面=差值eg:date_diff('day',from_iso8601_timestamp('2021-12-23'),from_unixtime(ctime/1000)) as gap):以天为单位from_iso8601_timestamp():将一个日期转换为时间戳eg:from_iso8601_timestamp('2021-12-23') =>2021-12-23 00:00:00.000 Asia/Sha

2021-12-28 17:18:59 634

原创 hive调优第一部分

1、Explain查看执行计划explain可以查看执行计划-- 创建大表create table bigtable(id bigint,t bigint,uid string,keyword string,url_rank int,click_num int,click_url string)row format delimited fields terminated by '\t';-- 创建小表create table smalltable(id bigint,t bigint,

2021-12-25 16:56:06 878

原创 把hive数据导入到mysql并进行可视化展示

效果展示[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YYZMeccW-1640344966005)(/Users/lifuwei/Library/Application Support/typora-user-images/image-20211224170025068.png)]我的大致思路是1、写了一个udf函数,这个函数的作用就是把对应的ip转换成省份,这个主要参考的是老师给的ip.txt(里面有很多ip所对应的地址)2、把这个udf函数放到hive中,然后对

2021-12-24 19:24:04 2878

原创 把json数据格式的hive表映射到presto

在使用presto的时候报这个错误:deserializer does not exist: org.openx.data.jsonserde.JsonSerDe这里面主要是通过presto查询hive表中的数据,但是hive表中的数据是json格式,所以presto无法识别,因此会报这个错解决方法:把 json-serde-1.3.8-jar-with-dependencies 这个jar包放到/o pt/apps/presto-server-0.236/plugin/hiv

2021-12-23 16:00:57 1052

原创 JDBC连接池

import com.alibaba.druid.pool.DruidDataSourceFactory;import javax.sql.DataSource;import java.io.IOException;import java.sql.Connection;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import java.util.Properties;/**

2021-12-23 10:19:08 53

原创 自定义钉钉机器人进行报警

整体代码逻辑[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mIdCDndn-1639570821808)(/Users/lifuwei/Library/Application Support/typora-user-images/image-20211215200036525.png)]源码assembly.xml<assembly xmlns="http://maven.apache.org/plugins/maven-assembly-p

2021-12-15 20:21:26 2467

原创 HQL语句的调优

1、去重语句(用group by 来代替distinct)Group by 也有去重的功能,具体内容如下select distinct customer_idfrom test_join_order;=>select customer_idfrom test_join_ordergroup by customer_id;在极大的数据量(且很多重复值)时,可以先group by去重,在count()计数,效率高于count(distinct col)create tabl

2021-12-12 11:47:58 773

原创 字节数仓实习生面试sql题

题目要求id cnt url1 12 a2 21 f1 32 e相关说明:cnt相当于日期这里需要把这个表拆分成如下的类型id 最大日期 url 最小日期 url1 32 e 12 a当时脑子突然一热,在面试官面前有点紧张,这道题也就没有做出来,面试完之后自己又重新审视了一下这道题,具体的sql语句如下select t3.id,t3.cnt,t3.url.

2021-12-07 15:02:48 711

原创 hql求一个范围内最大值

主要明白的是字符串是可以进行排序的,但是不能进行最极致,比如这里的日期这道题就是求在开始时间和结束时间里面的最大的数值,而且还是把两列变成一例的方法最终查询的答案select user_id, max(num) max_numfrom ( select id, user_id, dt, sum(p) over(partition by user_id order by dt) num from .

2021-12-07 11:20:09 274

原创 KafKa

是分布式的发布-订阅消息系统(不支持P2P)是一个高吞吐、持久性的分布式发布订阅消息系统他主要用于处理live的数据是去中心化的服务集群,就是没有leader相当于一个存数据的文件系统订阅同一个主题的消费者都可以收到生产者传来的数据信息Kafka核心的概念生产、消费、消息类别、存储等kafaka服务Topic:主题,一个主题代表一个队列,也就是一种类型的消息Broker:消息服务器代理,kafka集群中的一个kafka服务节点成为一个broker,主要存储消息数据。存在硬盘中,

2021-12-06 10:33:48 173

原创 SparkSQL的常见优化

1、缓存数据到内存eg:df.cache()以上的作用就是将数据缓存到内存。这个操作会将df的表结果发生改变。将行转列,一旦调用该方法df在缓存中变成了列式存储。查询某列的时候就只扫描某列数据,就减少了扫描量提升了查询的性能,除此之外还会自动的调节压缩(最小化内存的使用率)2、参数调优具体详见后面的调优参数3、数据倾斜的调优——shuffle在进行聚合操作的使用,会产生shuffle,势必会有数据倾斜的可能。例子(单词统计)表(info) 数据: a b j a c d e

2021-12-06 10:18:17 3116

原创 离线数仓项目

离线数仓分为ods、dwb、dwd、dws、dm层遇到问题及解决方案1、创建udf函数 创建udf函数的时候需要对数据进行过滤,否则会报异常 在进行创建udf函数的时候一定要用打包插件,否则也会报错2、在运行mr的时候进行数据插入的时候报reduce异常,主要原因是前数据表中没有数据 注意是:在进行mr的时候一定不要空的数据或者数据的字段为null,否则都会报错,网上说的是内存溢出(并不一定)3、在进行hive表中的数据插入到mysql中的时候会出现编码异常 1、在结果集数据库中设

2021-11-27 17:20:22 3047

原创 kafka生产者与消费者API的简单应用

import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import java.io.IOException;import java.util.Properties;/** 生产者* */public class Demo5 { public static void main(String[] args) throws

2021-11-17 17:35:03 727

原创 通过二分查找法,查询ip是否在ipArray中

//通过二分查找法,查询ip是否在ipArray中def binarySearch(ipArray:Array[(String,Long,Long)],ip:Long): Int ={ var start = 0 var end = ipArray.length while (start <= end){ val mid:Int = (start+end)/2 val startIp:Long = ipArray(mid)._2

2021-11-04 20:39:56 113

原创 将ip地址转换成一个长整型(日志处理)

//将ip地址转换成一个长整型def ip2Long(str:String): Long ={ val fields: Array[String] = str.split("\\.") var ipNum = 0L for(field <- fields){ ipNum = field.toLong | ipNum << 8 } ipNum}

2021-11-04 20:21:55 213

原创 简易的后端项目(ssm)

整体布局导入的依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd

2021-11-01 19:31:36 522

原创 时间转换——时间戳转换成固定格式

时间戳转换成固定格式 private final static String ERROR_TIME = "1970-01-01 00:00:00"; private final static String DEFAULT_DATE_FORMAT = "yyyy-MM-dd HH:mm:ss"; private final static SimpleDateFormat fmt = new SimpleDateFormat(DEFAULT_DATE_FORMAT); //时间日期格式

2021-10-15 16:43:57 404

原创 Hive——分区

内部表与外部表的相互转换alter table student2 set tblpropertes('external'='TRUE')desc formatted student创建一级分区表create table if not exists country(province STRING,city STRING)partitioned by(dates STRING)row format delimitedfields terminated by ',';load data

2021-09-26 19:23:26 143

简易JAVA猜拳小游戏

简易JAVA猜拳小游戏

2021-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除