自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(103)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux命令学习整理

参考:https://billie66.github.io/TLCL/book/让命令行提示符显式完整路径1.编辑profile文件,添加环境变量PS1 [/etc/profile] export PS1='[\u@\h `pwd`]\$'2.source $>source /etc/profile文件系统中跳转查看当前目录名:pwd;列出多个目录的文件:ls 路径1 路径2列出所有文件(含隐藏):ls -a以长格式显示:ls -l 或者 ll输出结果按照文件大小排序

2020-05-23 13:02:16 430

原创 Flink内核源码解析

参考提交流程程序入口yarn-per-job模式:运行程序后启动的进程:Clifrontend(相当于client)Yarnjobclusterentrypoint(相当于JM)Taskexecutorrunner(相当于TM)程序入口:Org. Apache. Flink. Client cli. Clifrontend...

2021-05-06 17:53:18 498

原创 Maven实战(编辑中)

参考:《Maven实战》目录Maven使用入门编写POM编写主代码Maven使用入门编写POMPOM(Project Object Model,项目对象模型)定义了项目的基本信息,用于描述项目如何构建,声明项目依赖,等等。一个例子:第一行:XML头、指定了该xml文档的版本和编码方式project元素:所有pom.xml的根元素,声明了一些POM相关的命名空间及xsd元素,不是必须的,但使用这些属性能够让第三方工具(如IDE中的XML编辑器)帮助我们快速编辑POM。modelVersio

2021-01-04 17:13:00 203

原创 Flink原理、实战与性能优化(编辑中)

一、基本架构client将作业提交到jobmanagerJobManager整个集群的master节点,负责整个flink集群的任务调度和资源管理,整个集群有且仅有一个活跃的JobManager。从客户端获取提交的应用,根据TaskManager上TaskSlot使用情况,为提交的作业分配TaskSlot资源,并命令TaskManager启动应用。TaskManager负责具体任务执行和对应任务在每个节点资源的申请和管理...

2020-11-16 13:28:55 12497 2

原创 Hadoop基础知识

文章目录HadoopHDFSMapReduceHiveHadoopHDFSHDFS 分布式文件系统 读取和写入原理介绍HDFS中的角色NameNode:名称节点通常仅有一个,负责文件信息管理,切割文件,为文件分配指定位置保存。DataNode:数据阶段通常有多个,保存数据。写入原理: 当有文件要写入到HDFS的时候, 首先NameNode将文件按照指定大小切割, NameNode选取合适的DataNode列表, 写入第一快文件, 同时将该文件的第一个副本写入另

2020-07-29 10:10:19 171

原创 《计算广告 第2版》第二部分-在线广告产品逻辑(阅读学习记录)(编辑中)

本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。

2020-06-17 18:40:59 405

原创 Redis学习记录(编辑中)

参考:黑马视频文章目录Redis的应用redis启动基本操作数据类型string基本操作扩展操作Redis的应用热点数据查询:热点商品、热点新闻、咨询任务队列:秒杀、抢购即时信息:排行榜、访问统计时效性信息:验证码、投票分布式数据共享分布式锁redis启动redis服务启动:redis-server.exe默认端口:6379(pid随机生成)客户端启动:redis-cli.exe基本操作set:set key valueget:get key获取帮助:help 命令数据类型

2020-06-12 14:39:54 185

原创 Linux shell脚本(编辑中)

shell脚本第一行#!/bin/bash其中#!不是注释,而是告诉操作系统将执行此脚本所用的解释器的名字。配置vim更适应shell编写:syntax on:set hlsearch:set tabstop=4:set autoindent可以去掉冒号,添加到~/.vimrc中helloWorld#! /bin/bash# helloworldhello world!# 文件名为helloworld运行:.helloworld...

2020-06-08 23:14:46 182

原创 《计算广告 第2版》第一部分-在线广告市场与背景(阅读学习记录)

本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。第一章 在线广告综述免费模式的产品如何获取利润通过流量、数据和影响力这三项资产,将这三项资产通过商业产品转变成收入的过程就是商业化,数据变现和影响力变现都是在流量变现的基础上。广告活动的主线即出资人、媒体和手中三者利益博弈关系出资人(需求方):广告主、代表广告主利益的代理商、其他技术形态的采买方。媒体(供给方):媒体、其他技术形态的变现平台受众:被动参与方。品牌广告和效果广告品牌广告:目的是借

2020-05-31 23:33:06 484

原创 《算法设计与分析基础 第三版》(Java代码)第一章 绪论(编辑中)

文章目录求两个数最大公约数习题求根号n的向下取整的值,n为非负整数求两个数最大公约数 /*** * 欧几里得算法: * gcd(m,n) = gcd(n,m mod n) (m mod n 表示 m 除以 n 的余数) * 如果m mod n == 0 则 n为结果 * @param m * @param n * @return */ public static int alg1(int m, int n){

2020-05-31 11:58:37 415

原创 IDEA 默认快捷键

以下内容为idea在windows的默认快捷键,因为实际工作中大家使用默认的情况要高于eclipse。而且以下为作者常用的快捷键,有遗漏或者错误欢迎随时留言交流

2020-05-31 10:28:45 514

原创 《大数据之路 阿里巴巴大数据实践》数据技术篇(阅读学习记录)

本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。

2020-05-25 21:34:03 1318 1

原创 JAVA 正则表达式

正则的用途:1.匹配字符串2.查子串主要的java类java.util.regex.Matcherjava.util.regex.Pattern数量正则表达式?:表示?前面的字符出现1次或0次例如:"abc"能和"a?bc?“匹配;”"能和"a?"匹配System.out.println("".matches("a?"));//true*:表示*前面的字符出现0或n次System.out.println("aaaa".matches("a*"));//true+:表示+前面的字符

2020-05-25 17:03:58 246

原创 vscode使用

文章目录代码编辑插件:代码编辑整行文本复制mac:option+shift+上下箭头win:alt+shift+上下箭头删除一行mac:command+delwin:ctrl+shift+k批量操作mac:全选;option+shift+iwin:全选;alt+shift+i插件:中文点击扩展,搜索chinese代码运行code runner文件、文件夹图标vscode-icons...

2020-05-22 20:50:13 341

转载 SpringBoot 存在多个子项目时找不到其他模块bean的问题

AProject(父工程)    BProject(子项目)     CProject(子项目)本人遇到的情况是,SpringBoot启动类在BP...

2020-05-03 21:54:22 3056

转载 Maven中 jar包冲突原理与解决办法

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-11-04 11:49:32 236

转载 hive 日期函数

一、unix_timestamp函数用法1、unix_timestamp() 得到当前时间戳2、如果参数date满足yyyy-MM-dd HH:mm:ss形式,则可以直接unix_timestamp(string date) 得到参数对应的时间戳3、如果参数date满足yyyy-MM-dd HH:mm:ss形式,则我们需要指定date的形式,在进行转换unix_timestamp(‘200...

2019-09-23 10:59:39 289

原创 Hive SQL

拼接函数(行转列):collect_set():把多个值去重拼接成一个数组collect_list():同上,不去重concat_ws():用指定分隔符,把数组拼成一个字符串–:concat_ws(分隔符,数组)字符串拼接:concat(v1,v2,v3)分割函数(列转行):split(字符串,分隔符):切割字符串split(字符串,起始索引):字符串部分截取lateral v...

2019-08-20 20:13:08 632

原创 生产中遇到的pb问题

起因:需求变更需要修改代码中pb字段(改名)结果:上线后无法更新离线表结构原因:不允许更改pb,只能添加新的字段解决办法:无解

2019-08-19 21:08:03 206

原创 flink作业多次挂掉,代码逻辑没有问题

由于代码为公司内部资源,不可以泄露,所以不能提供代码和截图。现象:在一次修改线上代码后,能够执行正常业务,但是作业经常频繁挂掉。在日志中没有提示代码逻辑有问题,显示的是系统资源不足。经过两天的频繁挂掉后,问了相关人士。最后反馈结果:反馈结果为:在业务代码中,使用了字符拼接代码,由于数据量大,字符串本身占用内存大,所以消耗大量系统资源,最终导致作业挂掉。解决办法:加内存。...

2019-08-19 21:04:34 1248

原创 sql中增加自定义写死的字段

select 表中字段名,value(写死的值) as 别名 from 表名

2019-08-14 15:23:17 4418 2

原创 Druid基础知识(编辑中)

Druidhttps://yuzhouwan.com/posts/5845/http://druidio.cn/实时,快速,切片,大数据(PB级),列式存储,分布式结合了OLAP分析数据库、时间序列数据库和全文检索思想集成kafka等消息队列和hdfs等文件系统数据源可以使Hadoop、spark、storm和kafka等使用mvcc解决并发问题Druid 聚合会将数据进行预聚合...

2019-08-08 21:38:50 267 1

原创 git常用命令

克隆项目:git clone xxx添加远程仓库:git remote add ks-ad xxx更新代码:git pull ks-ad master创建分支:git checkout -b xxx(name)添加代码:git add .提交代码:git commit -m “xxx”合并冲突:git checkout mastergit pull xxx(name) master...

2019-08-08 20:14:45 136

转载 在SQL中类型转换

类型转换函数CAST(xxx AS 类型) , CONVERT(xxx,类型)可用的类型二进制,同带binary前缀的效果 : BINARY字符型,可带参数 : CHAR()日期 : DATE时间: TIME日期时间型 : DATETIME浮点数 : DECIMAL整数 : SIGNED无符号整数 : UNSIGNEDcast函数运行示例mysql> select...

2019-08-08 20:12:14 7542 1

原创 protocol buffers基本使用

官方文档:官方文档链接中文版:文档链接文章目录@[toc]特点:数据结构语法:第一行:字段定义:注释:保留字段使用其他类型嵌套类型常见关键字特点:灵活、有效、自动配置的序列化结构数据,类似xml,但是更小,更快,更简单数据结构文件类型后缀为.proto定义message作为类型每个message有一个或多个字段,每个字段有名字和值类型运行后,产生一个类,包含每个字段和对应...

2019-08-07 10:59:25 473

原创 计算日访问量

一下来自官方文档:https://dev.mysql.com/doc/refman/8.0/en/calculating-days.html

2019-08-02 11:54:46 1187

原创 相关子查询

常写的即非相关子查询,子查询的内容不依赖外部表。相关子查询与其相反,每次都依赖外部表。参考链接官方文档介绍:A correlated subquery is a subquery that contains a reference to a table that also appears in the outer query. For example:SELECT * FROM t1W...

2019-08-02 10:14:20 354

转载 SQL相关子查询与非相关子查询

原文链接 ...

2019-08-02 10:11:01 350

原创 MySQL连续问题(待解决)

最近联系SQL时经常遇到连续问题,例如:求一段时间内用户连续登陆次数等。很遗憾,由于时间有限,,目前还没办法提供完整的sql语句和解题思路。目前只有简单的思路,就是同一个表做连接,条件是让日期的差值为1,也就是说,因为要查找连续的日期。那么今天登陆,昨天必然登陆,否则不连续。做了连接后,一旦差值为1,我们就说他是连续的,而且只有间隔为1的是连续的。目前只有这个思路,sql还无法实现。先...

2019-07-28 21:12:43 359

原创 MySQL中的case表达式

MySQL CASE表达式是一个流程控制结构,用在在SELECT、WHERE等语句中根据条件动态构造内容。文章目录格式例1:行列互换例2:不及格和及格人数统计格式CASE valueWHEN compare_value_1 THEN result_1WHEN compare_value_2 THEN result_2…ELSE result ENDCASEWHEN condit...

2019-07-28 19:14:28 699

原创 MySQL显示没有指定字段的记录

文章目录知识储备:例子:知识储备:isnull()函数:------------ISNULL函数接受一个参数,并测试该参数是否为NULL。如果参数为NULL,则ISNULL函数返回1,否则返回0。例子:select c.`name`FROM customers c , salary swhere c.id = s.id and (ISNULL(c.mobile) or ISNULL(...

2019-07-28 18:49:38 995

原创 MySQL查询近30天的记录

文章目录知识储备:解题思路例子:知识储备:DATE_SUB(date,INTERVAL expr type)函数:------------从指定日期减去指定时间间隔详细链接interval关键字:-----------后加数组,单位表示时间间隔详细链接CURDATE() 函数:-----------显示当前日期,具体到日详细链接解题思路一种简单的思路是获取当前日期,然后减去...

2019-07-28 18:41:57 6252

原创 MySQL对不同年龄段的用户信息做统计(附按不同时间段统计记录)

文章目录题目提前声明:数据库中的表知识储备解题思路难点一:难点二:答案题目即:不同年龄段的客户信息。提前声明:本题是作者根据自己的知识独立解决,并非标准答案,如果更好的答案,欢迎在下方留言数据库中的表知识储备floor()函数:结果向下取整now():获取当前具体时间year():获取年份ifnull(a,b):如果a的值不为null,结果为a,否贼为b解题思路难点...

2019-07-28 12:13:59 3022

原创 SQL求出分数都大于80的学生姓名及其总成绩

先看一下题目:这是一道还算简单的题目,但是会困扰一些基础薄弱或刷题少的同学。需要提前声明的是,这道题本身就存在问题,我理解的是这道题的数据库违反了数据库bcnf范式。也就是说对于成绩和学科这两个字段和学生信息放一起是有问题的,因为他们有依赖关系,简而言之就是,一门课程只能有一个分数。那如果这道题就是考场上的题,我们就应该默认他是正确的来做。先看一下我准备的两张表。数据库中的表stud...

2019-07-26 12:41:26 8592 1

转载 mysql与子查询

原文链接同样的,使用goods表来练习子查询,表结构如下:所有数据(cat_id与category.cat_id关联):类别表:mingoods(连接查询时作测试)回到顶部一、子查询1、where型子查询:把内层查询的结果作为外层查询的比较条件1.1 查询id最大的一件商品(使用排序+分页实现):mysql> SELECT goods_id,goods_name,s...

2019-07-26 12:19:22 152

原创 mysql时间分段统计解题思路

按照日期统计:直接日期分组,求和按照小时统计:使用 HOUR ( 字段名 )函数,起名,按其分组,求和按照分钟统计:同上,使用MINUTE ( 字段名 ) 函数,起名,按其分组,求和按照半小时统计:使用concat()函数,拼接字符串,内容为获取的日期,获取的小时,对于分钟要和30做模运算。最终这个结果的值,要按照自定义的日期格式输出。大致这样子DATE_FORMAT( ...

2019-07-25 22:22:10 993

转载 mysql按天,小时,半小时,N分钟,分钟进行数据分组统计

原文链接mysql不同时间粒度下的分组统计我们在做项目或者数据分析时,经常遇到这样的需求:统计不同时间粒度下的数据分布情况,例如,每一天中每个小时网站的访问量,某路口每半个小时通过的车辆数量等。对于此类的问题,一个sql简单的查询就能实现,故特此记录下,方便以后使用。在MySQL中,我的表为:track数据结构如下所示:按天统计SELECT DATE(TimeStart) AS da...

2019-07-25 22:10:31 4287

原创 MySQL求TOP N问题(面试题难点)自身左外连接

最近面试的过程中被面试官问了一道SQL题目,没有答上,面试官说SQL时间的少,基础有点弱,但是这道题,我必须承认没有练习过,这就是有一点点难,但是很常用的TOP N问题,直接看题目。面试题:有一张学生信息表,里面有四个字段,姓名、年级、科目、成绩。求不同年级、不同科目、排名前三的学生信息。注意这是一张表。最终所有记录要显示在一起。看结果:=======================...

2019-07-21 17:10:42 1133 4

转载 大数据的流处理和批处理及其框架

原文链接简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,...

2019-07-09 19:15:25 14935 3

原创 spark操作hive(可解决绝大部分的问题)、sparksql操作hive

目标:想要完成使用spark在windows的idea下操作hive(对hive中的表查询等)最终代码(java):import org.apache.spark.sql.SparkSession;import java.io.Serializable;/** * Created by Administrator on 2017/4/3. */public class SQLH...

2019-07-07 21:18:25 20602 14

hadoop-hdfs.pdf

亲手整理的hdfs面试题,不是从网上粘贴的,仅此一份。

2019-06-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除