自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ChengYanan的博客

大数据技术学习园地

  • 博客(640)
  • 资源 (13)
  • 收藏
  • 关注

原创 用户行为分析之用户行为路径计算模型

前提什么是用户行为路径? 1用户路径分析,顾名思义,用户在APP或网站中的访问行为路径。为了衡量网站优化的效果或营销推广的效果,以及了解用户行为偏好,时常要对访问路径的转换数据进行分析。以电商为例,买家从登录网站/APP到支付成功要经过首页浏览、搜索商品、加入购物车、提交订单、支付订单等过程。而在用户真实的选购过程是一个交缠反复的过程,例如提交订单后,用户可能会返回首页继续搜索商品,也可能去取消订单,每一个路径背后都有不同的动机。与其他分析模型配合进行深入分析后,能为找到快速用户动机,从而引领用户走向

2021-08-02 08:19:10 1014 2

原创 【Hive SQL 新算法】求任意时间段连续登录N天用户数/用户明细/最长连续登陆天数/用户留存率问题总结

注:本计算方法原创来源于:https://blog.csdn.net/hweinifengkuang/article/details/92832309建测试表CREATE TABLE `user_login_table`( `user_id` int COMMENT '用户ID', `login_date` date COMMENT '登录日期') 插入1000条测试数据数据见文末写SQL-- 第二段 根据登陆时间减去排列顺序 得出用户连续登陆的分组SELECT user

2021-07-31 15:51:31 1522

原创 shell 脚本小技巧【持续更新中】

文章目录shell 脚本中,使用vim打开文件非编辑模式下,光标放在数字上,使用 Ctrl+a 组合,可以使数字+1

2021-07-17 19:02:59 997

原创 Trino 与Hive 有差异的函数

日常使用中发现trino和hive中的有一些函数存在差异,所以开此帖记录一下。

2023-11-17 14:20:26 701

原创 Scala面向对象编程(高级部分)

从面向对象来看,接口并不属于面向对象的范畴,Scala是纯面向对象的语言,在Scala中,没有接口, 也没有implements关键字。Scala语言中,采用trait(特质,特征)来代替接口的概念,也就是说,多个类具有相同的特征(特征)时,就可以将这个特质(特征)独立出来,采用关键字trait声明。

2023-09-06 10:50:00 1008

转载 Flink EventTime窗口不触发

在本地调试一个 Flink 任务的时候,基于 EventTime 的窗口不触发的问题排查过程。

2023-08-22 20:02:06 808

原创 非计算机科班如何丝滑转码?

非计算机科班的人想要顺利转码成为计算机相关岗位的从业者,需要制定学习计划,学习基础知识,进行项目实践,提升技术能力,并保持对行业动态的关注。计算机岗位的发展前景广阔,对于转码者来说是一个很好的就业选择。

2023-08-11 19:57:16 300 1

原创 shell中,将文件内容按照“,“切割,切割后的第一列做分组键,并将第三列加和,然后按照第三列的和倒序排序打印出来

即将Linux中的文件解析,实现。

2023-08-10 20:08:14 103

原创 shell中按照特定字符分割字符串,并且在切分后的每段内容后加上特定字符(串),然后再用特定字符拼接起来

【代码】shell中按照特定字符分割字符串,并且在切分后的每段内容后加上特定字符(串),然后再用特定字符拼接起来。

2023-07-29 12:39:56 822

原创 比较两个Excel表格中的数据,不相同的高亮显示

下面是常用的在Excel中比较两个Excel表格数据的方法,

2023-07-06 19:52:58 1074

原创 windows中使用imgkit时报错No wkhtmltoimage executable found: “command not found“

首先看官网:https://wkhtmltopdf.org/

2023-05-22 14:37:57 774

转载 hive行转列过程中使用LATERAL VIEW遇到空MAP或者空数组的情况

【代码】hive行转列过程中使用LATERAL VIEW遇到空MAP或者空数组的情况。

2023-05-19 10:34:11 231

原创 【问题记录】hiveserver2 提交SQL任务慢原因排查

同样一个SQL,在hive cli执行,提交了SQL之后立马就会提交到Yarn上,但是通过hiveserver2 提交,就会经过很长一段时间才会提交到Yarn上,甚至有时候直接报错time out。

2023-05-15 11:16:45 450

原创 checkpoint Kafka Offset commit failed问题记录

checkpoint Kafka Offset commit failed

2023-05-08 10:03:32 896 2

转载 Word打字很卡顿 Office打字时反应慢 延迟 Excel输入迟钝 PPT卡死的终极解决办法大全(24种方法)

下面就来分享一下处理 Word 文档卡顿 Excel 表格缓慢的一些方法。

2022-11-05 20:33:25 6438

原创 【Excel学习】Excel 制作2个维度的折线图

Excel学习笔记

2022-11-04 13:17:40 1758

原创 Excel里实现 sum(case when xxx then xxx else xxx end)的用法

【代码】Excel里实现 sum(case when xxx then xxx else xxx end)的用法。

2022-09-08 10:02:41 1346

转载 spark sql 的 hints 语法【官网摘抄】

sparksql的hints语法【官网摘抄】

2022-07-20 11:42:08 1092

原创 正则表达式 不以特定 字符开头的行 或者 不包含特定 字符串的行

比如匹配不以a开头的结果作为定位符时, 表示字符串的开始, 表示字符串的结束,不以Lua 或者 Java开头的行:

2022-07-12 10:31:15 3496 1

原创 【Linux】文件,每行内容按“\t“切割,筛选出内容包含“;“ 的 或者 切割后字段数小于16的 行

答案:cat file.txt | awk -F "\t" '{if(NF<16 || index($0,";")) print $0}'这里用到了awk工具。主要用到了以下知识点:-F参数:指定分隔符,可指定一个或多个awk中的内置变量常用字符串函数awk的if语句...

2022-04-21 10:05:40 1350

原创 Blink 任务运行报错

Blink 任务总是报错java.lang.Exception: Exception while creating StreamOperatorStateContext. at org.apache.flink.streaming.api.operators.StreamTaskStateInitializerImpl.streamOperatorStateContext(StreamTaskStateInitializerImpl.java:216) at org.apache.flink.stre

2022-04-20 14:06:23 692 2

转载 CentOS 7.X yum install没有可用软件包

已加载插件:fastestmirror, langpacksLoading mirror speeds from cached hostfilebase: mirrors.aliyun.comextras: mirrors.aliyun.comupdates: mirrors.dgut.edu.cn没有可用软件包 htop。错误:无须任何处理遇见这种情况,先执行:sudo yum install epel-release然后再试试yum install 其他安装包...

2022-04-15 16:11:34 968

原创 StarRocks 如何获取profile

1通过 set is_report_success=true 可以打开profile的上报。2在MySQL客户端中执⾏你的sql语句:3打开浏览器,社区版⽤⼾在 http//:FE_IP:FE_HTTP_PORT/query 可以看到当前的查询和Profile信息:进⼊然后复制profile信息...

2022-04-12 13:47:43 970

原创 hive中的爆炸函数在presto中的写法

hive中的爆炸函数写法:SELECT student, scoreFROM testsLATERAL VIEW explode(scores) t AS score;爆炸函数在presto中的写法:SELECT student, scoreFROM testsCROSS JOIN UNNEST(scores) AS t (score);

2022-03-25 14:25:44 2927

原创 Windows10 从wsl1与升级到wsl2

wsl2支持docker安装,但是我本地wsl安装的是版本1查看wsl版本:打开power shell 执行 wsl --list -v接下来就升级一下wsl的版本。

2022-03-23 18:54:40 3432

原创 在使用flinkcdc同步多个表时遇到报错:A slave with the same server_uuid/server_id as this slave has connected to the

报错信息:flink version:flink-1.13.5cdc version:2.1.1 在使用flinkcdc同步多个表时遇到报错:org.apache.flink.runtime.JobException: Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy(maxNumberRestartAttempts=3, backoffTimeMS=10000)at org.apache.flink.runtime.e

2022-02-17 14:01:02 5290 4

原创 Flink中的JobListener官方文档

ExecutionEnvironment 与 StreamExecutionEnvironment 均有 registerJobListener 方法,可以传进一个 JobListener,在作业提交以及完成的时候调用对应方法。当然,这需要你提交作业的客户端程序一直存在,直到作业完成并且对应函数被调用。https://nightlies.apache.org/flink/flink-docs-master/api/java/org/apache/flink/api/java/ExecutionEnviro

2022-01-10 19:39:07 1940

转载 Python 命令行之旅

本文来自:https://github.com/HelloGitHub-Team/Article文章目录Python 命令行之旅:初探 argparse前言介绍快速开始设置解析器定义参数解析命令行业务逻辑代码梳理小结Python 命令行之旅:深入 argparse(一)前言参数动作参数类别可选参数参数类型参数默认值位置参数可选值互斥参数可变参数列表小结Python 命令行之旅:深入 argparse(二)前言帮助自动生成帮助自定义帮助参数组选项参数前缀共享解析器嵌套解析器自定义动作小节Python 命令行

2021-12-31 20:09:05 475 9

转载 解决 python json.dumps() 中文乱码问题

python 输出一串中文字符,在控制台上(控制台使用UTF-8编码)通过print 可以正常显示,但是写入到文件中之后,中文字符都输出成ascii编码了。英文字符能正常显示可读字符。原因:json.dumps 序列化时默认使用的ascii编码,想输出真正的中文需要指定ensure_ascii=False:更深入分析,是应为dJSON object 不是单纯的unicode实现,而是包含了混合的unicode编码以及已经用utf-8编码之后的字符串。可行的方式如下:import osimport o

2021-12-21 20:17:51 1803 5

原创 flinksql的await

本文来自社区String initialValues = "INSERT INTO kafka\n" + "SELECT CAST(price AS DECIMAL(10, 2)), currency, " + " CAST(d AS DATE), CAST(t AS TIME(0)), CAST(ts AS TIMESTAMP(3))\n" + "FROM (VALUES (2.02,'Eur

2021-12-21 19:25:11 639 4

原创 hive beeline 链接impala

beeline -d "com.cloudera.impala.jdbc41.Driver" \-u "jdbc:impala://xxxx:21050/;AuthMech=1;KrbRealm=.COM.LOCAL;KrbHostFQDN=xxx;KrbServiceName=impala"

2021-12-20 19:33:03 1228

原创 房贷提前还款计算器

招商银行提供的房贷提前还款计算器,不过再其他银行贷款同样适用:https://www.cmbchina.com/CmbWebPubInfo/Cal_Loan_Per.aspx?chnl=dkjsq:计算结果:

2021-12-18 13:55:22 1739

原创 【算法】求n个字符的任意组合

题目如:有字符a, b, c, d求它们的任意种组合:得到结果:a,b,c,d,ab,ac,ad,bc,bd,cd,bcd,acd,abd,abc,abcdpython实现:import math# 分组列group = ['a', 'b', 'c', 'd']le = len(group)all_num = int(math.pow(2, le)-1)print('一共有 %d 种分组' % all_num)for i in range(1, all_num+1): t

2021-12-10 21:15:29 826

原创 下载的csv文件用Excel打开中文乱码

载的csv文件用Excel打开中文乱码,可以用notepad++打开,然后更改编码方式即可:

2021-12-09 17:45:13 328

原创 python中求 两个set、list、dict 的合并,交集,差集

1. 两个set的合并>>> a = {1,2,3}>>> b = {3,4,5}>>> c = a | b>>> print(c){1, 2, 3, 4, 5}

2021-12-09 10:14:58 6627

转载 一个开源免费的画流程图的工具

一款简洁强大的绘图工具。免费开源可以自行部署也可以在线使用,功能上直追 Microsoft Visio。支持流程图、序列图、网络拓扑图、甘特图、思维导图、模型图等,还能导出多种格式类型比如 png、svg、PDF、HTML 和 VSDX 格式(Microsoft Visio 图形格式)。github地址:https://github.com/jgraph/drawio...

2021-12-03 19:47:15 495

转载 xlwt设置单元格格式

# coding:utf-8import patterns as patternsimport xlwtimport timei = 0book = xlwt.Workbook(encoding='utf-8')sheet = book.add_sheet('sheet1', cell_overwrite_ok=True)# 如果出现报错:Exception: Attempt to overwrite cell: sheetname='sheet1' rowx=0 colx=0# 需要加上:

2021-12-03 16:52:29 773

原创 WSL 安装 mysql 8.0.27 记录

WSL装mysql,默认版本是 8.0.278.0.27版本与之前的版本命令有所变化,装的过程中踩了不少坑,这里一一记录整个安装过程:sudo apt-get updatesudo apt-get install mysql-serversudo mysql_secure_installation## 启动mysqlsudo service mysqld start## 查看mysql启动情况ps -ef | grep mysql## 直接回车 默认root 没有密码sudo my

2021-11-26 20:00:22 932

转载 HIVE 查询结果中显示库名、列名(不带表名)

<property> <name>hive.cli.print.header</name> <value>true</value> <description>Whether to print the names of the columns in query output.</description> </property><property>

2021-11-26 17:30:35 1366

原创 presto 中的 substr 函数 与 Hive中的 substr 函数用法不同

presto语法:substr(string, start, length) → varchar而且start必须从1开始Hive 中语法:substr(STRING|BINARY A, INT start [, INT len])start 可以从0开始,也可以从1开始,结果是一样的这点要注意

2021-11-24 15:13:07 2985

hadoop-2.7.2.zip

http://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/ 从官网上直接下载的,下载比较慢。所以这里分享一下 所需积分我设置的是0,如果CSDN官方不修改我设置的积分,也就是说免费下载的

2020-09-16

pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar

pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar jar包,官网下载的 手动编译Atlas的时候用到的

2020-08-19

sqoop-1.4.6.2.3.99.0-195.jar..zip

编译Atlas用 sqoop-1.4.6.2.3.99.0-195.jar 内含安装jar包以及maven手动安装命令 详情可参考我的博客: https://blog.csdn.net/qq_26502245/article/details/108008070

2020-08-14

javax.jms-1.1.jar.7z

内含javax.jms-1.1.jar 安装包下载以及Maven手动安装命令 Maven官方仓库下载不下来资源,只能手动安装 javax.jms jms 1.1

2020-08-14

十大数据分析模型详解_白皮书.pdf

基于多维事件模型,会形成一些常见的数据分析方法,在用户行为分析领域,对这些数分析方法的科学婴童进行理论指导,能够相对的完整的解释用户行为的内在规律,基于此帮助企业实现多维的交叉分析,让企业建立快速反应,适应变化的敏捷商业智能决策。

2020-06-24

mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi

mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi mongodb windows 版本,官网下载的

2020-06-05

Apache Flink结合Apache Kafka实现端到端的一致性语义.pdf

流计算中的一致性语义定义,以及通常系统怎么支持一致性语义,Flink+Fafka如何实现端到端的一致性语义。Flink会定期地产生checkpoint并且把这些checkpoint写入到一个持久化存储上,比如S3或HDFS。这个写入过程是异步的,这就意味着Flink即使在checkpointing过程中也是不断处理输入数据的。

2019-05-16

HDFS智能异构存储方案.pdf

HDFS异构存储,该方案能够智能的区分冷热数据,并按照配置的磁盘模式自动转移数据,做到冷热数据异构智能存储

2019-05-16

Scala编程核心教程(电子版)

学习Scala的全部资料,从最基本的数据结构,到最后高阶函数

2019-03-09

数据仓库数据分层结构

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2019-03-02

HBase权威指南

HBase还可以利用Zookeeper确保只有一个主服务在运行(HBaseMaster),存储用于发现region的引导位置,作为一个region服务器的注册表,以及实现其他目的。Zookeeper是一个关键组成部分,没有它HBase就无法运作。Zookeeper使用分布式的一系列服务器和Zap协议(确保其状态保存一致)减轻了应用上的负担。         master服务器负责跨region服务器的全局region的负载均衡,将繁忙的服务器中的region移动到负载较轻的服务器中。主服务器(HBaseMaster)不是实际数据存储或者检索路径的组成部分,它仅提供了负载均衡和集群管理,不为region服务器或者客户端提供任何的数据服务,因此是轻量级服务器。此外,主服务器还提供了元数据的管理操作,例如,建表和创建列族(column family)。         region服务器负责为它们的服务的region提供读和写请求,也提供了拆分超过配置大小的region的接口。客户端则直接与region服务器通信,处理所有数据相关的操作。   "数十亿行 X 数百万列 X 数千个版本 = TB级 或 PB级的存储"

2019-03-02

Hadoop权威指南(中文版)

Hadoop编程书籍,由浅入深,介绍Hadoop编程,特别适合初学者以及企业开发人员以及大学生以及其他深造学习者

2019-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除