小小可凡-CSDN博客

原创 spring boot redis缓存实现

另外，可以设置 allEntries 属性为 true，以移除指定缓存名称下的所有缓存项，例如在 clearCache 方法中。当调用 getFromCache 方法时，Spring 会自动将结果缓存到 Redis 中，并在下一次调用时从缓存中返回结果。在上述示例中，创建了一个 RedisCacheManager 实例，并设置了缓存项的过期时间为 30 分钟，使用了 GenericJackson2JsonRedisSerializer 序列化器序列化缓存值。也可以使用其他序列化器来序列化缓存值。

2023-04-21 16:17:49 826

原创代码量统计- 主要针对java python 和vue

统计文件夹下以[‘.py’, ‘.java’, ‘.scss’, ‘.css’, ‘.js’, ‘.vue’, ‘.ts’, ‘.json’, ‘.xml’, ‘yaml’, ‘.pom’] 结尾的代码行数。结果: 最终会形成一个excel文件文件中的内容如下。

2023-04-12 15:56:02 195

原创 python将py文件打包成exe可执行文件

这将生成一个名为 main.exe 的可执行文件，并在当前目录下创建一个 dist 文件夹，其中包含 exe 文件及其所需的其他文件。创建一个 Python 脚本（例如 main.py），编写需要执行的代码。在命令行中运行 main.exe 文件即可启动应用程序。

2023-04-12 11:14:04 288

原创【无标题】

chatgpt 体验spring boot搭建## 标题。

2023-04-11 19:57:56 54

原创 Git clone error: unable to create file xxx: Filename too long

在使用 git 时，提示error: unable to create file xxx: Filename too longerror: unable to create file xxx: Filename too longerror: unable to create file xxx: Filename too longerror: unable to create file xxx: Filename too longerror: unable to create file xxxx:

2022-02-16 12:36:44 883

原创 quartz 设计表结构

quartz 设计表结构

2022-01-05 10:34:58 1482

原创海豚调度(DolphinSchedulerDolphinScheduler)2.0的下载及安装（单机版）

海豚调度(DolphinSchedulerDolphinScheduler)2.0的下载及安装（单机版）

2021-12-07 10:40:17 5362

原创 kafka面试

1. Kafka 分布式的情况下，如何保证消息的顺序?1. kafka的单个分区partition中的数据是有序的可以将相同的key发送到一个分区中Kafka 分布式的单位是 Partition。如何保证消息有序，需要分几个情况讨论。同一个 Partition 用一个 write ahead log 组织，所以可以保证 FIFO 的顺序。不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义，因为同一个 key 的 message 可以保证只发

2021-11-05 16:37:20 99

原创 spark 面试题

1. spark 数据倾斜2. spark shuffer过程3. spark join的策略解析1. spark 数据倾斜Spark 数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义 Partitioner，使用 Map 侧 Join 代替 Reduce 侧 Join（内存表合并），给倾斜 Key 加上随机前缀等。什么是数据倾斜对 Spark/Hadoop 这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。数据倾斜指的是，并行处理的数据集中，某一部分（如

2021-11-05 16:36:38 901

原创 spark 函数

https://spark.apache.org/docs/2.4.5/api/sql/index.html添加链接描述

2021-11-03 14:36:11 1241

原创 Flink面试总结`持续更新中........

以前都是自己往小本本上总结, 后来小本本没了, 写到这里吧! 有问题请留言, 先谢过了1. Flink 侧流输出我们结合实际案例说明一下flink侧输出的用法，假设我们的需求是实时的从kafka接收生产数据，我们需要对迟到超过一定时长的数据或者不符合业务的数据另行处理：第一步：定义OutputTag// 定义 OutputTag 侧输出的数据格式可以不应和主流的数据格式一样val delayOutputTag = OutputTag[String]("delay-side-output")

2021-10-29 15:54:21 395

原创 jvm 堆内存使用和占用情况_查询

1.查看进程idjps2. 查看堆内存的使用情况, 查看的是当前时间节点的jmap -heap 进程idjconsole可以查看图形界面式的堆内存占用 cpu 等也可以查看

2021-08-10 16:18:36 627

原创 jvm内存占用查询_问题

使用 top 命令查询那个进程占用CPU占用过高ps -H -eo pid,tid,%cpu | grep 进程id (用ps命令查看那个线程占用cpu过高)jstack 进程id可以查找到有问题的线程和代码线程id是十进制的需要换算为2进制...

2021-08-10 15:55:19 125

原创 spark structured打通kafka与tablestore 的连接

spark 连接kafka数据sink到tablestore中直接上代码, 有不明白的可以留言pom<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven

2021-07-29 16:56:04 133

原创 spark streaming-sql tablestore统计数据

spark数据源为ots 或者叫tablestoreDROP TABLE IF EXISTS source;CREATE TABLE group_chat_source (targetId STRING,targetType LONG, sendTime LONG COMMENT "group_chat_source")USING tablestoreOPTIONS(endpoint='${source_endpoint}',access.key.id='${source_access_ke

2021-07-26 18:01:41 112

原创 spark tablestore数据读写

直接上代码: 内容自己看<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apa

2021-07-26 17:56:18 298

原创 pyspark window安装和初始化

今天开始搞pyspark为了方便以后少走弯路直接下载 hadoop2.7.1 spark选择2.x即可具体上一个博客! 注意可以先考率winutils.exe的版本在选择性下载请点击这里

2021-07-15 17:48:53 74

原创 pyspark报错 py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does

在执行一个程序的时候conf = SparkConf().setAppName("miniProject").setMaster("local[1]")报错内容Traceback (most recent call last): File "D:/py_data/py_spark/demo_pyspark.py", line 9, in <module> sc = SparkContext.getOrCreate(conf) File "D:\py_data..

2021-07-15 17:44:56 1276 1

原创 PG权限管理

创建用户CREATE USER app_user WITH PASSWORD ‘xxxxxx’;创建schema app模式create schema app authorization app_user;用户授权grant all on schema app to app_user;grant select, insert on all tables in schema app to app_user;永久授权–上边的方法赋值权限之后只能在现有的表上加上权限, 如果新增表之后还需要在执行

2021-03-26 14:39:29 499 1

原创 blink接入kafka数据 sink到postgre中

blink是阿里的开源组件可以接入的数据源, 和目标源可以https://help.aliyun.com/knowledge_list/62516.html?spm=a2c4g.11186623.6.750.5f7e7c842qR66N废话不多说直接上代码登录阿里子账号右键->新建作业要在pg数据库中创建要sink的数据表```sql-- 注意这里五个参数不能变CREATE TABLE kafka_demo( messageKey VARBINARY, `message`

2021-03-17 13:53:48 538

原创 win 安装配置kafka&zookeeper

安装zookeeper以下是安装包链接: https://pan.baidu.com/s/1_gdkRZ0Ka66D1B95n1Jyew 提取码: xx6b1. 解压文件2. 配置环境变量 java_home&zookeeper_home安装完成后需要添加以下的环境变量（右键点击“我的电脑” -> “高级系统设置” -> “环境变量” ）：JAVA_HOME: D:\worksoft\jdk1.8" (jdk的安装路径)Path: 在现有的值后面添加"; %JAVA_HOM

2021-03-04 11:48:58 514 1

原创 PGbench压测工具，对postgre进行压测

首先创建要执行的sql文件，登录服务器到…/bin/pgbench 同目录工具下载安装有两种方式对pgbench工具进行安装：源码安装：下载开源数据库PostgreSQL源码，然后到pgbench对应的目录中单独对pgbench进行编译生成可执行的二进制文件。二进制安装：可以先直接yum install postgresql-server来安装PostgreSQL程序，此过程会自动安装pgbench工具。创建要执行的sql文件all.sql\set scale 11424\set nb

2021-02-25 16:36:03 898 1

原创 postgreSQL常用语法_表结构

查看表结构信息select col.table_schema, col.table_name, col.ordinal_position, col.column_name, col.data_type, col.character_maximum_length, col.numeric_precision, col.numeric_scale, col.is_nullable, col.column_default, des.descriptionfrom.

2021-02-04 11:24:06 260

原创 kafka_消息积压_消费能力不足_有序性

消息积压处理如果是Kafka消费能力不足，则可以考虑增加Topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。（两者缺一不可）消费能力不足处理如果是下游的数据处理不及时：提高每批次拉取的数量。批次拉取数据过少（拉取数据/处理时间<生产速度），使处理的数据小于生产的数据，也会造成数据积压有序性kafka 中的每个 partition 中的消息在写入时都是有序的，而且单独一个 partition 只能由一个消费者去消费，可以在里面保证消息的顺序性。但是分区之间的消息是不保证有序的

2020-12-15 11:42:53 1098

原创数据仓库三层架构设计

简介作为一名数据的规划者，我们肯定希望自己的数据能够有秩序地流转，数据的整个生命周期能够清晰明确被设计者和使用者感知到。直观来讲就是如下的左图这般层次清晰、依赖关系直观。但是，大多数情况下，我们完成的数据体系却是依赖复杂、层级混乱的。如下的右图，在不知不觉的情况下，我们可能会做出一套表依赖结构混乱，甚至出现循环依赖的数据体系。因此，我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序，这就是谈到的数据分层。数据分层并不能解决所有的数据问题，但是，数据分层却可以给我们带来如下的好处：清晰

2020-12-15 11:30:22 7300 1

原创 JAVA_创建多线程的几种方式

1.线程是什么？线程被称为轻量级进程，是程序执行的最小单位，它是指在程序执行过程中，能够执行代码的一个执行单位。每个程序程序都至少有一个线程，也即是程序本身。2.线程状态 Java语言定义了5种线程状态，在任意一个时间点，一个线程只能有且只有其中一个状态。，这5种状态如下：（1）新建（New）：创建后尚未启动的线程处于这种状态（2）运行（Runable）：Runable包括了操作系统线程状态的Running和Ready，也就是处于此状态的线程有可能正在执行，也有可能正在等待着CP

2020-12-14 17:46:58 77

原创 sqoop import/export参数说明

一.先创建一个小表(test_01)进行测试(主节点IP:169.254.109.130/oracle服务器IP:169.254.109.100)1.测试连接oracle;sqoop list-tables --connect jdbc:oracle:thin:@169.254.109.100/库名 --username XX --password XX2.创建HDFS目录；sudo -u hdfs hdfs dfs -mkdir /oracle3.先将oracle中的数据导入HDFS;sudo

2020-10-22 10:47:12 768

翻译 hive开窗函数

普通的聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。因此,普通的聚合函数每组(Group by)只返回一个值，而开窗函数则可为窗口中的每行都返回一个值。简单理解，就是对查询的结果多出一列，这一列可以是聚合值，也可以是排序值。开窗函数一般分为两类,聚合开窗函数和排序开窗函数。点击查看详细内容hive开窗函数...

2020-10-22 10:19:36 84

原创 Linux导出csv文件到window上中文乱码

data1.csv是转义之后的文件 :iconv -f UTF-8 -t GBK ./data.csv -o ./data1.csv

2020-10-11 16:39:06 885

原创 logstash的filter的使用

Logstash filter 的使用原文地址：http://techlog.cn/article/list/10182917概述logstash 之所以强大和流行，与其丰富的过滤器插件是分不开的过滤器提供的并不单单是过滤的功能，还可以对进入过滤器的原始数据进行复杂的逻辑处理，甚至添加独特的新事件到后续流程中强大的文本解析工具 – Grokgrok 是一个十分强大的 logstash ...

2020-09-19 10:59:16 1118 1

原创 spark 文档

这个是spark在线文档地址, 其中有涉及到使用java, Scala,和Python三种语言的开发:spark在线文档地址如果英文看不懂的可以在google浏览器中安装一个翻译插件, 直接翻译成中文,欢迎关注!

2020-09-19 10:58:11 99

原创使用Navicat 连接oracle出现 “ORA-03135: Connection Lost Contact”

我使用的是navicat premium版本，之所以用这个是为了能导出数据库表，在连接数据库时候，出现了 “ORA-03135: Connection Lost Contact”，这个是因为navicat通常会在自己的安装路径下包含某个版本的OCI，如果使用navicat连接Oracle服务器时出现ORA-03135错误，大部分是因为navicat本地的OCI版本与Oracle服务器器不符造成的。解决方法就是去OCI的下载页面http://www.oracle.com/technetwork/databa

2020-09-19 10:57:29 2106

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

代码量统计-包含python java vue

cjy13-datax-web-master.zip

5天进击python.zip

myjava.rar

Kettle学习资料大全.zip

Play-with-Algorithms-master.zip

数据结构教材 (最全资料).zip

SQLServer2008安装教程详细步骤t.zip

空空如也