自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 记一次减少Pandas DataFrame在科学计算中的内存占用

通过指定列类型为category减少Pandas DataFrame内存占用的方法。实测节约83%的内存占用

2023-06-15 00:14:38 491

原创 Spring Boot 下mybatis 转义报错,你竟然还不知道解决,快进来看看一次性解决。

现象就是同事和自己在开发业务需求的时候,有的时候在使用mybatis写sql的时候会莫名其妙的提示SQL错误。由于遇到的次数还真不少,所以在此进行一个记录,以免自己下次再遇到。原因就是mybatis的某些字符在表达的时候需要进行转义(最常见的就是> 大于 < 小于了),因为mybatis的报错基本都比较笼统有的时候在自己去编写sql的时候,往往会怀疑自己的SQL是不是写错了。以下是mybatis的转义字符及转义后的字符串。...

2021-10-24 23:27:33 508

原创 flink学习文档三 exactly-once精准一次实现原理

目的flink相比其他计算引擎而言有一个重要优点就是可以支持精准一次的,相比于其他计算引擎大多只支持最少一次而言是一个重要特性。这里对flinkexactly-once 的使用进行分析,并对其原理进行学习记录。学习框架图exactly-once是什么exactly-once语义指的是每条数据对最终结果的影响只有一次,无论期间硬件或者软件程序出现任何异常使得任务中断,将异常处理恢复flink任务后也不存在重复处理的数据或未处理数据。exactly-once前提..

2021-10-15 00:08:04 747

原创 spring连接mongo失败记录 及 orm实践

一、mongo springboot 连接不上的问题1.检查spring-boot-starter-data-mongodb和mongo-java-driver的版本。默认的mongo-java-driver可能因为驱动版本过低造成影响。参考: <dependency> <groupId>org.mongodb</groupId> <artifactId>mongo-java-drive...

2021-08-22 22:57:25 963

原创 flink学习文档二 FlinkKafkaConsumer 的模式探究

目的最近会不定期抽空整理flink的相关知识,整理的逻辑大纲就是下面自己画的学习框架图。如果有大佬发现下面知识框架有问题也欢迎指出。因为FlinkKafkaConsumer 是flink学习框架图

2021-08-01 22:23:34 1255

原创 SpringBoot启动报错(一篇教你如何处理mapper绑定问题) BindingException: Invalid bound statement (not found)

背景接手了一个没有配置mybits-plus的spring boot的项目。需要新建一张数据表,为了节约自己手动配置dao、domain等ORM的时间,直接从其他工程含有mybits-plus对需要新建的数据表生成ORM的相关文件,转移到接手的项目中。运行项目失败,提示信息如下:2021-07-19 18:20:00.577 ERROR 27829 --- [io-11083-exec-6] o.a.c.c.C.[.[.[/].[dispatcherServlet] : Servlet.se

2021-07-21 00:12:47 1180

原创 记一次flume OOM异常处理 “lifecycleSupervisor-1-46“

背景: 一个flume任务里包含了九种日志的传输任务。使用Taildir模式配合linux的定时任务切换读取目录的软连接。现象:

2021-05-31 15:05:34 399

原创 flink学习文档一(安装、开发、运维 简版一站式上手流程)

目的最近使用flink比较频繁,想系统化梳理一遍flink的相关知识,把整体的知识结构都梳理一下。恰好遇到一个flink工程的交接,接手的人对相关的知识不是太感兴趣,需要一份再一步一步如何操作应对平常的需求即可。这边刚好把这份傻瓜文档分享一下,以帮助有需要的人。后续会一步一步将整体的知识结构整理到这个系列里的。flink的安装可以参考我的另一篇安装博文《flink 1.11.2 的安装记录》,目前暂时都记录的是使用flink streaming模式下的任务开发,工程结构可以从flink的git官方上获取

2021-05-21 17:05:48 474 2

原创 clickhouse 超详细常用命令(零基础也能直接上手的指令说明)

主题在clickhouse中有一些常用的基础命令,这里进行记录总结一下。clickhouse的安装可以参照我的另一篇clickhouse安装记录clickhouse概念框架常用命令1.服务启动/停止注:需要按照教程正确安装了服务后启动: service clickhouse-server start停止:service clickhouse-server stop重启:service clickhouse-server restart2.登录...

2021-05-20 15:36:50 11444

原创 mysql数据导入到clickhouse数据长度超长,clickhouse的Int长度

概要mysql的bigint20长度是十进制的,clickhouse的Int32的长度是二进制的。背景因为当前公司的数据量从百万每天陡增到十几亿,所以之前老的数据处理程序承载不下,重新搭建了一套新的大数据架构。在给公司从0到1搭建数据集群的过程中,有一个需求需要定时将一个MySQL的表更新导入到clickhouse中。结果发现唯一ID在导入过程中变成了负数。对于这个字段的定义中:mysql 是bigint20clickhouse 是Int32看上去clickhouse这个字段占用的空.

2021-05-15 18:02:55 1204 2

原创 JAVA使用fastjson解析数据时异常

错误描述Exception in thread "main" com.alibaba.fastjson.JSONException: syntax error, expect {, actual string, pos 40, line 1, column 41"{\"hh\":\"159\",\"test\":\"aa\",59:16}"背景公司的后台服务是基于Springboot+...

2021-04-20 23:15:08 1201

原创 clickhouse安装记录 高可用双实例 超详细的clickhouse安装看这一篇就够了~

1.安装依赖项yum -y install libicu perl-JSON-XS2.下载clickhou的RPM包各版本系统与包的地址:https://packagecloud.io/Altinity/clickhouse以clickhouse19.16.14.65版本为例:使用wget下载RPM包:wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/cli..

2021-04-11 23:37:34 1389

原创 MySQL 添加where 1= 1 是否会引起索引失效

背景 在检查数据库的执行效率的时候,发现了一条查询极慢的查询sql。sql的例子如下:EXPLAIN SELECT * FROM user_point_detail_info WHERE 1=1 AND deleted = FALSE AND app_id = 2010001 AND point > 10 AND add_time BETWEEN "2021-03-12 17:00:00" AND "2021-03-12 17:51:00" ORDER BY user_id DE...

2021-03-15 10:10:41 3840

原创 JAVA内存模型 读书笔记

学习内容链接:https://www.cnblogs.com/yanlong300/p/9009687.htmlJAVA内存模型定义CPU有缓存一致性协议及内存屏障。而JAVA是一个跨平台的语言,为了实现一处编码处处执行的功能。JAVA需要设计一个中间层模型来匹配不同操作系统及硬件上的差异。java内存模型(java memory model): java内存模型指定的是java虚拟内存如何与计算机内存(硬件实体RAM)一起配合。java虚拟机本身就是一个抽象的计算机模型,所以jav..

2021-01-04 18:14:56 73

原创 CPU缓存一致性协议MESI 学习笔记

学习内容链接:https://www.cnblogs.com/yanlong300/p/8986041.html(原文写的非常好,建议看原文。这里仅仅是自己学习后,再梳理一遍增加印象~)为什么有MESI协议?CPU的计算能力与日俱增,然而内存及硬盘的发展速度远远落后于CPU,CPU厂商为了解决这个问题在CPU内增加了少量告诉缓存来匹配CPU的计算速度。随着计算机的硬件架构逐渐走向了多缓存(时间局部性、空间局部性)多核心的结构。为了保证计算中缓存内部数据的一致性,提出了一个MESI协议来解决这个.

2021-01-04 14:58:36 183

原创 maven学习笔记 作用及依赖管理

maven有啥用1.jar包难找 没有maven之前没有统一的管理工具,想引入一个包得到处搜索下载。2.jar包依赖 一般来说一个包很有可能依赖了其他好几个包,我们想使用一个包的时候就得将这个包及其依赖的其他包都下载回来进行管理。3.jar包冲突 通常我们一个项目会引用多个包来实现功能,但是我们引用进来的这些包依赖的子包,可能有重复但是版本不同的。这样我们要手动解决冲突还是很繁琐的事情。4.jar包管理 jar包自己放在本地进行使用的话,如果团队来了新成员的话...

2020-11-27 19:30:16 112

原创 flink如何设置以每天零点到第二天零点为区间的window进行计算

环境flink1.11.2JAVAstream APItimewindow背景公司之前的指标是以分钟为单位的滚动窗口进行检查,然后在查询系统里查询的时候,对该天所有的分钟数据进行聚合统计。当前需要在flink中添加以天为单位的Job进行额外指标检查。指标出来之后和发现数据口径不一致,flink中默认是timeWindow按天进行滚动统计的数据是每天八点到第二天八点的数据。导致统计指标的含义对不上,没有参考意义和进行不同数据间的join。解决方案使用window配置..

2020-11-02 18:05:01 2452

原创 flink 1.11.2 的安装记录

背景计划将之前部署好的flink1.10升级到1.11.2。主要流程及踩坑1.从官方下载flink1.11.2的压缩包,选择与业务程序中导入的maven依赖scala版本一致即可(本人选用的是2.11)。flink压缩包官方下载链接2.修改对应的配置文件(yarn模式下只需配置flink-conf.yaml, 如果是使用flink自己的资源调度则简单配置masters、workers文件即可)。flink 1.10与1.11.2的配置项基本没有太多差别,配置参考之前的文档...

2020-10-20 18:29:59 1049 1

原创 pyflink sql 方式创建数据源表报错 SQL parse failed. Encountered “time“ at line 2, column 5. Was expecting one

背景:这周在尝试将之前以JAVA开发的flink stream模式脚本,迁移到开发打包更方便的pyflink 的sql 模式脚本。但是在进行逻辑迁移的时候,pyflink报错,具体报错信息如下:py4j.protocol.Py4JJavaError: An error occurred while calling o6.executeSql.: org.apache.flink.table.api.SqlParserException: SQL parse failed. Encountered "

2020-10-15 01:58:06 9564 1

原创 python pycharm 自建项目进行debug 失败。During handling of above exception, another exception occurred

背景今天自己新建了一个python工程打算参加一个机器学习比赛,然后在写好一个功能包想使用pycharm 上的debug功能测试一下编写模块的正确性。结果发现pycharm 点击debug居然报错了。之前从未发生这个问题,检查了脚本的主入口也没有任何问题(即使替换成hello world 也一样失败的)现象在pycharm 的debug的控制台发现报错信息(其中关键报错信息如下所示):During handling of above exception, another except..

2020-10-06 01:43:31 744

原创 WIN10环境英伟达9系显卡tensorflow安装记录及调试过程 CUDA8.0+tensorflow-gpu1.4+CuDNN6.0

用sklearn学习完了机器学习之后,本来打算入坑深度学习。查阅了网上相关资料之后决定学习tensorflow进行入门,哪知安装就花费了一周的时间。深感老显卡安装不易,在此记录一下安装过程希望可以帮助其他人少被坑。 本机机器配置:六代i5处理器、GTX965M显卡 、8G*2 DDRL3内存条、240G固态。一、检查适合自己硬件的CUDA和tensorflow组件 首先确...

2020-09-23 01:10:21 290

原创 kafka 服务器常用命令记录

现状描述目前公司BI业务总是和kafka打交道的比较多,后续也可能以kafka作为中间件来优化当前的微服务体系。自己上手对kafka的操作和维护比较多。分享一些使用频次比较高的kafka指令。下面直接干货吧常用命令(均进入kafka/bin目录下执行,如果设置了kafka作为服务器环境变量的话,直接用就好。 另外示范例子中的 XXXX是自己服务器的zookeeper 端口,AAAA是需要查看的topic名称)1.查看所有topic./kafka-topics.sh --zo...

2020-09-16 01:43:31 378

原创 flume 单个agent中配置多个source,channel,sink失效的问题

问题描述:为了节约服务器上使用flume占用的资源,希望减少flume产生的JVM进程。故将几个数据采集的需求都写在一个agent的配置文件中了。其中每一个单独执行的时候都没有任何问题。但是把agent的名字统一直接堆砌到一起之后发现收集数据的系统中仅仅有一个数据到位了。问题原因:1.agent 申明source、sink、channel变量的时候一定要一句全部申明,并用空格隔开。例如错误示范:# Sources, channels, and sinks are defined pe.

2020-09-16 01:11:44 1394

原创 消费kafka数据 乱序问题

问题描述数据源是从一个多台服务器提供的HA kafka集群中读取,在工作的时候部署了一个简单计算逻辑的flink job到flink服务器上,从kafka执行自带sh命令和查看原始数据文件发现数据都没有问题。但是最终输出的统计结果与真实数据对比不一致。从flink直接读取的数据乱序(例如: 原始文件及命令创建消费者读取kafka数据 为 1,2,3,4。 在flink中注册resource直接打印出来是1,4,2,3)问题原因最终经过排查由kafka存储机制导致。因为实验数据源topi.

2020-09-13 02:41:20 2836

原创 《毅力-如何培养自律的习惯》阅读笔记

动机这本书被之前的朋友推荐过几次,一直有惦记着什么时候阅读以下这本书,可惜因为没有电子版的让我在通勤摸鱼的时候来阅读,一直搁置至今才有在阅读。书里讨论的是一个比较抽象的问题毅力,得益于作者对此问题的深刻见解用漫画的方式表达了出来(没错,它的表达形式是补刀240张的漫画),花了半个多小时就阅读理解了作者的意思,真是少就是多。内容如书名以下仅仅记录一下作者的核心思想(原著中作者归纳的),以便自己有空能在任何想看的时候有地方可以找。以下是原著中的总结,括号内是给自己的一些提示和解读:1.确信你全身

2020-08-24 02:09:31 276

原创 Mybatis插件自动生成的ORM实体类无法载入MySQL中的Text字符类型解决方案

背景公司的后台服务是基于Springboot+Mybatis+Mysql进行的,在处理一个新需求的时候,需要新加一张含有Text长文本类型的字段的数据表。在使用mevan管理的Mybatis的插件来自动生成对应的实体类及通用单表操作函数。问题现象在对数据表进行增删改查测试的时候发现,Text长文本类型字段在进行写操作的时候可以正常执行,但是进行读取时数据一直读不到。问题原因考虑...

2020-03-05 01:46:20 3707

原创 Flink1.9“Error: A JNI error has occurred”

背景最近公司要搭建大数据系统,架构师推荐使用flink来搭建这套系统。所以我这边这天在自己的虚拟机环境(Ubuntu16.4)下调研玩一下Flink。从ververica上学习了一下flink的基础知识,因为之前是做python数据处理分析的工作,最近才学习Java,还没有专门学习maven的相关知识。所以从FLINK官方教程拉了一份JAVA的项目模板,并从ververica里找了一份大佬...

2020-02-17 10:20:01 11157

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除