自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (15)
  • 收藏
  • 关注

原创 Java-File:遍历目录下的所有文件

file工具类,扫描所有文件

2023-12-29 14:30:09 472

原创 java 读取parquet中fixed类型的数据

parquet fixed类型数据读取

2023-12-28 14:30:54 426

原创 DBeaver安装与使用教程(超详细安装与使用教程),好用免费的数据库管理工具

图文教程,超详细的DBeaver安装、破解及使用教程,包含了博主对应使用的安装包

2023-10-27 17:46:08 1697 4

原创 flink Sink kafka,flink 写入数据到 kafka 后,数据过一段时间自动删除

kafka 中的数据写入后消失问题排查、解决

2023-09-08 18:05:21 593

原创 启动springboot,出现Unable to start embedded Tomcat

解决springboot 项目启动失败问题

2023-08-11 10:21:56 1816

原创 Iceberg 合并datafiles、manifest files,清除过期snapshot、删除孤立文件

文章介绍了数据湖组件iceberg 表相关的治理,包括datafile合并、metadata file合并、孤立文件删除、过期快照删除等操作。

2023-07-28 17:04:00 625

原创 单机版Kafka简装

centos7 简单安装kafka 用于学习 单机版

2022-07-01 11:31:31 262 1

原创 Hive分区表导入数据

Hive分区表导入数据(动态分区插入,静态分区插入、动静态分区插入)在hive上建立一个简单的分区表:CREATE TABLE `school_student_info`(`name` string, `age` int,`sex` string )PARTITIONED BY (`grade` string,`teacher` string)ROW FORMAT SERDE...

2020-03-29 12:21:02 3176

原创 深入理解XGBoost算法

**XGBoost:**通用参数:宏观函数控制Booster>>gbtree:采用数的结构来运行数据gblinear:基于线性模型运行数据Silent>>静默模式,为1时模型运行不输出Nthread>>使用线程数,默认为-1,使用所有线程。Booster参数:控制每一步的boooster(tree/regression)。可以调控模型效...

2020-03-10 17:25:58 559

原创 xgboost.core.XGBoostError:label must be in [0,1] for logistic regression

错误:xgboost.core.XGBoostError: ****regression_obj.cu:102: label must be in [0,1] for logistic regression通过查看目标列Y中,发现其中有空值,然后做空值的替换。然后尝试了下面三种方法都没有成功,还是会出现同样的错误。df[‘Y’].replace('NaN',0,inplace=True)...

2020-03-10 16:30:21 5194

原创 requests BeautifulSoup 猫眼电影信息的爬取

**根据用户需要爬取的数量,爬取猫眼电影网的电影信息**import requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport json,os,sysimport lxmlfrom multiprocessing import Poolfilename ...

2020-02-28 16:26:10 608

原创 oracle sql like多个条件函数

select price, publish_timefrom telwhere regexp_like(publish_time,'(2017|2018|2019)')group by price, publish_time> select * from table where REGEXP_LIKE(字段名, '(匹配串1|匹配串2|...)')> ;//全模糊匹配...

2019-10-28 10:13:20 1976

原创 基于pyspark的als推荐电影

ALS推荐算法:ALS算法是基于模型的推荐算法基本思想对稀疏矩阵进行模型分解,评估出缺失项的值,以此来得到一个基本的训练模型。然后依照此模型可以针对新的用户和物品数据进行评估。ALS是采用交替的最小二乘法来算出缺失项的,交替的最小二乘法是在最小二乘法的基础上发展而来的。从协同过滤的分类来说,ALS算法属于User-Item CF,也叫做混合CF,它同时考虑了User和Item两个方面。矩...

2019-10-25 11:30:58 3257

原创 hive 数据倾斜

hive上执行脚本,数据一直跑不出,询问dba说可能是数据倾斜的问题,需要优化脚本(之前脚本可以正常执行),最后发现join表的重复数据过多造成的。网上看了下倾斜,简单总结下。一、 概念由于数据分布不均,造成大量数据集中到一点,造成数据热点。二、现象绝大多数task执行的很快,但是个别task执行很慢。eg:一共10个task,9个几分钟就执行完了,剩余的一个跑了一个多小时还没有结束...

2019-10-17 17:15:08 368

原创 windows下spark的安装

windows下spark的安装首先的在一个大前提下就是我们本机已经安装并配置好JDk环境变量了。选择的环境如下:jdk1.8+scala2.10.2+hadoop2.7.4+spark2.4.4一、 scala安装scala安装包下载:链接:https://pan.baidu.com/s/1HLsFBhXWazuKxGpgF8xP1Q提取码:g0zi安装后cmd输入sca...

2019-10-14 20:19:12 1232

原创 Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED

Exception: Randomness of hash of string should be disabled via PYTHONHASHSEEDpyCharm执行程序执行到movies_for_user = ratings.groupBy(lambda x:x.user).mapValues(list).lookup(789)报错Exception: Randomness of ...

2019-10-14 17:03:04 297

原创 python2和python3的安装

因工作需要,原先电脑上只有python3的运行环境,但工作有一个模型的脚本需要python2的运行环境,公司工位上的电脑是有Python2的环境的,无奈赶上国庆放假,还需要工作,需要在自己电脑安装python2的环境,安装过程中遇到不少问题,就总结下。一、安装python2.7(https://www.python.org/)64位:Windows x86-64 MSI installer...

2019-10-02 10:37:21 319

原创 python实现----最大公约数和最小公倍数

''' 录入两个正整数,输出最大公约数和最小公倍数'''def max_min(num1,num2): #确保num1小于num2 if num1 > num2: num1,num2 = num2,num1'''从1到小数本身循环,满足小数求余为0,然后大数求余也为0,则n为两数的最大公约数'''def max_num(num1, num2...

2019-09-17 14:58:22 1463

原创 生成器 generator send yield

generator的send()函数和yield关键字直接上代码:def test(): num = 1 while True: num += 2 yield num print('yield>>>>>>'+str(num))t = test()print(next(t))print(n...

2019-09-11 11:27:14 244

原创 oracle sql parallel mapjoin 调优

最近在搞数据库,需要操作上千万的数据,但是发现自己写的sql运行的很慢,然后问了小组的组长(一个技术超级强的和蔼可亲的 哈哈 领导),发现在查询数据的时候加入了Parallel、MAPJION这两个东西,然后我上网查了下这两个词的使用场景和方法,简单总结下。一、Parallel1、场景一般在使用sql是返回记录数大于100万数据时使用,sql效率提升比较明显,但会消耗数据库的资源和性能...

2019-09-06 11:25:27 972

原创 Python 深浅拷贝

**拷贝有很多方法:**copy.copy()浅拷贝copy.deepcopy()深拷贝可以通过‘=’进行拷贝但是这三种方法有什么相同之处和不同之处呢?下面就看看这些方法的不同之处吧。以拷贝列表list为例:首先引入Python copy包:浅拷贝:从结果中看出,输出的列表a、b内容一致。对列表b中的单个元素记性修改从结果中看出,列表b修改单一元素,对列表a的元素...

2019-08-21 11:20:54 270

转载 python中yield的用法详解——最简单,最清晰的解释

首先,如果你还没有对yield有个初步分认识,那么你先把yield看做“return”,这个是直观的,它首先是个return,普通的return是什么意思,就是在程序中返回某个值,返回之后程序就不再往下运行了。看做return之后再把它看做一个是生成器(generator)的一部分(带yield的函数才是真正的迭代器),好了,如果你对这些不明白的话,那先把yield看做return,然后直接看下面...

2019-07-29 17:45:57 110

原创 Shell中(())和[[]]的区别

**Shell (( ))和[[ ]] 的区别直接上代码图**Shell (( ))双小括号:Shell(())是专门用来运算整数且只能进行整数运算,不能对小数、浮点数或字符串进行运算。1、基本的数值计算:2、进行稍微复杂的运算3、进行逻辑运算,结果为true返回1,false返回04、进行自增自减运算5、多个表达式运算Shell [[ ]] 双中括号:1、...

2019-07-17 21:57:22 1826

原创 Linux:定时任务配置

新增调度任务可用两种方法:1)、在命令行输入: crontab -e 然后添加相应的任务,wq存盘退出。test.sh,每秒执行一次(/1 * * * * /test/dingshi/test.sh >> /test/dingshi/result.log)2)、直接编辑/etc/crontab 文件,即vi /etc/crontab,添加相应的任务。(/1 * * * * r...

2019-07-16 19:28:40 851

转载 Java面试官:兄弟,你确定double精度比float低吗?

我有一个朋友,叫老刘,戴着度数比我还高的近视镜,显得格外的“程序员”;穿着也非常“不拘一格”,上半身是衬衣西服,下半身是牛仔裤运动鞋。我和老刘的感情非常好,每周末我们都要在一起吃顿饭。这周,我们吃的是洛阳有名的吴家刀削面,席间他聊了一件蛮有趣的面试经历;我听得津津有味。散席的时候,老刘特意叮嘱我把他和面试者的对话整理一下发出来,因为他觉得这段对话非常的精彩,值得推荐给更多初学Java的年轻人。...

2019-07-11 17:44:14 192

原创 记:第一次入门爬虫(java)

需求: 给定一系列的号码(txt文件),获取其在百度网站中的号码标识,并输出到指定文件中。使用jsoup模拟上网操作,获取到电话号码后百度其在网页中的信息标识,并进行打印输出。需要使用的jar包:jsoup.jar链接:https://pan.baidu.com/s/1ukyH7SiP7PN_YQBbmYQeeQ 提取码:dr3v部分源码:public String crawl...

2019-07-09 21:15:44 226

java 读取csv 并转为Map<String,Object>

通过引用【opevcsv】依赖,逐行读取数据 并转为Map<String,Object>格式,后续可以通过BeanUtil.MaptoBean()方法将map转为你需要的bean对象; csv文件必须带表头,bean对象命名符合驼峰格式; 通过此方法可以快速的将文件转换为程序可以操作的bean对象;

2023-05-26

分布式 rpc远程调用 dubbo

基于RPC远程调用的方式,发布服务,注册到zookeeper节点,consumer-server调用provider-server发布的服务。使用与TCP长连接的通讯方式。

2023-02-13

微服务 : SpringCloud + Nacos + Feign

微服务示例,下载下来可用; 服务注册,资源互相调用等,都有实现; parent pom中不要制定version,让工程自己匹配最佳版本号

2022-08-10

hadoop Java API

基于hadoop的一些基本操作

2022-06-30

springboot+多数据源配置+swagger-ui页面测试+逆向工程+swagger

本项目是是一个多数据源(DataSources)配置的一个基本框架,并且集成了逆向工程相关的配置信息。 不会配置多数据源的小伙伴可以直接下载来使用,作为自己项目的框架,基于springboot2.0.4写的。 还有一个就是集成了逆向工程,不需要自己再去写pojo和mapper了。 欢迎大家下载学习。

2022-06-29

springboot整合spring-kafka kafkaTemplate

可以用来当做一个kafka项目的框架。 本项目里面简单写了单挑信息、批量信息的web接口测试消息发送,并且注入了两个bean,实现KafkaListener两种不同模式{containerFactory="batchFactory"},{containerFactory = "batchFactoryOff"}。

2022-06-27

springboot+swagger-ui+PageHelper分页+logback+动态定时

springboot+swagger-ui+PageHelper分页+logback+动态定时,封装了常用的返回类。通过界面修改cron定时,动态改变定时任务执行频率

2022-06-24

springboot集成mybatis案例并实现曾删改查

springboot集成mybatis案例并实现曾删改查

2019-04-26

springboot集成Jsp案例

简单实现了springboot集成jsp技术,方便开发jsp页面和后端数据交互

2019-04-26

PLSQL安装包

plsql安装包及破解文件,叫你一步一步安装plsql,亲测可用

2019-02-20

myeclipse2017破解文件

myeclipse2017破解文件

2019-02-20

Snake 贪吃蛇

贪吃蛇 java 贪吃蛇 java 贪吃蛇 java 贪吃蛇 java 贪吃蛇 java

2018-03-08

前端页面酒店

前端 页面 酒店 前端 页面 酒店 前端 页面 酒店 前端 页面 酒店 前端 页面 酒店

2018-03-08

酷狗音乐页面

前端 仿站 页面 酷狗音乐页面 酷狗音乐页面 酷狗音乐页面

2018-03-08

SpringBoot

使用框架SpringBoot技术实现简单的增删改查,希望可以帮到大家

2018-02-24

SSM(CRUD)

使用框架SSM进行简单的增删改查,实现对人员信息的管理。

2018-02-24

前端编写 慕课网模仿

对慕课网的模仿,根据模仿慕课网来编写到自己的本地中

2018-02-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除