xhaoDream-CSDN博客

Hive分区表导入数据（动态分区插入，静态分区插入、动静态分区插入）在hive上建立一个简单的分区表：CREATE TABLE `school_student_info`(`name` string, `age` int,`sex` string )PARTITIONED BY (`grade` string,`teacher` string)ROW FORMAT SERDE...

2020-03-29 12:21:02 3176

原创深入理解XGBoost算法

**XGBoost：**通用参数：宏观函数控制Booster>>gbtree：采用数的结构来运行数据gblinear：基于线性模型运行数据Silent>>静默模式，为1时模型运行不输出Nthread>>使用线程数，默认为-1，使用所有线程。Booster参数：控制每一步的boooster（tree/regression）。可以调控模型效...

2020-03-10 17:25:58 559

原创 xgboost.core.XGBoostError:label must be in [0,1] for logistic regression

错误：xgboost.core.XGBoostError: ****regression_obj.cu:102: label must be in [0,1] for logistic regression通过查看目标列Y中，发现其中有空值，然后做空值的替换。然后尝试了下面三种方法都没有成功，还是会出现同样的错误。df[‘Y’].replace('NaN',0,inplace=True)...

2020-03-10 16:30:21 5194

原创 requests BeautifulSoup 猫眼电影信息的爬取

**根据用户需要爬取的数量，爬取猫眼电影网的电影信息**import requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport json,os,sysimport lxmlfrom multiprocessing import Poolfilename ...

2020-02-28 16:26:10 608

原创 oracle sql like多个条件函数

select price, publish_timefrom telwhere regexp_like(publish_time,'(2017|2018|2019)')group by price, publish_time> select * from table where REGEXP_LIKE(字段名, '(匹配串1|匹配串2|...)')> ;//全模糊匹配...

2019-10-28 10:13:20 1976

原创基于pyspark的als推荐电影

ALS推荐算法：ALS算法是基于模型的推荐算法基本思想对稀疏矩阵进行模型分解，评估出缺失项的值，以此来得到一个基本的训练模型。然后依照此模型可以针对新的用户和物品数据进行评估。ALS是采用交替的最小二乘法来算出缺失项的，交替的最小二乘法是在最小二乘法的基础上发展而来的。从协同过滤的分类来说，ALS算法属于User-Item CF，也叫做混合CF，它同时考虑了User和Item两个方面。矩...

2019-10-25 11:30:58 3257

原创 hive 数据倾斜

hive上执行脚本，数据一直跑不出，询问dba说可能是数据倾斜的问题，需要优化脚本（之前脚本可以正常执行），最后发现join表的重复数据过多造成的。网上看了下倾斜，简单总结下。一、概念由于数据分布不均，造成大量数据集中到一点，造成数据热点。二、现象绝大多数task执行的很快，但是个别task执行很慢。eg：一共10个task，9个几分钟就执行完了，剩余的一个跑了一个多小时还没有结束...

2019-10-17 17:15:08 368

原创 windows下spark的安装

windows下spark的安装首先的在一个大前提下就是我们本机已经安装并配置好JDk环境变量了。选择的环境如下：jdk1.8+scala2.10.2+hadoop2.7.4+spark2.4.4一、 scala安装scala安装包下载：链接：https://pan.baidu.com/s/1HLsFBhXWazuKxGpgF8xP1Q提取码：g0zi安装后cmd输入sca...

2019-10-14 20:19:12 1232

原创 Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED

Exception: Randomness of hash of string should be disabled via PYTHONHASHSEEDpyCharm执行程序执行到movies_for_user = ratings.groupBy(lambda x:x.user).mapValues(list).lookup(789)报错Exception: Randomness of ...

2019-10-14 17:03:04 297

原创 python2和python3的安装

因工作需要，原先电脑上只有python3的运行环境，但工作有一个模型的脚本需要python2的运行环境，公司工位上的电脑是有Python2的环境的，无奈赶上国庆放假，还需要工作，需要在自己电脑安装python2的环境，安装过程中遇到不少问题，就总结下。一、安装python2.7（https://www.python.org/）64位：Windows x86-64 MSI installer...

2019-10-02 10:37:21 319

原创 python实现----最大公约数和最小公倍数

''' 录入两个正整数，输出最大公约数和最小公倍数'''def max_min(num1,num2): #确保num1小于num2 if num1 > num2: num1,num2 = num2,num1'''从1到小数本身循环，满足小数求余为0，然后大数求余也为0，则n为两数的最大公约数'''def max_num(num1, num2...

2019-09-17 14:58:22 1463

原创生成器 generator send yield

generator的send()函数和yield关键字直接上代码：def test(): num = 1 while True: num += 2 yield num print('yield>>>>>>'+str(num))t = test()print(next(t))print(n...

2019-09-11 11:27:14 244

原创 oracle sql parallel mapjoin 调优

最近在搞数据库，需要操作上千万的数据，但是发现自己写的sql运行的很慢，然后问了小组的组长(一个技术超级强的和蔼可亲的哈哈领导)，发现在查询数据的时候加入了Parallel、MAPJION这两个东西，然后我上网查了下这两个词的使用场景和方法，简单总结下。一、Parallel1、场景一般在使用sql是返回记录数大于100万数据时使用，sql效率提升比较明显，但会消耗数据库的资源和性能...

2019-09-06 11:25:27 972

原创 Python 深浅拷贝

**拷贝有很多方法：**copy.copy()浅拷贝copy.deepcopy()深拷贝可以通过‘=’进行拷贝但是这三种方法有什么相同之处和不同之处呢？下面就看看这些方法的不同之处吧。以拷贝列表list为例：首先引入Python copy包：浅拷贝：从结果中看出，输出的列表a、b内容一致。对列表b中的单个元素记性修改从结果中看出，列表b修改单一元素，对列表a的元素...

2019-08-21 11:20:54 270

转载 python中yield的用法详解——最简单，最清晰的解释

首先，如果你还没有对yield有个初步分认识，那么你先把yield看做“return”，这个是直观的，它首先是个return，普通的return是什么意思，就是在程序中返回某个值，返回之后程序就不再往下运行了。看做return之后再把它看做一个是生成器（generator）的一部分（带yield的函数才是真正的迭代器），好了，如果你对这些不明白的话，那先把yield看做return,然后直接看下面...

2019-07-29 17:45:57 110

原创 Shell中(())和[[]]的区别

**Shell (( ))和[[ ]] 的区别直接上代码图**Shell (( ))双小括号：Shell(())是专门用来运算整数且只能进行整数运算，不能对小数、浮点数或字符串进行运算。1、基本的数值计算：2、进行稍微复杂的运算3、进行逻辑运算，结果为true返回1，false返回04、进行自增自减运算5、多个表达式运算Shell [[ ]] 双中括号：1、...

2019-07-17 21:57:22 1826

原创 Linux：定时任务配置

新增调度任务可用两种方法：1)、在命令行输入: crontab -e 然后添加相应的任务，wq存盘退出。test.sh，每秒执行一次(/1 * * * * /test/dingshi/test.sh >> /test/dingshi/result.log)2)、直接编辑/etc/crontab 文件，即vi /etc/crontab，添加相应的任务。(/1 * * * * r...

2019-07-16 19:28:40 851

转载 Java面试官：兄弟，你确定double精度比float低吗？

我有一个朋友，叫老刘，戴着度数比我还高的近视镜，显得格外的“程序员”；穿着也非常“不拘一格”，上半身是衬衣西服，下半身是牛仔裤运动鞋。我和老刘的感情非常好，每周末我们都要在一起吃顿饭。这周，我们吃的是洛阳有名的吴家刀削面，席间他聊了一件蛮有趣的面试经历；我听得津津有味。散席的时候，老刘特意叮嘱我把他和面试者的对话整理一下发出来，因为他觉得这段对话非常的精彩，值得推荐给更多初学Java的年轻人。...

2019-07-11 17:44:14 192

原创记：第一次入门爬虫（java）

需求：给定一系列的号码（txt文件），获取其在百度网站中的号码标识，并输出到指定文件中。使用jsoup模拟上网操作，获取到电话号码后百度其在网页中的信息标识，并进行打印输出。需要使用的jar包：jsoup.jar链接：https://pan.baidu.com/s/1ukyH7SiP7PN_YQBbmYQeeQ 提取码：dr3v部分源码：public String crawl...

2019-07-09 21:15:44 226

java 读取csv 并转为Map<String,Object>

通过引用【opevcsv】依赖，逐行读取数据并转为Map<String,Object>格式，后续可以通过BeanUtil.MaptoBean()方法将map转为你需要的bean对象； csv文件必须带表头，bean对象命名符合驼峰格式；通过此方法可以快速的将文件转换为程序可以操作的bean对象；

2023-05-26

分布式 rpc远程调用 dubbo

基于RPC远程调用的方式，发布服务，注册到zookeeper节点，consumer-server调用provider-server发布的服务。使用与TCP长连接的通讯方式。

2023-02-13

微服务： SpringCloud + Nacos + Feign

微服务示例，下载下来可用；服务注册，资源互相调用等，都有实现； parent pom中不要制定version，让工程自己匹配最佳版本号

2022-08-10

hadoop Java API

基于hadoop的一些基本操作

2022-06-30

springboot+多数据源配置+swagger-ui页面测试+逆向工程+swagger

本项目是是一个多数据源（DataSources）配置的一个基本框架，并且集成了逆向工程相关的配置信息。不会配置多数据源的小伙伴可以直接下载来使用，作为自己项目的框架，基于springboot2.0.4写的。还有一个就是集成了逆向工程，不需要自己再去写pojo和mapper了。欢迎大家下载学习。

2022-06-29

springboot整合spring-kafka kafkaTemplate

可以用来当做一个kafka项目的框架。本项目里面简单写了单挑信息、批量信息的web接口测试消息发送，并且注入了两个bean，实现KafkaListener两种不同模式{containerFactory="batchFactory"}，{containerFactory = "batchFactoryOff"}。

2022-06-27