黄饱饱_bao-CSDN博客

原创 MySQL - 创建存储过程Procedure，Do While实现循环

处理数据的时候，往往需要回溯历史，比如给用户分群后计算每个群体的用户数趋势，那么就需要计算截止到每一天的各个群体的用户数量，这个时候我们就需要创建存储过程，并且在存储过程中增加循环的功能，以此来实现上述回溯的需求。第一步：先创建一个初始表，用于循环过程中插入数据-- 创建表之前先判断有没有这个表存在，有的话就删掉DROP TABLE IF EXISTS test_table;-- 创建表CREATE TABLE `test_table` ( `id` INT (11) NOT NU

2021-12-22 11:43:42 2178

原创 PowerBI 报表平台首页报表列表加载慢

Power BI 加载时会进行用户身份验证，如果没有部署域控制器，验证就会超时。因此部署域控制器就会解决首页加载慢的问题

2021-12-13 11:54:22 1527

原创有趣的数学 - 123数学黑洞 - Python代码实现

123数学黑洞简介：设定一个任意数字串X，数出这个数中的偶数个数a，奇数个数b，位数c，然后将三个数字按照abc的顺序拼接起来（拼接，而非相加相乘），abc拼接成一个新的数字串X1，按照上面的步骤重复，最终都会拼接成数字串123举例：1.设定一个任意数字串X：12345678；2. 偶数个数为 4 ，即2、4、6、8；3. 奇数个数为 4 ，即1、3、5、7；4. 位数为 8 ；5. 按照偶数、奇数、位数拼接成的新数字串为 448；6. 新数字串 448 的偶数、奇数、位数.

2021-12-10 15:01:47 1734

原创【mysql】提取字符串中的数字、字母、中文，或任意组合

【mysql】提取字符串中的数字、字母、中文，或任意组合

2021-12-08 15:58:41 2033

原创 PowerBI，自定义编辑同一页面中不同图表之间的交互，使页面交互更灵活

Power BI默认情况下，图表之间自动关联交互，如果取消或者更改交互方式，使用编辑交互功能即可，关于编辑交互的设置方法，可以参考这篇文字：https://zhuanlan.zhihu.com/p/64412190

2021-02-03 10:28:59 2369 1

原创 MYSQL中有时候不得不使用replace()去掉特殊字符，写在这里备用一下

LOWER（）的作用是把所有的大小写统统变成小写；LOWER(replace(replace(replace(replace(replace(replace(replace(replace(replace(replace(replace(replace(replace(replace(replace(replace( replace(replace(replace(replace(replace(replace(replace(replace(replace(replace(replac...

2021-01-06 16:15:40 894

转载 PowerBI 报表服务器刷新失败自动重刷并邮件通知

前言：大家好，我是小小大世界，初来乍到，作为一名BI工作者，一直想着通过某种方式记录自己成长的点点滴滴，今天静下心来，开始写一些自己工作中的经验。正文：前几天看了几篇文章，提到了如何使用报表服务器数据库创建触发器，在报表刷新失败时自动发邮件通知，心里想着这个功能挺实用的，不需要整点去看报表是否成功刷新，或者后台查报表的刷新日志。不过进一步思考了一下，大家都知道，报表服务器报表多了之后，若都是导入模式制作的报表，难免要定时刷新，但多张报表刷新时间相近，就经常出现刷新失败的情况，以往是同一张报表

2020-12-15 15:46:42 1395

原创 Power BI连接MySQL 提示错误......未能加载文件或程序集......或它的某一个依赖项

Power BI连接MySQL数据库时报错：提示错误未能加载文件或程序集“MySql.Data, Version=5.1.4.0, Culture=neutral,........”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。解决办法：下载MySQL.Data.dll(5.1.4)程序集！解压mysql-connector-net-5.1.4-noinstall.zip...

2020-03-10 22:51:49 1360

原创 mysql_根据身份证号识别性别、年龄、所在省份

1.性别：IF(mod(SUBSTR(c.reciver_idcard_num,17,1),2),'man','woman') 性别,2. 年龄：CASE WHEN c.reciver_idcard_num <>'' THEN (YEAR(CURDATE()) - SUBSTRING(c.reciver_idcard_num,7,4)) ELSE NULL END AS...

2019-10-31 16:26:38 3220

原创 MySQL - 定时任务（每天凌晨1点、每小时、每分钟、某一时间点）

常用的一定要写在前面# 从2019-10-11开始，每天的00:30:00执行定时任务ON SCHEDULE EVERY 1 DAY STARTS '2019-10-11 00:30:00' # 每天的凌晨1点执行定时任务ON SCHEDULE EVERY 1 DAY STARTS DATE_ADD(DATE_ADD(CURDATE(), INTERVAL 1 DAY), INTE...

2019-10-10 20:01:19 8366

原创 RGB颜色查询对照表#FFFFFF

大致是下图这样的，有需要的可以点击下面的连接复制使用：https://www.114la.com/other/rgb.htm

2019-10-09 12:00:23 12722

原创 MySQL - cast()函数

日常建表习惯用create tabel tb_name as select......，这种建表方式的其中一个缺点就是：系统会根据查询出的字段，定义字段类型。有时候会把'%Y-%m-%d' 格式的日期字段定义为 varchar 。建模的时候苦不堪言。那么怎么在建表过程中自己定义每一个字段的存储类型呢？cast()函数来了，他带着尚方宝剑来了...基本格式：case（字段名 a...

2019-09-29 13:38:25 348

原创 hive - 可优化的 10 个地方及详解

1.合理选择排序排序算法比较耗资源，应根据业务需要选择order by :全局排序，大数据集会消耗太过漫长的时间 sort by：局部排序，只能保证每个reducer的输出数据都是有序的 distribute by：分桶不排序，控制map的输出在reducer中是如何划分的，若需排序，则+sort by[字段] cluster by：分桶且排序2.慎用笛卡尔积与jo...

2019-09-27 20:05:42 222

原创 hive - 解析 json

内置函数：get_json_object(json串,解析路径)解析路径说明：$ :跟对象. :子对象[] :数组下标* :所有举例：数据样例：{"movie":"1190","rate":"4.8","timestamp":"978300760","uid":"145325"}{"movie":"1191","rate":"3.7","timestamp":"...

2019-09-27 20:04:22 251

原创 hive - 自定义函数（超详细步骤，手把手的交）

用Java开发自定义函数，步骤：1.eclipse上新建一个工程project（db2019)；2.导jar依赖包：db2019右键 --build path --configure...--add library --user library --new(新建一个library(hive2.3.2_jar))--add external jars(添加jar包) --认...

2019-09-27 20:03:37 2403

原创 hive-内置函数（常用内置函数汇总）

show functions; #查看所有内置函数，共271个 show function sum; #查看sum函数的描述信息 show function extended sum; #查看内置函数的描述信息和举例的使用方法举例数据表：stu id name address score c...

2019-09-27 20:02:28 666

转载 mac笔记本修改 mysql 的密码

第一种mysql版本：5.7.171.首先我们要关闭mysql服务sudo /usr/local/mysql/support-files/mysql.server stop2.我们要用安全模式启动mysqlsudo /usr/local/mysql/bin/mysqld_safe --skip-grant-tables3.使用root账号登录mysql服务/usr/local/mys...

2019-09-17 10:22:19 155

原创 Hive的视图

创建视图create view my_view as select * from student;注意：hive中的视图仅仅是存储了SQL语句的快捷方式，在查询的时候才执行； hive中的视图只有逻辑视图，没有物化视图； hive中的视图只支持查询，不支持增删改（insert，delete，update） hive中的视图在元数据库中只保存SQL语句，不保存SQL语句的执行结果；...

2019-08-26 15:39:42 1192

原创 Hive的查找语法

基本语法格式：select [all | DISTINCT ] a.id, a.sname, a.age from student a join student02 b on a.id = b.id # 匹配函数 where a.age >=18 # 条件语句 group by a.age having a.age >=18 # 分组,having:分组后的筛选条件 ...

2019-08-26 15:37:34 284

原创 Hive的数据加载与导出

普通表的加载1.load方式load data [local] inpath [源文件路径] into table 目标表名;从HDFS上加载数据，本质上是移动文件所在的路径load data inpath '/user/student.txt' into table student;从本地加载数据，本质上是复制本地的文件到HDFS上load data loca...

2019-08-26 15:34:08 243

原创 Hive关于数据表的增删改（内部表、外部表、分区表、分桶表 & 数据类型、分隔符类型）

建表基本语句格式CREATE [external] TABLE if not exists student #默认建立内部表，加上external则是建立外部表(id int COMMENT'学号',sname string COMMENT'用户名',age int COMMENT'年龄')#字段名称，字段类型，字段描述信息 COMMENT '记录学生学号'#表的描述信息PART...

2019-08-26 15:22:35 702

原创 Hive关于数据库的增删改查

创建库if not exists：防止db_hive已经存在CREATE DATABASE if not exists db_hive;CREATE DATABASE if not exists db_hive COMMENT 'create my database named db_hive';#带注释CREATE DATABASE if not exists db_hive ...

2019-08-26 15:14:59 359

原创正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码

目录1.乱码符号种类较少，用replace()2.乱码字符种类较多，用re.sub()3.提取字符串中的中文字符4.提取字符串中的中文字符和数字5.提取其他数据清洗的时候一大烦恼就是数据中总有各种乱码字符，比如！@#￥%……&——+*（）{}：“》《？|【】‘；/。，、-=去掉这些很简单：1.乱码符号种类较少，用replace()如果只是很少类型的乱码符...

2019-04-28 14:24:18 9087

原创用户行为分析模型-（行为事件分析、用户留存分析、漏斗分析、行为路径分析、用户分群、点击分析）

最近有些忙，但是看到了很好的分析模型也要跟大家分享的，这篇博客有些粗糙，主要是po上一些链接供大家学习，有时间的话，我也会写出自己关于用户行为分析的理解的。下面是关于用户行为分析常见的分析维度，有助于为新手入门找到方向。1.行为事件分析模型行为事件分析法来研究某行为事件的发生对企业组织价值的影响以及影响程度。企业借此来追踪或记录的用户行为或业务过程，如用户注册、浏览产品详情页、成功投资...

2019-04-12 10:37:27 5890

原创特征计算 - Jaccard 相似系数与 Python 代码实现

Jaccard 相似系数又称为Jaccard相似性度量（Jaccard系数，Jaccard 指数，Jaccard index）。用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。定义为相交的大小除以样本集合的大小：（若A B均为空，那么定义J（A，B）= 1）与 Jaccard 相似系数相对的指标是Jaccard 距离（Jaccard distance）...

2019-03-12 12:06:56 13384 3

原创对照表 - 用心整理了一份国内985/211大学名单及其一流学科

国内985/211大学名单，但其中未包含港澳台的学校，比如香港中文大学，香港理工大学等。类型地区学校名称一流学科建设名单 985 北京清华大学法学、政治学、马克思主义理论、数学、物理学、化学、生物学、力学、机械工程、仪器科学与技术、材料科学与工程、动力工程及工程热物理、电气工程、信息与通信工程、控制科学与工程、计算机科学与技术、建筑学、土木工程...

2019-03-12 11:36:04 9892 1

原创 Pyecharts - 动态地图 geo()/ map() - 安装与用法详解

目录安装Pyecharts安装对应的地图拓展：准备数据使用 pyecharts 模块中的 Geo 函数：使用 pyecharts 模块中的 map 函数：把一些地域性比较明显的数据显示在一张地图上，远比给别人一个 Excel 文件好得多。Matplotlib 中也有画地图的函数，但是是静态图，因此这里主要讲 Pyecharts 模块中的画图功能。安装Pyechart...

2019-02-21 17:41:34 46873 19

原创 Matplotlib - 箱线图、箱型图 boxplot () 所有用法详解

箱线图（箱型图）的主要作用是发现数据内部整体的分布分散情况，包括上下限、各分位数、异常值。

2019-02-21 12:40:27 134383 20

原创 Matplotlib - 饼图、环形图 pie() & 多重饼图 subplots() 所有用法详解

相较散点图和折线图，柱状图、饼图、箱线图是另外 3 种数据分析常用的图形，主要用于分析数据内部的分布状态或分散状态。饼图主要用于查看各分组数据在总数据中的占比。

2019-02-20 19:49:55 14469

原创 Matplotlib - 柱状图、直方图、条形图 bar() & barh() 所有用法详解

目录基本用法多个直方图并列显示显示直方图上的数值多个直方图堆叠显示水平直方图相较散点图和折线图，柱状图（直方图、条形图）、饼图、箱线图是另外 3 种数据分析常用的图形，主要用于分析数据内部的分布状态或分散状态。柱状图（直方图、条形图）主要用于查看各分组数据的数量分布，以及各个分组数据之间的数量比较。Matplotlib 中绘制柱状图（直方图、条形图）的函数为 ba...

2019-02-18 19:56:48 41485 7

原创 Matplotlib - 折线图 plot() 所有用法详解

散点图和折线图是数据分析中最常用的两种图形。其中，折线图用于分析自变量和因变量之间的趋势关系，最适合用于显示随着时间而变化的连续数据，同时还可以看出数量的差异，增长情况。Matplotlib 中绘制散点图的函数为 plot() ，使用语法如下：matplotlib.pyplot.plot(*args, scalex=True, scaley=True, data=None, **kwargs)...

2019-02-15 18:09:03 45339 5

原创 Matplotlib - 散点图 scatter() 所有用法详解

目录基本用法散点的大小不同（根据点对应的数值）散点的颜色不同（指定颜色或者渐变色）散点图和折线图是数据分析中最常用的两种图形，他们能够分析不同数值型特征间的关系。其中，散点图主要用于分析特征间的相关关系。散点图（scatter）可以提供两类关键信息：特征之间是否存在数值或者数量的关联趋势，其趋势是线性的还是非线性的；观察数据中是否存在噪点，以及直观的判断噪点是否会对模...

2019-02-15 17:53:26 23001 1

原创 Python 画图常用点的形状，Matplotlib 设置参数marker的值 - o + - ★☆►◁ - 够用

marker type 含义 “.” point 点 “,” pixel 像素 “o” circle 圆 “v” triangle_down 下三角 “^” triangle_up 上三角 “<” triangle_left 左三角 “>” triangle_right...

2019-02-15 17:49:43 29587 1

原创 Python 画图常用颜色 - 单色、渐变色、混色 - 够用

单色装了seaborn扩展的话，在字典seaborn.xkcd_rgb中包含所有的xkcd crowdsourced color names。如下：plt.plot([1,2], lw=4, c=seaborn.xkcd_rgb['baby poop green'])虽然觉得上面的已经够用了，但是还是备份一下这个最全的吧。渐变色：混色...

2019-02-15 16:42:36 78485 4

原创非线性回归 - 案例按步骤详解 -（SPSS建模）

在上一篇时间序列的文章中，偶然发现另一份数据的整体趋势很符合非线性回归关系，那么就顺势写一篇非线性回归案例的文章吧。准备工作：SPSS - 中文版 SPSS 22.0 软件下载与安装教程 - 【附产品授权许可码，永久免费】数据解释：原数据中自变量为时间（1900~2018），因变量为金额。下面我们就来研究，金额随着时间增加而呈现的趋势变化。第一步：绘制图形，选择模型【图形】--【图...

2019-02-15 13:09:27 48777 5

原创特征计算 - 遍历求值提速 6 万倍 lambda...if...else(if...else...) +map() 对比 iterrows() - Python代码

Python 进行 DataFrame 数据处理的过程中，需要判断某一列中的值（条件），然后对其他两列或三列进行求和（均值/最值）等运算，并把运算结果存储在新的一列中。干说可能觉得比较晕，我们来看一个例子：下表 data_base 中，预测区间这一列共有 1/2/3/4 类值，现需要生成新列预测概率，新列的计算规则为：若预测区间=1，则求分类概率_1与分类概率_2的均值；若预测区间=2...

2019-02-14 16:25:22 3732 1

原创时间序列 - 案例按步骤详解 -（SPSS建模）

时间序列简单的说就是各时间点上形成的数值序列，通过观察历史数据的变化规律预测未来的值。在这里需要强调一点的是，时间序列分析并不是关于时间的回归，它主要是研究自身的变化规律的。准备工作：SPSS - 中文版 SPSS 22.0 软件下载与安装教程 - 【附产品授权许可码，永久免费】第一步：导入数据路径：【文件】--【打开】--【数据】--【更改文件类型，找到你的数据】--【打开】--【然...

2019-02-12 15:55:22 49715 16

原创 Python连接MySQL数据库（pymysql），DataFrame写入 MySQL（create_engine）- Python代码

模块安装使用以下命令安装 PyMySQL：$ pip install PyMySQL若系统不支持 pip，还可以这样安装：$ git clone https://github.com/PyMySQL/PyMySQL$ cd PyMySQL/$ python3 setup.py install Python连接MySQL数据库# -*- coding:utf-8...

2019-02-01 15:08:51 19224 2

原创线性回归 - 多元线性回归案例 - 分析步骤、输出结果详解、与Python的结果对比 -（SPSS建模）

现在用 Python 写线性回归的博客都快烂大街了，为什么还要用 SPSS 做线性回归呢？这就来说说 SPSS 存在的原因吧。SPSS 是一个很强大的软件，不用编程，不用调参，点巴两下就出结果了，而且出来的大多是你想要的。这样的特点特别适合建模初期进行算法的选择。比如SPSS 做因子分析，输出结果中有一项Kaiser-Meyer-Olkin Measure of Sampling Ade...

2019-02-01 11:58:48 54132 5

原创对照表 - 用心整理了一批国内省份、城市、县城的对照表，用于匹配，拿走不谢

采集的数据中，企业注册地址往往都是城市名，如果你想知道这些企业分布的省份，那么就需要这样一张对照表。文件存储位置：百度网盘链接: https://pan.baidu.com/s/1T8aobyzXRRvDQ0NjcEBCUw 提取码: cm7g以下是文件中的前 100 行，给大家看看大致是个什么样子，也顺便判断一下是不是自己需要的。原文件一共 2867 行，全部展示出来太长了，需...

2019-02-01 09:41:26 50264 72

线性回归（数据与python代码）.zip

SPSS安装包下载.zip

空空如也