自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 我回答面试官,说缓慢变化维有10种处理方式,他惊了

在维度建模理论中,有8种处理方式,包括基础的5种以及混合的3种。再加上大数据时代的2种极限型,共10种,具体如下:

2020-04-25 09:21:49 585 2

原创 你还记得Spark湖畔reduce和reduceByKey的区别吗

reduce和reduceByKey,多了ByKey,相差了很多。

2020-04-23 21:11:57 360

原创 你真的懂Hive窗口函数吗,如何开窗聚合?

目录1 窗口函数 Windowing functionsFIRST_VALUE(col, bool DEFAULT)LAST_VALUE(col, bool DEFAULT)LEAD(col, n, DEFAULT)LAG(col, n, DEFAULT)2 OVER详解 The OVER clauseFUNCTION(expr) OVER([PARTITION BY ...

2020-04-16 15:12:14 807 5

原创 org.apache.hadoop.hbase.NotServingRegionException: table_name,row_ky,xxx.xxx. is not online on xxx,x

场景使用spark同步hbase数据至hive报错信息at org.apache.hadoop.hbase.client.RpcRetryingCallerWithReadReplicas.throwEnrichedException(RpcRetryingCallerWithReadReplicas.java:276)at org.apache.hadoop.hbase.clie...

2020-04-14 16:10:47 496 1

原创 Hive函数大全(含例子)之数据屏蔽函数、杂项函数、XML解析函数

数据屏蔽函数 Data Masking Functionsmask(string str[, string upper[, string lower[, string number]]])返回结果: 将字符串str中的大写字母替换为upper(默认为X),小写字母替换为lower(默认为x),数字替换为number(默认为n)返回类型: stringselect mask(...

2020-04-11 15:43:38 784

原创 Hive函数大全(含例子)之字符串函数(String Functions)

字符串函数 String Functionsascii(string str)返回结果: 返回字符串str首字母的十进制ascii码 返回类型: int select ascii('ABC');-- 结果为 65base64(binary bin)返回结果: 将二进制转换为base64编码 返回类型: string select base64(encode('Uncle B...

2020-04-10 09:52:20 1873

原创 Hive函数大全(含例子)之集合函数、日期函数、条件函数

# 集合函数 Collection Functions## size(Map<K.V>)返回结果:返回Map中的元素个数返回类型:int* select size(str_to_map('k1: v1')); -- 结果为 1* select size(str_to_map('k1:v1,k2:v2')); -- 结果为 2## size(Array...

2020-04-06 23:50:24 476

原创 Hive函数大全(含例子)之数学函数(Mathematical Functions)

为了方便测试,创建了dual表,该表只有一个字段以及只有一行数据,建表语句如下:CREATE TABLE dual ( x INT)函数名称:round(DOUBLE a),返回类型:DOUBLE返回数字 a 四舍五入后的值select round(1.5) from dual; -- 结果为 2select round(1.1) from dual; -- 结果为...

2020-04-05 21:59:22 1946

原创 Hive下数据仓库历史拉链表如何加工,分区键该如何选择

1 缓慢变化维说到历史拉链表,首先得说下缓慢变化维。在现实世界中,维度的属性并不是静态的,而是随着时间的变化而变化,这也体现了数据仓库的特点之一,是反映历史变化的。相对于数据增长较为快速的事实表,维度的变化是相对缓慢的。在维度建模理论中,处理缓慢变化维有三种方式:新的维度属性直接覆盖旧的维度属性,不保留历史数据; 增加新的维度行(需要生成代理键来支持),维度变化前的事实关联...

2020-04-04 17:58:13 2988 1

原创 一键识别图片中的表格数据,并转为Excel

背景有时候我们需要将图片中的表格数据提取出来进行再次编辑,但一个字一个字的敲出来是件非常麻烦的事。有没有更好的办法,一键提取图片中的表格数据,并转成Excel。这时候,就需要用到OCR技术了。OCR传统OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后...

2020-03-23 16:10:41 19990 11

转载 【本周Python热点回顾】画一棵漂亮的樱花树,Python3*和**运算符,Python入门,这就是Python3.8么,i了

热点1:Python——画一棵漂亮的樱花树(不同种樱花+玫瑰+圣诞树喔)摘要:最近翻到一篇知乎,上面有不少用Python(大多是turtle库)绘制的树图,感觉很漂亮,我整理了一下,挑了一些我觉得不错的代码分享给大家(这些我都测试过,确实可以生成)one 樱花树动态生成樱花效果图(这个是动态的):实现代码import turtle as Timport random...

2020-03-15 22:40:17 913

原创 【皇室战争】使用Clash Royale API,构建你的皇室应用

Clash RoyaleAPI通过Clash RoyaleAPI你可以准确并安全的访问皇室战争的数据,获取美妙的体验,开发令人惊叹的工具或是网站。Clash RoyaleAPI保持和游戏本身一样的质量保准,而且持续开发和改进着。第三方包:clashroyaleclashroyale是一个用python编写的支持异步和同步的对于官方Clash Royale API的封装。...

2020-03-08 22:33:22 16242 2

原创 【tkGo】使用Python连接Impala

一、背景使用Python,打通Impala通道,实现取数自动化,或是作为数据分析的数据源。二、Apache ImpalaImpala是一个开源的,基于Hadoop的分析型数据库。Impala可以查询存储在HDFS或者HBase中的数据。Impala通过专用分布式查询引擎,绕过MapReduce直接访问数据,查询性能远高于Hive。三、impyla基于HiveServ...

2020-02-23 21:35:29 938

原创 【tkGo】一键查找文件内容

1 背景有时候,我们想不起自己记录的信息在哪个文件里,需要一个个打开文件查找,非常麻烦。这时候,我们可以借助python,实现一键快速查找。2 环境Python 3.7.3 64-bittkinterre3 os.walk()os.walk方法用于遍历目录和文件,简单易用,可以帮助我们高效的处理目录、文件方面的事情os.walk方法语法格式如下:os.wa...

2020-02-16 22:26:21 643

原创 【tkGo】实时记录您的剪贴板

1 背景Make your clipboard data no longer easy to lose2 环境Python 3.7.3 64-bitpywin32 2243 win32clipboard优点:速度快缺点:不跨平台获取文本import win32clipboard as clipclip.OpenClipboard() # 打开剪贴板cli...

2020-02-06 10:42:30 495

原创 【tkGo】推拉窗(Panedwindow)的使用案例

1 背景当我们在tkinter-GUI编程时,需要考虑如下场景的需求:用户需要动态调整子窗口的大小,以改变信息的可见范围。这时候,就需使用到推拉窗组件,Panedwindow。推拉窗根据推拉方向不同分为水平推拉窗和垂直推拉窗两种,并支持嵌套。2 环境Python 3.7.3 64-bit3水平方向推拉窗from tkinter import NSEW, HORIZO...

2020-01-29 14:50:49 736

原创 【tkGo】将Excel里的图片链接替换为图片(Excel嵌入图片)

1 背景因为某些原因,我们的Excel里会放入一些图片链接,但查看的时候需要一个个点开,通过浏览器显示,非常麻烦。我们可以通过python的openpyxl这个库来解决此问题,一键替换所有链接为图片。2 环境Python 3.7.3 64-bitopenpyxl 3.0.0 (用于操作Excel)requests 2.22.0 (用于下载图片)validators 0....

2020-01-19 22:55:53 5688 6

原创 【tkGo】线程和装饰器的使用案例

1 背景在使用tkinter进行GUI编程时,有时会碰到界面未响应的情况,如下:2 解决办法原因很有可能是执行的某个动作阻塞了线程,可通过使用threading.Thread解决(本例中是点击了Go菜单下的开始选项导致的界面卡死)2.1 解决方法1 - 使用线程封装该动作修改前代码:class MenuGo(EMenu): LABEL_GO = "Go" ...

2020-01-14 10:12:12 256

原创 pip安装pyspark报MemoryError错误

解决办法:增加--no-cache-dirpip --no-cache-dir install pyspark

2019-06-06 17:36:42 875 9

原创 python requests header

url = "https://www.dropbox.com/sh/5shvr16c0xtv0lr/AAD8CcuyPqDTf0xbiitBZkVta?dl=1"ua = 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'header = {"User-Agent": ua}r = requests....

2019-05-15 13:41:24 2905

原创 【MySQL】云数据库迁移

半年前,由于贪便宜,在某某云上购置了一个MySQL云数据库。如今眼看要到期了,就又在这某某云上购置了另一台MySQL。为什么不续费之前的MySQL?因为贵啊!新购比较便宜!但麻烦的是某某云不提供数据迁移服务,说我钱花得不够多,说基础版的MySQL不提供此项服务。STEP1:nohup mysqldump -h10.**.***.** -P**** -u root -ppwd da...

2019-03-29 20:49:53 241

原创 django获取访问IP

1、nginx增加配置proxy_set_header        REMOTE_ADDR     $remote_addr;proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;2、django中编写def get_client_ip(request): x_forwarded_for = ...

2018-12-17 23:42:01 985

原创 【EA-MT4】外汇程序化交易之枢轴点

枢轴点(Pivot Points)是一个非常单纯的阻力支撑体系,是一种经典的日内交易策略。大概10年前由某个期货高手所发明,至今已广泛应用在股票、期货、国债、指数等高成交量的金融商品上。经典的Pivot Point是7点系统,由7个价格组成。 计算原理:轴心: Pivot Point = (High + Close + Low) / 3阻力一: R1 = 2 * Pivot - L...

2018-10-18 23:21:26 4058

原创 windows下部署kafka_2.12-1.1.0

安装JDK安装zookeeper下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.12/zookeeper-3.4.12.tar.gz解压至一个目录进入conf目录复制zoo_sample.cfg,并重命名为zoo.cfg编辑zoo.cfg文件修改dataDir路径,如dataDir=H:\\proj\...

2018-06-10 00:54:44 1680

原创 Linux下安装telnet

检测telnet-server的rpm包是否安装[root@Salve2 home]# rpm -qa telnet-server若无内容输出,则表示未安装yum install telnet-server[root@Salve2 home]# yum install telnet-server检测telnet-se的rpm包是否安装[root@Salve2 home]# rpm -qa teln...

2018-06-09 23:22:19 835

原创 [HIVE]Query: AEUnion is not supported. [SQL State=HY000, DB Errorcode=500051]

SELECT xFROM zydb.dualUNION ALLSELECT xFROM zydb.dual可能是JDBC问题,可以到https://www.cloudera.com/downloads/connectors/hive/jdbc/2-6-1.html下载最新版本

2018-06-09 21:53:32 3728

原创 Linux下修改pip3默认源

创建~/.pip文件夹[root@Salve1 bin]# mkdir ~/.pip创建pip.conf文件并添加index-url[root@Salve1 bin]# vi ~/.pip/pip.conf[global]index-url = https://pypi.tuna.tsinghua.edu.cn/simple测试[root@Salve1 bin]# pip3 install my...

2018-04-24 22:49:55 5705

原创 Linux下安装mysqlclient

尝试安装mysqlclient[root@Salve2 WebSite]# pip3 install mysqlclient报错OSError: mysql_config not foundCollecting mysqlclient Downloading https://files.pythonhosted.org/packages/6f/86/bad31f1c1bb0cc99e88ca2...

2018-04-23 23:43:09 19317

原创 Linux下部署Nginx

安装pcre[root@Salve2 home]# yum install -y gcc gcc-c++[root@Salve2 home]# wget https://jaist.dl.sourceforge.net/project/pcre/pcre/8.42/pcre-8.42.tar.gz[root@Salve2 home]# tar -zxvf pcre-8.42.tar.gz...

2018-04-23 23:19:12 143

原创 Linux下编译安装Python-3.6.5

下载Python-3.6.5[root@Master /]# cd /home[root@Master home]# wget http://cdn.npm.taobao.org/dist/python/3.6.5/Python-3.6.5.tgz解压Python-3.6.5.tgz[root@Master home]# tar -zxvf Python-3.6.5.tgz安装gcc和zlib等...

2018-04-22 17:32:05 5366

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除