自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 windows环境安装JDK java环境变量配置教程

windows环境安装JDK java环境变量配置教程下载安装环境变量配置1 进入环境变量配置页面添加环境变量检查JDK配置下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk12-downloads-5295953.html根据自身系统选择对应的下载文件,如果是64位请选择对应64位系统文件.勾选 “Accep...

2019-06-20 11:07:10 307

原创 Python拆分Excel 身份证信息 与分词统计

Python解析Excel并且进行分词统计文件描述新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入文件描述你...

2019-06-05 10:43:10 889

原创 python分析excel(column判断写入,复制excel等)

import openpyxlfrom datetime import datetime,timedeltaimport pandas as pdimport os, sys,re,shutiltt = datetime.now().timetuple()today = str(tt.tm_year)+'-'+str(tt.tm_mon)+'-'+str(tt.tm_mday)p...

2019-06-03 03:19:30 418

原创 SQL 计算一个时间段内每十分钟统计一次脚本

表结构如下,假如我想统计每个id,在每个整点的十分钟区间内有多少:十分钟区间逻辑如下:select upg.name,count(tmp.id) totalNum,tmp.newTimefrom( select t.id, -- ID,状态 to_char(t.Time,'yyyymmddhh24mi') oldTime, -- 原来的时...

2019-05-11 13:56:28 2048

原创 采集日志工具整理

1、filebeaturl:https://www.elastic.co/cn/products/beats/filebeat轻量型日志采集器

2019-04-22 11:39:15 1035

原创 一些BI可视化工具的使用总结

建设数据统一的数据平台,免不了使用一些可视化工具,如下是在工作几年后,对这些工具的总结,有不正确之处,请指正。IBMcognos润乾SmartBIFineReport、FineBIPowerBI...

2019-04-07 21:11:36 964

原创 00、Python一些工具箱

BIF 内置函数如何查看内置函数:dir(__builtins__)可以查看内置方法,结果如下:>>> dir(__builtins__)['ArithmeticError', 'AssertionError', 'AttributeError', 'BaseException', 'BlockingIOError', 'BrokenPipeError', '...

2019-04-06 19:00:35 290

原创 01、如何解决嵌套列表逐一输出

加入目前有这么一个列表citys = ['shanghai','beijing','guangzhou','shenzhen',['江苏',['南京','镇江','苏州',['昆山','南通']]]]需要一一打印出列表:shanghaibeijingguangzhoushenzhen江苏南京镇江苏州昆山南通可以通过递归的思想来解决,首先定义...

2019-04-06 18:50:55 745

原创 Greenplum数学函数和操作符

最近可能需要干一些数据分析的活,想到能否先用SQL实现一些算法,事不宜迟,第一步必须了解一些基础的数学函数和操作符。数学操作符 编号 操作符 描述 栗子 结果 001 + 加 select 32+90 122 002 - 减 select 100-23 77 003 * 乘 select 5...

2019-02-18 14:36:52 2448

原创 ubuntu16.04 安装JDK1.7运行环境

环境说明:UBUNTU16.04 X64jdk:jdk-7u80-linux-x64.tar.gz下载链接:https://www.oracle.com/technetwork/java/javase/downloads/index.html将下载文件上传linux服务器解压安装包:tar -zxvf jdk-7u80-linux-x64.tar.gz移动解压文件到/usr/l...

2019-01-29 11:00:31 939

原创 Python将EXCEL导入 Greenplum

在项目中会碰到需要将excel批量导入数仓的需求,python的xlrd正好简单易用,拿来一试!import psycopg2import xlrdimport sysimport time''' 连接数据库 args:db_name(数据库名称) returns:db'''sys_time = time.ctime()print(sys_time)...

2019-01-15 11:06:10 563

原创 Greenplum计算每月消耗的基本语法

SELECT dtime.sysmonth, opos.orderby_person,CASE WHEN opos."消耗金额" IS NULL THEN 0 ELSE opos."消耗金额" END FROM ( SELECT DISTINCTto_char ( onday, 'yyyymm' ) sysmonthFROM ( SELECT ca...

2019-01-14 10:07:27 359

原创 Greenplum 资源状态查看记录

作为BI工程师,对SQL的熟练掌握必不可少,greenplum作为MPP数据库,当然需要深入了解一些重要的开发技巧。日常SQL开发规范要求:1.代码行清晰、整齐、层次分明、结构性强,易于阅读;2.代码中应具备必要的注释以增强代码的可读性和可维护性;3.代码应充分考虑执行效率,保证代码的高效性;Greenplum数据字典使用,有个重要的schema,分别是:pg_catalog,pg...

2018-11-17 23:12:46 2249 1

原创 数据仓库建设

在遇到新项目的同时,考验一个人的数仓建设。以下为我建设点滴以及踩坑记录。环境:目前底层数据比较分散,业务系统中数据比较难搞,给业务部门提取数据逻辑比较复杂。需求:解决大部分excel手工数据,先拿财务数据‘开刀’,第一个就是最难啃得骨头。给全公司建设统一数据查看平台,把各个分散得数据归集起来形成数据仓库。...

2018-07-23 17:52:58 486

原创 TiDB开发测试

由于项目需要,需要对TiDB对接kettle进行功能测试,以下是初步测试结果,请参考,后续会不间断更新 类目 测试方案 测试过程 测试结果 接口测试 连接数据库(MySQL)、Transactions(Kettle) 使用Kettle转换MySQL数据表 完全兼容MySQL,JDBC驱动直接使用MySQL自带驱动,可以快速进入开发。 连接稳定性...

2018-07-23 17:46:26 1563

python实时同步数据库数据

从数据直抽到数据库,通过配置表的形式,可以根据主键实时将生产库的表同步到ods层面,支持增加和修改,不支持删除操作。

2018-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除