自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

你懂了我的冬天的博客

学习学习学习

  • 博客(62)
  • 收藏
  • 关注

原创 Hive 运行流程总结包含优化

关键词:hive处理小文件,数据倾斜,mr程序流程,SQL解析步骤,hive优化,hive面试,hive控制map数,hive控制reduce数由于上传图片大小限制,思维导图未展开,请移步展开

2021-02-24 15:23:07 168

原创 Dataflow模型

Dataflow模型查看交互版本的思维导图请点击交互版连接

2021-02-12 20:26:31 1200

原创 特征工程

特征工程1.特征提取 :计数向量器(Countvectorizer) 、词频-逆向文件频率(TF-IDF)、词转向量(Word2Vec)2.特征转换 :连续型数据转换成离散数据、字符串和索引相互转换、正则化(Normalizer)、规范化(StandardScaler)、主成分分析 (PCA) 、向量-索引变换(VectorIndexer)、SQL转换器(SQLTransformer) 独热编码(OneHotEncoder)、最大值-最小值缩放(MinMaxScaler)特征向量合并(Ve

2021-02-10 19:25:04 304

原创 kafka 知识总结,以及问题总结

kafka 知识总结,问题总结kafka 知识总结,以及问题总结kafka 知识总结,以及问题总结kafka总结:消息队列,kafka架构,组件作用,为什么比磁盘快,怎么保证数据不丢失,如何手动设置offset,如何保证kafka消费顺序,kafka事务什么,搭建kafka集群等,内容持续更新。由于图片大小设置,思维导图未展开,详细请进入链接:详细思维导图...

2021-02-10 11:56:37 128

原创 ETL 血的教训

1.任何 drop 都要加if 判断是否存在(一旦作业中途终止,重新调起的时候会报错) 2.两表join 先过滤再join

2018-07-04 09:52:06 726

转载 大数据项目-----网站点击流

网站点击流数据分析项目:https://blog.csdn.net/u014033218/article/details/76847263

2018-07-03 14:08:05 2103

转载 数据字典生成sql

SELECT 表名 = case when a.colorder=1 then d.name else ” end, 表说明 = case when a.colorder=1 then isnull(f.value,”) else ” end, 字段序号 = a.colorder, 字段名 = a.name, 标识...

2018-06-21 11:47:37 237

原创 SCD 缓慢变化维 按月保存 lag lead 实现

需求 将上表变为下表*year_month nestle_outlet_code UserCode*201801 I00002N15052359710625 TSRB41CGAB013201802 I00002N15052359710625 TSRB41CGAB013201803 I00002N15052359710625 TSRB41CGAB013201804...

2018-06-19 16:06:59 232

转载 SQL Server的Merge —— 一步实现 insert,update,delete

USE tempdbGOIF OBJECT_ID('SourceTable') IS NOT NULLDROP TABLE SourceTableIF OBJECT_ID('TargetTable') IS NOT NULLDROP TABLE TargetTable--源CREATE TABLE SourceTable(id INT,[desc] NVARCHAR(50))--...

2018-06-14 11:50:16 1395

转载 完全关闭及再次启动cdh集群

关闭集群 - 关闭集群所有组件 关闭Cloudera Management Service 关闭cdh所有客户端节点sudo /opt/cloudera-manager/cm-5.11.1/etc/init.d/cloudera-scm-agent hard_stop_confirmed 使用stop不会停止pid相关的进程,会造成在客户端机器重启后再次启动cloudera-s...

2018-06-06 19:40:07 10895

转载 merger 实现缓慢变化维带时间戳type2的方式

原文地址:http://www.cnblogs.com/biwork/p/3371338.htmlUSE BIWORK_SSISGOIF OBJECT_ID('Customer') IS NOT NULLDROP TABLE Customer GOIF OBJECT_ID('DimCustomer') IS NOT NULLDROP TABLE DimCustomer G...

2018-06-04 15:55:00 326

转载 Flume(NG)架构设计要点及配置实践

看到一个特别好的博客,对于flume有较深的理解,现转载如下:Flume(NG)架构设计要点及配置实践 原文链接 : http://shiyanjun.cn/archives/915.htmlFlume日志收集分层架构应用实践原文链接: http://shiyanjun.cn/archives/category/opensource/flume...

2018-05-14 15:09:20 135

原创 sql server 性能优化日志

sql server 性能优化日志尽量减少行及操作,例如:在逻辑可以替代的情况下使用group by 而非 over函数当某个表数据是缓慢流入,建议 加 时间字段上加聚集索引当操作读取大表,且此大表全量更新,建议先drop table , 然后 select into ,最后加索引 不使用 select * ...

2018-05-09 08:56:43 1004

转载 Python中threading的join和setDaemon的区别及用法[例子]

Python多线程编程时,经常会用到join()和setDaemon()方法,今天特地研究了一下两者的区别。1、join ()方法:主线程A中,创建了子线程B,并且在主线程A中调用了B.join(),那么,主线程A会在调用的地方等待,直到子线程B完成操作后,才可以接着往下执行,那么在调用这个线程时可以使用被调用线程的join方法。原型:join(

2017-12-28 18:02:03 223

转载 javascript来实现无缝文字的滚屏

js文字向左无缝滚动.qimo8{ overflow:hidden; width:815px;}.qimo8 .qimo {/*width:99999999px;*/width:8000%; height:30px;}.qimo8 .qimo div{ float:left;}.qimo8 .qimo ul{float:left; height:30px; overfl

2017-12-22 16:38:27 828

原创 牛牛的Gate One的安装指南

原文地址:http://www.cnblogs.com/lienhua34/p/4876300.htmlLinuxMint系统下Gate One的安装指南1. Gate One简介前面有两个随笔介绍过开源软件tty.js和wetty在Linux的安装。Tty.js和wetty都是采用Node.js实现的开源Web-based ssh。今天来介绍另一个开源Web-based 

2017-12-19 15:45:24 526

转载 安装Anaconda 在Linux上

How To Install Anaconda / Miniconda / Conda on Linux (Ubuntu, CentOS, Fedora)June 15, 2016 by AunAnaconda is an enterprise-ready platform for data science analytics. It works on all popula

2017-12-17 14:24:55 2124 1

转载 Linux python 重装

这个人写的不错公司测试机环境不知道给我卸了什么包,导致yum运行报错状况:系统版本:Red Hat Enterprise Linux Server release 6.2 (Santiago)内核版本:2.6.32-220.el6.x86_64报错情况:There was a problem importing one of the Py

2017-12-15 22:38:29 4900

转载 完美解决 Linux安装python2.7 方案

Linux下安装python 2.7原文地址:http://www.jianshu.com/p/6425d18d3e47安装依赖的库yum -y install python-devel openssl openssl-devel gcc sqlite sqlite-devel mysql-devel libxml2-devel libxslt-develPython

2017-12-15 22:32:50 28381 1

转载 centos下安装pip时失败

centos下安装pip时失败:[root@wfm ~]# yum -y install pipLoaded plugins: fastestmirror, refresh-packagekit, securityLoading mirror speeds from cached hostfile* base: mirrors.tuna.tsinghua.edu.cn* e

2017-12-15 22:10:25 276

转载 最全centos源

原文地址:http://blog.51cto.com/cyhow/491392第一个比较好用 (楼下新增了php5.2版本的源),添加搜狐的源1、vi /etc/yum.repos.d/Dag.repo###定义第三方源 [dag] name=Dag RPM Repository for Red Hat Enterprise Linux baseurl=ht

2017-12-15 21:17:57 1053

转载 CentOS 6 升级python2.66 到2.78 yum 无法使用解决方案

CentOS 6.3上安装的python版本是2.6,不能满足我运行软件的要求,所以对python进行升级。Python的最新版本已经是3.3,但是Python3的兼容性可能还有一定的问题,所以还是升级到2.7较为保险。Python 2.7也能够满足绝大多数的软件需求了。原以为这也就是安装个软件的事儿,在我求稳搜索一下了之后发现,也并不是那么单纯简单。下载,解压,编译,安装,这些都是常

2017-12-15 00:15:56 445

转载 CENTOS 6.5 安装 Python 2.7 总结 系统包含python2.6

原文链接:https://segmentfault.com/a/1190000000654227CENTOS 6.X 系列默认安装的 Python 2.6 ,目前开发中主要是使用 Python 2.7 ,这两个版本之间还是有不少差异的,程序在 Python 2.6 下经常会出问题。比如: re.sub 函数 ,2.7 支持 flags 参数,而 2.6 却不支持。所以,打算安装 P

2017-12-13 13:15:12 503

转载 centos 安装ssdb 一键脚本

yum -y install wget unzip gcc gcc-c++ autoconf snappy-develcd /tmpwget --no-check-certificate https://github.com/ideawu/ssdb/archive/master.zip  -O ssdb.zipunzip ssdb.zipcd ssdb-master/deps/

2017-12-10 21:57:00 562

转载 专注微软平台的商业智能解决方案

原文地址:http://www.cnblogs.com/aspnetx/archive/2013/03/24/2978347.html    推荐读他的其他文章!!!一起玩转SQL Server 2012 下的分析服务提到SQL Server 2012的分析服务,那么不得不先说下商业智能,它是一个由数据转换成知识的过程。此篇将对SQL Server 2012的分析服

2017-12-02 22:28:12 1711

转载 几张图看懂列式存储&&join 方式

最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念。1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表(翻

2017-12-02 22:24:09 2678

转载 聚集索引和非聚集索引(整理)

官方说法: 聚集索引  一种索引,该索引中键值的逻辑顺序决定了表中相应行的物理顺序。   聚集索引确定表中数据的物理顺序。聚集索引类似于电话簿,后者按姓氏排列数据。由于聚集索引规定数据在表中的物理存储顺序,因此一个表只能包含一个聚集索引。但该索引可以包含多个列(组合索引),就像电话簿按姓氏和名字进行组织一样。           聚集索引对于那些经常要搜索范围值的列

2017-12-02 22:20:59 3732

原创 SSIS 日志管理系统 精简版

第一步:创建需要的表第二步:创建相应的存储过程第三步:创建需要的视图第四步:SSIS 创建流程第一步创建需要的表:USE [NESTLEBI_LOG]GO/****** Object: Table [dbo].[ETL_EXECUTE_STATUS] Script Date: 10/25/2017 10:30:47 AM ******/SET ANSI

2017-10-25 10:28:33 1259

原创 生活

发怒,是用别人的错误惩罚自己;烦恼,是用自己的过失折磨自己;后悔,是用无奈的往事摧残自己;忧虑,是用虚拟的风险惊吓自己;孤独,是用自制的牢房禁锢自己;自卑,是用别人的长处抵毁自己。摒弃这些,你就会轻松许多!

2017-09-15 09:59:42 186

原创 非常重要的技术博客地址

SSIS SQL Service SSRS 数据仓库 博客地址:https://ask.hellobi.com/blog/biwork/sitemap/

2017-08-25 10:23:05 235

转载 SSIS--- 数据仓库中实现 Slowly Changing Dimension 缓慢渐变维度的三种方式

看文章之前先了解----缓慢渐变维度 (Slowly Changing Dimension) 常见的三种类型及原型设计:http://blog.csdn.net/u012071918/article/details/775330252013-10-16 00:09 by BIWORK, 6661 阅读, 14 评论, 收藏, 编辑开篇介绍关于 Slowly Changing

2017-08-24 17:37:15 1328

转载 SSIS+数据仓库系列--- 缓慢渐变维度 (Slowly Changing Dimension) 常见的三种类型及原型设计

在从 OLTP 业务数据库向 DW 数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到数据仓库中?在数据仓库中,哪些数据应该随之变化,哪些可以不用变化?考虑到这些变化,在数据仓库中的维度表又应该如何设计以满足这些需要。很显然在业务数据库中数据的变化是非常自然和正常的,比如顾客的联系方式,手机

2017-08-24 17:30:35 4107

原创 SSIS异常--SSIS FTP Task Variable Remote Path invalid

I am working on the SSIS FTP Task that transfer file from one FTP server to local location, rename the file name, and finally transfer the renamed file to another FTP server. So I defined 2 FTP tasks.

2017-08-23 16:45:46 8677

转载 SSIS--如何在 ETL 项目中统一管理上百个 SSIS 包的日志和包配置框架

原文链接:http://www.cnblogs.com/biwork/p/biworklog.html

2017-08-21 15:45:12 2302

原创 Python--Python Tornado 介绍

正在学习地址:https://www.kancloud.cn/kancloud/introduction_to_tornado/61347

2017-08-18 16:33:32 338

转载 Python--python数据挖掘领域工具包

原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/  Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线

2017-08-18 15:12:42 1815

原创 Java--a++与 ++a 与 a=a+1 与a+=1

a++   等效   a=a+1++a   等效   a+=1计算顺序的区别:a++是先参加程序的运行再+1,而++a则是先+1再参加程序的运行。举例:a=2;  b = a++;    运行后: b = 2,a =3 a=2;  b = ++a;    运行后: b = 3,a =3; 内存数据类型区别:a=a+1会被强制转换为更高的数据类型,a+

2017-08-16 17:57:13 1786

转载 SQL--浅析,开窗函数,聚合开窗函数,排序开窗函数。

作为一名开发人员来讲,我感觉在职场白混了好多年,可能是自己真的没有进取的精神吧,看了《程序员的SQL金典》这本电子书,真的让我学到了不少知识,真心喜欢这本电子书,书中讲解的内容比较好懂,也比较实用。谢谢作者的辛勤汗水:)。今天将要介绍SQL Sever的开窗函数,何谓开窗函数,不懂吧。反正对于我来说,我是摸不着头脑了,第一次听说过。那么,什么是开窗函数,其实可以理解为是聚合函数的一个加强版

2017-08-16 14:15:40 4526

翻译 Tableau--Tableau LOD (详细级别表达式理解)

英文原版地址:https://www.interworks.com/blog/rcurtis/2016/03/21/tableau-deep-dive-lod-introduction-detail

2017-08-15 15:57:32 3322

原创 Tableau--Tableau 同一位置切换不同的报表及内容

第一步 准备三张报表(如下图) 第二步创建参数(参数里的内容跟表的名字一样)第三步 用上步创建的参数来创建维度第四步 右击参数切换 选择显示参数控件 (三个表重复操作这个步骤)第五步向每个报表里添加筛选器(步骤三创建维度作为为筛选器)每个报表重复执行此步骤第六步创建一个dashboard 将各个表单重叠的放在一起(每个表单为浮动方式)之后

2017-08-15 14:47:06 15633 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除