自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 Python零基础入门--基础(十五)- 线程Threading模块调用疑问

一、singleThread()方法为什么是依次执行#/usr/bin/python#-*- coding: UTF-8 -*-import threadingimport time,datetime#继承类对象class MyThread(threading.Thread): def __init__(self,func,args): s...

2019-07-18 12:09:28 293

转载 Python零基础入门--基础(十四)--进程、线程、协程

一、进程(process) 程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别就在于:程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次执行活动,属于动态概念。在多道编程中,我们允许多个程序同时加载到内存中,在操作系统的调度下,可以实现并发地执行。这是这样的设计,大大提高了CPU的利用率。进程的出现让...

2019-07-02 14:56:26 249

转载 Python零基础入门--基础(十三)-- 面向对象类

1、类

2019-07-02 11:29:53 236

转载 Python零基础入门--基础(十二)-- 面向对象、过程开发

一、面向对象

2019-07-02 11:05:32 172

转载 Python零基础入门--基础(十一)-- Logging、re模块

一、Logging

2019-07-02 10:34:12 130

翻译 Python零基础入门--基础(十)-- Setuptools

Setuptools是Python distutils的增强功能集合版,允许开发人员更轻松地构建和分发Python包,尤其是那些依赖于其他包的包。对用户使用Setuptools进行构建和分发包就像基于distutils的普通Python包。您的用户无需安装甚至不需要了解setuptools即可使用它们,并且您不必在发行版中包含整个setuptools包。如果用户从源代码构建程序包并且尚未安装...

2019-06-21 16:32:44 394

转载 Python零基础入门--基础(九)-- 装饰器

一、装饰器软件开发中的一个原则“开放-封闭”原则,简单来说,它规定已经实现的功能代码不允许被修改,但可以被扩展,即:封闭:已实现的功能代码块不应该被修改 开放:对现有功能的扩展开放谈装饰器前,还要先要明白一件事,Python 中的函数和 Java、C++不太一样,Python 中的函数可以像普通变量一样当做参数传递给另外一个函数,例如:def foo(): print(...

2019-06-21 14:34:25 204

转载 Python零基础入门--基础(八)-- 迭代器

一、列表生成器1.1>>> a = [i+1 for i in range(10)]>>> a[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]1.2>>> a = map(lambda x:x+1, a)>>> a[2, 3, 4, 5, 6, 7, 8, 9, 10, 11]...

2019-06-21 12:22:15 98

原创 Python零基础入门--基础(七)-- 函数

一、函数定义函数是指将一组语句的集合通过一个名字(函数名)封装起来,要想执行这个函数,只需调用其函数名即可。特性:减少重复代码 使程序变的可扩展 使程序变得易维护def calc(x,y):#函数名 res = x**y return res #返回函数执行结果 c = calc(a,b...

2019-06-19 17:26:57 105

原创 Python零基础入门--基础(六)-- 字符编码

python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill),ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256-1,所以,ASCII码最多只能表示 25...

2019-06-19 16:47:11 144

原创 Python零基础入门--基础(五)-- 基本数据类型操作

后续更新

2019-06-19 16:36:52 115

原创 Python零基础入门--基础(四)--表达式语句

后续更新

2019-06-19 16:36:15 107

原创 Python零基础入门--基础(三)--Python运算符

Python语言支持以下类型的运算符:算术运算符 比较(关系)运算符 赋值运算符 逻辑运算符 成员运算符 身份运算符 运算符优先级算术运算符 以下假设变量:a=10,b=20:运算符 描述 实例 + 加 - 两个对象相加 a + b 输出结果 30 - 减 - 得到负数或是一个数减去另一个数 a - b...

2019-06-19 12:08:55 105

原创 Python零基础入门--基础(二)--Python数据类型

目录一、数字二、字符串三、列表四、元祖五、字典六、数据类型转换一、数字Python支持四种不同的数字类型:int(有符号整型) long(长整型[也可以代表八进制和十六进制]) float(浮点型) complex(复数)长整型也可以使用小写 l,但是还是建议您使用大写 L,避免与数字 1 混淆。Python使用 L 来显示长整型。自从Python...

2019-06-19 11:46:53 174

原创 Python零基础入门--基础(一)--Python介绍

目录一、Python介绍1.1 Python主要应用领域:1.2 Python语言1.3Python解释器1.4Python安装二、Python程序2.1 Hello.py2.2 代码注释2.3 Python的运行过程一、Python介绍1.1 Python主要应用领域:云计算: 云计算最火的语言, 典型应用OpenStackWEB开发: 众...

2019-06-19 11:25:06 274

原创 VMware-yum配置安装

配置向导参考http://mirrors.ustc.edu.cn/help/centos.html

2019-05-23 16:18:28 1443

转载 数据仓库-模型

A、实体关系(ER)模型数据仓库之父Immon的方法从全企业的高度设计一个3NF模型,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF,它与OLTP系统中的3NF的区别,在于数据仓库中的3NF上站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系抽象,它更多的是面向数据的整合和一致性治理,正如Immon所希望达到的:“single version of the...

2018-09-07 11:36:16 1923 1

翻译 Impala基础语法(二)

Impala SQL 语言元素(Elements)Impala SQL 方言支持一组标准元素(a range of standard elements),加上许多大数据方面的扩展,用于数据加载和数据仓库方面。  注意:在之前的 Impala beta 版中,在 impala-shell 中每一语句结束时的分号是可选的。现在 impala-shell 支持多行命令,以便于从脚本文件中复制粘贴代码,这...

2018-04-20 15:02:43 6414

翻译 Impala基础语法(一)

 1.1 Impala服务组件 1.1.1 Impala Deamon     该进程运行于集群每个节点的守护进程,是Impala的核心组件,每个节点该进程的名称为 impalad 。     > ps -ef|grep impalad       负责读取数据文件;接受来自impala-shell、Hue / JDBC/ODBC的查询请求,与其他节点并行分布式工作,       并将本节点...

2018-04-18 17:18:36 18371

翻译 Impala内存优化实战案例

Impala内存优化实战案例原文地址:https://blog.csdn.net/sunwukong_hadoop/article/details/53695403文章来源:畅游DT时代(微信公众号)作者:中国联通网研院网优部李珂一. 引言    Hadoop生态中的NoSQL数据分析三剑客Hive、HBase、Impala分别在海量批处理分析、大数据列式存储、实时交互式分析各有所长。尤其是Imp...

2018-04-17 17:50:19 762

转载 常用Oracle分析函数详解

原文地址:http://www.cnblogs.com/benio/archive/2011/06/01/2066106.html学习步骤:1. 拥有Oracle EBS demo 环境 或者 PROD 环境2. copy以下代码进 PL/SQL3. 配合解释分析结果4. 如果网页有点乱请复制到TXT中查看/*假设一个经理代表了一个部门*/SELECT emp.full_name,       e...

2018-04-17 17:35:19 239

转载 Hbase--基础介绍

本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈  链接:https://mp.weixin.qq.com/s/CXsGcbbsKTMXotlwRFQ5xw开篇用惯了Oracle/MySQL的同学们,心目中的数据表,应该是长成这样的:这种表结构规整,每一行都有固定的列构成,因此,非常适合结构化数据的存储。但在NoSQL领域,数据表的模样却往往换成了另外一种行由看似"杂乱无章"的列组成,行与...

2018-03-30 10:15:31 7314

转载 Maven配置-(五)-安装jar包到本地仓库

假设自己开发了一个公共类库想要用到其它项目中,为了方便管理所有项目都引入Maven,如果在项目上要用这个公共类库,可以有如下思路解决:1、采用本地手动机制拷贝项目到lib文件夹中,但是缺点就是更新这些操作都必须是手动。2、搭建私有仓库nexus,把公共库提交上去。3、上次到默认中央仓库,参考:http://www.cnblogs.com/EasonJim/p/6671419.html4、安装到本地...

2018-03-29 15:29:10 145

转载 Maven配置-(四)-依赖机智

假设一个项目需要用到日志组件Log4j,那么有如下方式添加这个组件。一、传统方式:1、访问官网https://logging.apache.org/log4j/2.x/download.html,下载指定版本的jar包。2、拷贝jar包到项目的lib目录,或者eclipse中指定依赖目录。3、当有新版的Log4j更新,以上方式就要重新做一次。那么问题来了,像Log4j这样的包管理工作就必须自己去配...

2018-03-29 15:27:44 196

转载 Maven配置-(三)-默认中央仓库

当构建一个Maven项目时,首先检查pom.xml文件以确定依赖包的下载位置,执行顺序如下:1、从本地资源库中查找并获得依赖包,如果没有,执行第2步。2、从Maven默认中央仓库中查找并获得依赖包(http://repo1.maven.org/maven2/),如果没有,执行第3步。3、如果在pom.xml中定义了自定义的远程仓库,那么也会在这里的仓库中进行查找并获得依赖包,如果都没有找到,那么M...

2018-03-29 15:27:05 9721 1

转载 Maven配置-(二)-修改默认本地资源库文件夹

默认的Maven地址如下:Linux/Mac:~/.m2(提示:~/为当前用户目录地址)Widnows:C:\Users\{username}\.m2(提示:username为当前用户名)修改操作如下:1、打开{M2_HOME}/conf/settings.xml文件,找到localRepository节点如上所示,修改为自定义目录即可。2、测试采用新建一个pom来进行,当然是构建默认最全的那种,...

2018-03-29 15:24:14 418

转载 Maven配置-(一)-设置代理

多时候电信的网络对于出国不太稳定,针对一些库下载速度比较慢,所以在使用SSR出国时配置maven使用是一种不错的选择。当然,还有另一种选择,就是使用国内的镜像库。操作步骤:1、打开{M2_HOME}/conf/settings.xml文件,注意:{M2_HOME}为maven所在目录。2、找到proxies节点把上面的注释去掉,然后修改成代理的地址即可。提示:类似配置了SSR这些代理,上面的用户名...

2018-03-29 15:22:46 4870

转载 Maven配置-Setting详解

<?xml version="1.0" encoding="UTF-8"?>      <settings xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"      xsi:schemaLocation="http://maven.ap

2018-03-29 15:20:51 250

转载 Scala基础-Scala各种符号的含义

::::::::运算符:::(三个冒号)表示List的连接操作,比如: Java代码val a = List(1, 2)   val b = List(3, 4)   val c = a ::: b  [java] view plain copyval a = List(1, 2)  val b = List(3, 4)  val c = a ::: b    其中a,b保持不变,a和b连接产生一...

2018-03-28 10:46:35 3492

转载 Flink-获取环境变量

val env = ExecutionEnvironment.getExecutionEnvironment    val conf = env.getConfig //获取执行环境的配置  //conf进行如下配置  //    conf.setExecutionRetryDelay(5)  //    conf.disableClosureCleaner()  conf.setParallel...

2018-03-27 21:26:23 3133

原创 Metabase研究

一、    概述Metabase是一个简单、开源的数据呈现方式,通过给公司成员、分析师新建Question,从而得到数据进行分析、学习。二、    功能l  将数据分析常用的查询通过通过一个易于操作的界面来操作l  为分析师提供不同的数据查询模式l  分析师可创建规范细分和指标以供团队中其他人员使用l  业务人员可可以保存分析结果并且分享给团队里其他成员l  团队中开发

2018-02-06 18:17:33 19201 6

翻译 数仓(六)-清洗

一、数据采样     分组求和分析样本数据二、约束类型列属性约束: 检查列的空( Null)值 超出期望的最高和最低范围的数字值 长度超长和超短的列 包含有效值列表之外的数值 匹配所需的格式或一组格式 在已知的错误值列表中命中数,之所以用这个列表是由于可接受值的列表太长了 拼写检查器

2018-01-04 12:26:15 867

翻译 数仓(五)-规范化

一、数据质量正确的:数据的值和描述真实的反映了它需要表达的对象。例如,某一位作者当前居住的城市叫 New Hope,那么,关于家庭地址的数据应该包含正确的城市名称 New Hope。明确的:数据的值和描述应该是只有一个含义。例如,在美国至少有十个城市叫 New Hope,而在宾夕法尼亚州只有一个城市叫 New Hope。那么,在“精确的”数据中,描述这个城市中的地址是应该包含城市名 New

2018-01-04 11:59:35 700

翻译 数仓(四)-抽取-变化的数据

一、监测变化       1、审计列:利用源系统中审计列的有效方法。例:就是从创建日期和最后修改日期列中选择最后日期和时间 数据       2、利用数据库日志的获取和提取        3、初始和增量加载 :       创建两个表: previous_load 和 current_load。初始化处理批量加载到 current_load表。因为初始加载过

2018-01-04 11:55:02 1050

翻译 数仓(四)-抽取-逻辑设计

一、设计逻辑        1. 有一个规划。这个 ETL 过程必须用逻辑的和文档化的形式表示出来。来详细描述在源系统和数据仓库之间到底做了些什么。2. 确定候选的数据源。从最高级别的业务对象出发。3. 使用数据评估工具分析源系统。源系统中的数据必须在数据质量,完整性和适合使用方面进行仔细检查,对任何进入数据仓库的数据都必须按照适当的业务规则进行修正是最好的选择。4.

2018-01-04 10:54:37 1119

翻译 数仓-数据结构

一、集结区( Staging Area)数据的集结过程指的是写入磁盘二、集结目的可恢复  备份审计:很多时候,源系统和目标系统之间的数据沿袭在ETL 代码中丢失,当审计 ETL 流程时,数据集结区的存在使得对 ETL 流程中的不同阶段的直接比较成为可能,因为这时候审计人员(或者程序员)可以简单的比较原始的输入文件和输出文件来检查逻辑转换规则。当源系统

2018-01-03 18:35:53 855

翻译 数仓-需求

一、数据评估 数据评估是一个系统的检测过程,对ETL 需要使用的数据源的质量、范围和上下文进行检查。从极端意义上讲,一个清洁的数据源是一个维护良好的数据源,只需进行最少量的数据转换和人工干预就可以直接加载到最终的事实表和维表。但对于脏数据源可能需要如下的步骤进行处理: 完全清除某些输入字段 补入一些遗失的数据,产生特殊的代理键 自动替换掉某些错误数据值 在记录级

2018-01-03 18:25:16 399

翻译 数仓-概述

一、ETL 系统           从源系统抽取数据,执行数据质量和一致性标准,然后规格化数据,从而使分散的源数据可以集中在一起使用,最终再以可以展现的格式提交数据,以便应用开发者可以创建应用系统,也使最终用户可以制定决策       消除数据错误并纠正缺失数据       提供对于数据可信度的文档化衡量       为保护数据获取相互作用的数据流程

2018-01-03 17:40:21 3818

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除