5 WindyQCF

尚未进行身份认证

欢迎关注公众号:DataClub

等级
TA的排名 4w+

写给数据分析师的数据仓库知识(3)

小B是一名数据分析师,他问小A XXX的所有指标给我一下,小A“鄙视的”给了他一个文档。元数据知道多少小B作为一名数据分析师,为什么自己没能去找到数据呢?这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不就你还能看单词...

2020-03-16 21:26:13

写给数据分析师的数据仓库知识(2)

数据仓库知多少首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。我们来看这几个词:面向主题,数据仓库会规划各种业务主题,所以我们需要理解各大主题的范畴以及之间的关系,这样就了解了数仓的基本架构。集成,数据仓库的数据会来自各个业务系统数据或者外部爬取数据,所以需要我们知道每个数据仓库的模型字段都是来自哪个源,这样我们就能快速全面的了解相关...

2020-03-16 21:23:18

写给数据分析师的数据仓库知识(1)

数据库说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(可能现在很多开发者没再用过),到后来的互联网电商用的MySql,这些都是关系型数据库。后来有了newSQL、NoSQL(not only sql),现在也分了很多种类,比如大型互联网公司存储用户画像的HBase,还有用于存储文档,...

2020-03-12 08:44:15

Vertica的这些事系列书籍

Vertica系列文章已整理PDF,方便各位下载学习。Vertica系列文章下载地址

2019-12-18 10:52:10

数据的一些思考

一、背景最近领导和团队沟通,想提高数据建模团队的能力。结合自己工作的经验和朋友的交流,来总结下如何去做。二、我做过什么很多大数据数据仓库人员都是从事过传统BI业务或者数据库业务的。传统BI一般都是Oracle存储过程,O是真的牛,很多银行和电力业务目前还是存储过程写的业务代码。自己曾经亲身经历过,两千行的业务package,写起来和改起来特别有“成就感”!后来听说了Hadoop,网上自己自己...

2019-11-17 10:29:55

数据分析05-SVM

标签(空格分隔): 数据分析SVM 是有监督的学习模型,我们需要事先对数据打上分类标签,通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题,可以将多个二分类器组合起来形成一个多分类器。如何创建一个 SVM 分类器呢?我们首先使用 SVC 的构造函数:model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’),这里有三个重要的参数 kernel...

2019-11-17 10:16:56

数据分析04-朴素贝叶斯

标签(空格分隔): 数据分析朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(Ga...

2019-11-17 10:16:22

数据分析03-决策树

标签(空格分隔): 数据分析CART 创建决策树做分类# encoding=utf-8from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.tree import DecisionTreeClassifierfrom skle...

2019-11-17 10:15:49

数据分析02-线性回归

可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。Python sklearn中的LinearRegreesion实例:import pandas as pdfrom sklearn imp...

2019-11-17 10:10:25

数据分析05 - SVM

标签(空格分隔): 数据分析SVM 是有监督的学习模型,我们需要事先对数据打上分类标签,通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题,可以将多个二分类器组合起来形成一个多分类器。如何创建一个 SVM 分类器呢?我们首先使用 SVC 的构造函数:model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’),这里有三个重要的参...

2019-10-23 15:04:23

Docker初识

学习Kubernetes 当然要学习docker 那么从安装到简单的命令来一遍吧,我实在自己的虚拟机上(VM+CentOS) 刚开始怎么也连不上外网,后来发现有一个服务没有启动,不知道你会不会遇见这样的情况: VMware DHCP Service 这个服务要启动 安装Docke...

2019-10-21 21:20:20

数据分析01 - 规范化方法

标签(空格分隔): 数据分析Min-max 规范化将原始数据规范到[0-1]之间,公式如下:新数值=(原数值-极小值)/(极大值-极小值)代码实现:# coding:utf-8from sklearn import preprocessingimport numpy as np# 初始化数据,每一行表示一个样本,每一列表示一个特征x = np.array([[ 0., -...

2019-10-21 14:49:02

生活不止眼前的苟且

图片发自简书App 生活不止眼前的苟且,还有诗和远方的田野,你赤手空拳来到人世间,未找到那片海不顾一切。 听到许巍低声的吼出这四句话,心里为之一颤,就好像一把久未打开生锈的锁,突然“咔”的一声,这把钥匙打开了它。我看到歌词是高晓松老师的作品,...

2019-10-19 20:59:13

浅谈用户行为分析

关于用户行为分析,很多互联网公司都有相关的需求,虽然业务不同,但是关于用户行为分析的方法和技术实现都是基本相同的。在此分享一下自己的一些心得。 一. 简介 用户行为分析主要关心的指标可以概括如下:哪个用户在什么时候做了什么操作在哪里做了什么操作,为什么要做这些操作,通过什么方式,用了多长时间等问题,总结出来就是WHO...

2019-10-18 23:18:25

数据分析04 - 朴素贝叶斯

标签(空格分隔): 数据分析朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯...

2019-10-16 17:18:37

数据分析03 - 决策树

标签(空格分隔): 数据分析CART 创建决策树做分类# encoding=utf-8from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.tree import DecisionTreeClassifierf...

2019-10-14 16:56:42

数据分析02 - 线性回归

可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。Python sklearn中的LinearRegreesion实例:import pandas as pdfrom skl...

2019-10-12 16:56:06

数据分析01 - 规范化方法

标签(空格分隔): 数据分析Min-max 规范化将原始数据规范到[0-1]之间,公式如下:新数值=(原数值-极小值)/(极大值-极小值)代码实现:# coding:utf-8from sklearn import preprocessingimport numpy as np# 初始化数据,每一行表示一个样本,每一列表示一个特征x = np.array(...

2019-10-12 10:31:08

Python简易的HTTP服务器

python 3python -m http.server 8080python 2python -m SimpleHTTPServer 8080即可以当前所在目录为Server的根目录,然后访问 http://localhost:8080/ 即可看到所有文件的列表 ...

2019-09-30 10:46:47

GreenPlum的那些事《七》——GP监控小工具

今天搞了一个监控GP的demo,直接上图,可丰富的功能还很多,该项目引用率开源项目:https://github.com/sqshq/sampler 今天参考尝试了gp的监控,初步成效,各位可以参考这个试试其他数据库的监控,比如mysql等...

2019-09-23 08:58:54

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 图书勋章
    图书勋章
    CSDN技术图书作者专属勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。