5 数据社

尚未进行身份认证

欢迎关注公众号:数据社

等级
TA的排名 2w+

数据中台设计方法论

数据中台设计方法论数据中台建设方针:横向规划,各个击破。横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象。其实就是我们建设数据仓库的阶段。比如电信业务,我们要把客户、账务、客服、营销等业务板块打通数据,全盘考虑,融通数据形成数据资产。数据中台建设过程中涉及到大数据平台建设、数据仓库建设、模型算法、数据治理、数据服务等一系列工程,不可能一蹴而就,我们需要梳理业务场景,看他们需要什么样的服务先找一个业务场景,搭建起数据中台的服务能力,然后依次迭代,各个击破。一、总体规划数据集成

2020-05-24 14:00:44

如何入门数据分析?

如今,大多数公司都意识到数据驱动的商业策略的价值,因此需要有数据分析才能的人来洞察不断收集的信息。随着我们继续将现实世界数字化,对分析师的需求只会增加。 可以了解之前讲解的《数据分析为什么火了》。如果你刚开始学习数据分析,那么怎么入门呢?其实各大招聘网站的数据分析职位就是一个很好的参考。那么数据分析师究竟需要哪些技能呢?数据分析必备技能:ExcelSQLPython或者R数据可视化机器学习PPT逻辑思维下面我们一个个看下一、Excel说到Excel,首先想到的可能是电子表格,但是

2020-05-16 12:54:41

数据分析为什么火了

某天你去买西瓜,你问老板多少钱一个,老板称了一个大的说20元。你说要一半,老板从中间切开,称后说15元。你拿起另一半,丢下5块钱……一、什么是数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。当我们在日常生活中做任何决定时,我们都会根据以往已经发生的事情和现在所处的环境进行思考,然后做出决定。期间,我们可能还收集过去的一些记忆或未来的预.

2020-05-16 12:48:31

大数据相关交流群

可以关注公众号:数据社添加微信,申请加入交流群,备注:加群qrcode_for_gh_b1e471355711_258.jpg

2020-05-15 16:42:02

GreenPlum的那些事《四》——增删改查

上文我们介绍了GPDB的常用管理操作,今天我们来说下它的增删改查。这是对于一个数据库最基本的功能了,然而GPDB有它自己的特性,我们一起来看下。插入数据按列插入数据:gptest=# create table products (name varchar(20),price numeric(10,2),product_no bigint) distributed by (product_no); CREATE TABLEgptest=# INSERT .

2020-05-15 11:14:16

GreenPlum的那些事《三》——常用操作

我们前面已经说了,GPDB是一个列式数据库,数据库都有什么特性呢?都能做什么呢?熟悉MySQL,Oracle的同学可能就比较清楚关系型数据库的管理,下面我们就来说下GPDB的一些管理和常用操作。数据库常用操作分为:创建数据库、创建schema、创建资源池、创建角色、创建用户、创建表。下面我们一一来说下GPDB这些常用操作,和关系型数据库MYSQL有什么不同呢?创建数据库gp_sydb=# CREATE DATABASE GPTEST;CREATE DATABASE删除数据库gp_syd

2020-05-15 11:13:38

GreenPlum的那些事《二》——GreenPlun启动报错

标签(空格分隔): GreenPlum在配置好GreenPlum过程中,需要注意一下几点:找好安装包安装依赖,Gun版本需要注意详细安装步骤参考Greenplum安装介绍自己是电脑虚拟机安装的中间出现很多报错,度娘加经验解决。最后启动还是报错,发现是资源不足,所以关闭了mirror,减少了segment。然后启动还是报错:> > 20190122:20:23:14:003437 gpstart:mpp01:gpadmin-[INFO]:-Commencing paral

2020-05-15 11:13:00

GreenPlum的那些事《一》——GreenPlum数据库介绍

1. 数据存储行式数据库是按照行存储的,行存储就是各行放入连续的物理位置,就行我们平时写字一样,一行一行的写,读取的时候也是一行一行的读取。像SQL server,Oracle,mysql等传统的关系型数据库都属于行式数据库范畴。列式数据库是按照列存储的,列存储是把多行数据的每一列按照列存储在磁盘,就像一把数据写入excel表格中,每次按照列读取数据,像Vertica,GreenPlum,HBase(HBase其实不是真正的列式数据库,是按照列簇存储的)。2. GreenPlum架构massive

2020-05-15 11:12:20

数据分析&数据仓库系列

https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&album_id=1337764531464093698&__biz=MzI4MzE4MjQxOQ==#wechat_redirect

2020-05-13 08:25:22

一文了解数据护湖架构

​什么是数据湖引擎数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。数百万数据消费者使用的工具,如BI工具、数据科学平台和仪表板工具,假设所有数据都存在于一个高性能的关系数据库中,当数据在多个系统中,或者在非关系存...

2020-05-08 10:48:23

数据分析师应该了解的数据湖

数据湖数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。这是AWS给出的解释。看了很多数据湖的介绍文章,笔者认为数据胡和我们常说的ODS数据很类似,也就是原始数据的保存区域,存储来自各业务系统(消息队列)的原始数据。...

2020-04-03 23:00:21

写给数据分析师的数据仓库知识(3)

小B是一名数据分析师,他问小A XXX的所有指标给我一下,小A“鄙视的”给了他一个文档。元数据知道多少小B作为一名数据分析师,为什么自己没能去找到数据呢?这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不就你还能看单词...

2020-03-16 21:26:13

写给数据分析师的数据仓库知识(2)

数据仓库知多少首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。我们来看这几个词:面向主题,数据仓库会规划各种业务主题,所以我们需要理解各大主题的范畴以及之间的关系,这样就了解了数仓的基本架构。集成,数据仓库的数据会来自各个业务系统数据或者外部爬取数据,所以需要我们知道每个数据仓库的模型字段都是来自哪个源,这样我们就能快速全面的了解相关...

2020-03-16 21:23:18

写给数据分析师的数据仓库知识(1)

数据库说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(可能现在很多开发者没再用过),到后来的互联网电商用的MySql,这些都是关系型数据库。后来有了newSQL、NoSQL(not only sql),现在也分了很多种类,比如大型互联网公司存储用户画像的HBase,还有用于存储文档,...

2020-03-12 08:44:15

Vertica的这些事系列书籍

Vertica系列文章已整理PDF,方便各位下载学习。Vertica系列文章下载地址

2019-12-18 10:52:10

你想了解的数据架构都在这

一、背景最近领导和团队沟通,想提高数据建模团队的能力。结合自己工作的经验和朋友的交流,来总结下如何去做。二、我做过什么很多大数据数据仓库人员都是从事过传统BI业务或者数据库业务的。传统BI一般都是Oracle存储过程,O是真的牛,很多银行和电力业务目前还是存储过程写的业务代码。自己曾经亲身经历过,两千行的业务package,写起来和改起来特别有“成就感”!后来听说了Hadoop,网上自己自己...

2019-11-17 10:29:55

数据分析05-SVM

标签(空格分隔): 数据分析SVM 是有监督的学习模型,我们需要事先对数据打上分类标签,通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题,可以将多个二分类器组合起来形成一个多分类器。如何创建一个 SVM 分类器呢?我们首先使用 SVC 的构造函数:model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’),这里有三个重要的参数 kernel...

2019-11-17 10:16:56

数据分析04-朴素贝叶斯

标签(空格分隔): 数据分析朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(Ga...

2019-11-17 10:16:22

数据分析03-决策树

标签(空格分隔): 数据分析CART 创建决策树做分类# encoding=utf-8from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.tree import DecisionTreeClassifierfrom skle...

2019-11-17 10:15:49

数据分析02-线性回归

可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。Python sklearn中的LinearRegreesion实例:import pandas as pdfrom sklearn imp...

2019-11-17 10:10:25

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 图书勋章
    图书勋章
    CSDN技术图书作者专属勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。