7 GreatStep

尚未进行身份认证

投笔从戎

等级
博文 44
排名 11w+

大数据架构师从入门到精通 学习必看宝典

https://blog.csdn.net/songhait/article/details/76944436先扯一下大数据的4V特征:数据量大,TB->PB数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来;处理时效性高,海量数据的处理需求不再局限在离线计算当中。现如今,正式为了应对大数据的这...

2018-04-17 13:51:19

技术链接

用户画像:1、 https://blog.csdn.net/mcy478643968/article/details/528214862、http://cdc.tencent.com/2011/12/19/%E5%88%9B%E5%BB%BA%E5%AE%9A%E6%80%A7%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F/3、http://www.woshipm.com...

2018-04-12 18:22:52

学习攻略 | 机器学习路线图

出处:http://www.ppvke.com/Blog/archives/36900 Python3m • 2016年8月19日 • 机器学习 • 阅读6999也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯逛淘宝点了找相似之后货比三家;亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩,这些功能...

2018-04-12 16:27:35

Livy原理详解

概述 当前spark上的管控平台有sparkjobserver,zeppelin,由于sparkjobserver和zeppelin都存在一些缺陷,比如sparkjobserver不支持提交sql,zeppelin不支持jar包方式提交,并且它们都不支持yarncluster模式,只能以client的模式运行,这会严重影响扩展性。针对这些问题,cloudera研发了Livy,Liv...

2018-03-22 13:45:47

【置顶】学习纲领

学习的动力源于反馈.在碎片化学习的时候,每个学习过程都必须有具体的目的导向:学习这个知识点,最终想输出的东西是什么。每个阶段只学习最需要的那部分知识,这样可以才能最大程度上提升学习效率!...

2018-03-20 11:17:30

【二、大数据环境篇】003、Hive安装(下)

注意:安装mysql使用的是root,所以,需要将Hadoop的工作用户XXX_user添加到root组,否则hive初始化失败:org.apache.hadoop.hive.metastore.HiveMetaException:Failedtogetschemaversion.Causedby:java.sql.SQLException:Accessdeniedforuse...

2018-03-20 11:01:23

【数据分析】001、业余如何快速学习数据分析

转自知乎:https://www.zhihu.com/question/221197531.1    方法论高票答案分两种。一是提供学习资源的,各种经典书籍、网站教程,都很好,能够为初学者减少很多资源筛选的时间。但对于很多浮躁的小白来说,无疑是目标缺失的,每一部分学完能做什么,如何应用,是一个很大的问题。这样的学习,很容易未入门就放弃,所以并不建议从啃一本书开始。另一种是从实际的问题场景入手的。这...

2018-03-20 10:49:02

【二、大数据环境篇】003、Hive安装(上)- MySql安装

下面的操作都是使用root来操作的!Centos7离线安装mysql5.6详细步骤一、安装MySQL1、下载    https://dev.mysql.com/downloads/mysql/5.6.html2、卸载系统自带的Mariadb1) Centos7将默认数据库mysql替换成了Mariadb,如果想继续使用mysql 需要卸载Mariadb 再安装mysql2) mysql5.7...

2018-03-19 16:25:50

【二、大数据环境篇】002、hadoop基础搭建(HDFS+YARN)

0、下载安装包,解压后,配置环境变量:vim/etc/profileJAVA_HOME=/app/data_platform/soft/jdkCLASSPATH=.:$JAVA_HOME/lib.tools.jarPATH=$JAVA_HOME/bin:$PATHexportJAVA_HOMECLASSPATHPATHexportHADOOP_HOME=/app/data_platfor...

2018-03-19 15:59:56

【二、大数据环境篇】001、方法论

1、官网的文档无论是学习Hadoop的hdfs、hive,还是hbase等,都要非常看重官网的文档。大数据的很多框架,都是Apache的顶级项目,各个组件框架的官网链接都可以从下面的链接进入:Hadoop:http://hadoop.apache.org/Avro™:序列化系统HBase™:分布式数据库Hive™:数据仓库Mahout™:机器学习与数据挖掘库Pig™:并行计算的高级数据...

2018-03-19 15:44:46

【更】术语-快递

一、快递流程中的操作术语1、快递揽收货物环节已收件、揽件、收寄:快递员上门去发货方处取件成功的表示 2、快递运输货物环节 上车扫描、下车扫描: 一般快递选择的是汽车运输比较多,故在货物装车前后,为了确保包裹的数量会进行一次扫描。 北京集散、杭州集散等集散地: 快递公司会在一些大型城市建设方便货物进行中转及分拣,后续再分发到区域的快递再进派件。建包扫描、拆包扫描: 快递公司一般会把一些较小的,发往同...

2018-03-19 15:11:36

【更】术语-技术

1、上钻/下钻上卷(roll-up):上卷是沿着维的层次向上聚集汇总数据。例如,对产品销售数据,沿着时间维上卷,可以求出所有产品在所有地区每月(或季度或年或全部)的销售额。下探(drill-down):下探是上卷的逆操作,它是沿着维的层次向下,查看更详细的数据。...

2018-03-19 14:12:26

【更】术语-金融

1、贷款的五级分类商业银行依据借款人的实际还款能力进行贷款质量的五级分类,即按风险程度将贷款划分为五类:正常、关注、次级、可疑、损失,后三种为不良贷款2、逆回购    逆回购为中国人民银行向一级交易商购买有价证券,并约定在未来特定日期将有价证券卖给一级交易商的交易行为,逆回购为央行向市场上投放流动性的操作,逆回购到期则为央行从市场收回流动性的操作。简单解释就是主动借出资金,获取债券质押的交易就称...

2018-03-19 14:10:41

大数据在金融行业的应用有哪些

http://www.sohu.com/a/118119125_5317402016-11-0414:02大数据/社交/技术金融行业会运用到很多大数据,但是大数据也会有很多方面的应用。下面来看看大数据在金融行业的应用都是什么。根据数据显示,中国大数据IT应用投资规模以五大行业最高,其中以互联网行业占比最高,占大数据IT应用投资规模的28.9%,其次是电信领域(19.9%),第三为金融领域(17....

2018-03-15 13:56:56

大数据分析师 - 技术体系 - 了解篇

来自知乎:https://www.zhihu.com/question/49291394  大数据技术体系太庞杂了,基础技术覆盖数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算(批处理、在线处理、实时流处理、内存处理)、多模态计算(图像、文本、视频、音频)、数据仓库、数据挖掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。另外大数据应用领域广泛,各领域采...

2018-03-15 11:08:02

大数据技术+行业知识+业务知识=大数据应用

www.sohu.com/a/127439759_466950 2017-02-2810:15大数据/技术本文作者:欧小刚微信号:oyg0001联系邮箱:oxg@soft6.com大数据技术+行业知识+业务知识=大数据应用一般来看,一个产业的成长轨迹都是源于技术、成于产品、终于应用。大数据产业也不例外,整个产业是由于云计算、大数据技术而出现的,各个厂商开发出比较成熟的产品并推向市场,最终在应用...

2018-03-15 10:44:29

大数据时代:关于Hadoop12个事实

http://www.raincent.com/content-85-1574-1.html2014-05-2913:45:00 | 编辑:phpcms | 查看:2095 | 评论:0现如今,ApacheHadoop已经无人不知无人不晓。当年雅虎搜索工程师DougCutting开发出这个用以创建分布式计算机环境的开源软件库现如今,ApacheHadoop已经无人不知无人不晓。当年雅虎搜索...

2018-03-12 17:04:59

Logstash5.0 手动安装插件

前言:https://www.elastic.co/guide/en/logstash/5.0/breaking-changes.html 官网提及5.x版本的Logstash,去掉了17个插件。所以,如果需要使用,我们只能手动安装了。    开始:1、下载插件包假设我需要下载exec包,那么在github网站https://github.com/logstash-

2016-12-16 18:36:07

1、MapReduce 工作原理简介(待补充)

过程梳理:l 一份输入数据分割成多个分片,交给不同的map任务处理;(如果设置的业务节点比较少,有可能多个map任务运行在一个map节点上)l 每个map任务处理一份分片数据,输出k-v对;(中间结果保存到本地文件系统)l 分区器Partitioner,根据key,对map的输出数据进行hash运行,将数据保存到不同的桶。(每个桶存放了相同编号的数据,每个桶对应了

2015-04-16 00:08:34

Sqoop数据交互工具——笔记

sqoop的入门了解。

2015-04-15 23:45:02
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!