自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

郭首志的博客

重度技术控

  • 博客(137)
  • 收藏
  • 关注

原创 逻辑面试题(2)

1、有两根不均匀分布的香,香烧完的时间是一个小时,你能用什么方法来确定一段15分钟的时间?答:把两根香同时点起来,第一支香两头点着,另一支香只烧一头,等第一支香烧完的同时(这是烧完总长度的3/4),把第二支香另一头点燃,另一头从燃起到熄灭的时间就是15分。2、一个经理有三个女儿,三个女儿的年龄加起来等于13,三个女儿的年龄乘起来等于经理自己的年龄,有一个下属已知道经理的年龄,但仍不能确定经理三个女儿的年龄,这时经理说只有一个女儿的头发是黑的,然后这个下属就知道了经理三个女儿的年龄。请问三个女

2023-10-03 09:59:10 3671

原创 逻辑面试题大全(1)

3.村子里有50个人,每个人都有一条狗,在这50条狗中有病狗(这种病不传染),于是人们要找出病狗,每个人可以观察其他49条狗,以判断它们是否生病,但只有自己的狗不能看,观察后得到结果不能交流,也不能通知病狗的主人,主人一旦推算出自己的狗有病时,就必须在一天内将其枪毙,而且只有权利枪毙自己的狗,没有权利打死其他人的狗。但11时与0时的分钟区内共享一个重合点,所只24 小时中,只有22次重合,现在只需考察这22个重合点时,秒针与不与它重合就行了(实际上,只要判断11个重合点,剩下的11个情况相同)。

2023-10-03 09:23:04 319

原创 大数据之电商项目实战

架构设计:数据来源:手机,PC(用户标识)用户标识可以用饼干记录用户画像保存在Redis的或者mysql的或HBase的中业务服务器电商网站,推荐系统集群服务器HDFS火花架构1.0阶段用户:手机,PC业务服务器:tomcat的,记录日志,水槽采集日志,落地到HDFS集群服务器:HDFS缺点:业务和日志采集都在一台服务器上,存在单点故障,...

2018-12-21 21:04:56 3025 2

转载 impala和hive的关系

 Impala和Hive的关系   Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。   与Hive的关系  Impala 与Hive都是构建在Hadoop之上的...

2018-11-29 20:07:32 811

转载 用MapReduce实现矩阵乘法

Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年...

2018-10-27 10:42:04 1809

转载 算法练习

1、线性查找/** *  线性查找 */public void linearSearch(int value){    for (int i = 0; i < arraySize; i++) {        if(value == array[i]){            System.out.print("Found a value at: "+i);        ...

2018-10-24 08:26:08 287

转载 3次握手4次挥手

简明理解三次握手和四次挥手三次握手与四次挥手分别对应TCP连接建立过程与断开过程,先上TCP报文格式: 三次握手过程: 问题1: 为什么要三次握手?答:三次握手的目的是建立可靠的通信信道,说到通讯,简单来说就是数据的发送与接收,而三次握手最主要的目的就是双方确认自己与对方的发送与接收机能正常。        第一次握手:Client什么都不能确认;Server确...

2018-10-11 09:20:29 247

转载 Spring clound

Spring Cloud是一系列框架的有序集合。它利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发,如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控等,都可以用Spring Boot的开发风格做到一键启动和部署。Spring Cloud并没有重复制造轮子,它只是将目前各家公司开发的比较成熟、经得起实际考验的服务框架组合起来,通过Spring Boot风格进行...

2018-10-11 09:09:17 321

转载 Spring Boot

Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。通过这种方式,Spring Boot致力于在蓬勃发展的快速应用开发领域(rapid application development)成为领导者。特点:1. 创建独立的Spring应用程序2. ...

2018-10-11 09:08:01 240

转载 Spring SpringMVC

Spring Spring是一个开放源代码的设计层面框架,他解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用。Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson创建。简单来说,Spring是一个分层的JavaSE/EE full-stack(一站式) 轻量级开源框架。概念:轻量——从大小与开销两方面而言Spri...

2018-10-11 09:06:52 270

转载 Ambari扫盲

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcata...

2018-10-11 08:55:23 292

原创 一个神奇的window搜索系统

everything可以快速搜素各种系统中的有关文件,解决了 本人多年文件乱找不着的问题

2018-09-16 20:23:28 487 1

转载 Flume中的拦截器(Interceptor)介绍与使用

Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器:Timestamp Interceptor;Host Interceptor;Static Intercept...

2018-09-16 20:19:19 2644

转载 什么是区块链?

一 .区块链是什么?本质上就是一个分布式的数据库区块链作用:(1)存取数据(2)去中心化任何人都可以架设服务器,加入区块链网络,成为一个节点。区块链的世界里面,没有中心节点,每个节点都是平等的,都保存着整个数据库。你可以向任何一个节点,写入/读取数据,因为所有节点最后都会同步,保证区块链一致。 二、区块链的最大特点分布式数据库并非新发明,市场上早有此类产品。但是,区...

2018-09-16 20:14:48 737

转载 Druid 介绍及配置

1. Druid是什么?Druid是Java语言中最好的数据库连接池。Druid能够提供强大的监控和扩展功能。2. 在哪里下载druid正式版本下载: maven中央仓库: http://central.maven.org/maven2/com/alibaba/druid/ 3. 怎么获取Druid的源码Druid是一个开源项目,源码托管在github上,源代码仓库地址是 ht...

2018-09-09 20:25:13 262

转载 js页面埋点

页面埋点的作用,其实就是用于流量分析。而流量的意思,包含了很多:页面浏览数(PV)、独立访问者数量(UV)、IP、页面停留时间、页面操作时间、页面访问次数、按钮点击次数、文件下载次数等。而流量分析又有什么用处:1、提高网站的转化率         根据页面埋点可得到一些重要信息,它告诉你用户对网站的反应,以及如何提高网站流量、改进网站性能,了解用户访问网站的行为,为更好地满足用户需求提供支...

2018-09-07 20:45:32 1666

原创 phoenix教程

关于phoenix的名称,直译为凤凰,在中国有凤凰涅盘之说,咋一听似乎该项目之前挂过很多次,现在翻身了,实际上其官网戏谑的说有此一问的,可以回家睡大觉了,没时间回答你。phoenix是构建的Hbase之上的,使用标准的SQL操作Hbase,可以做联机事务处理,拥有低延迟的特性。Apache Hadoop的用于OLTP和运营分析phoenix会把SQL编译成一系列的Hbase的sca...

2018-09-07 19:53:30 7671

转载 BI项目篇

从本篇开始,以实际项目为基础,依托BI理论知识,详细介绍BI项目的每个实施过程。1.       项目启动步骤1.1       了解项目背景首先,了解甲方公司的社会背景、主营业务及其公司软硬件实力等信息。然后,了解本次项目需要完成哪些功能模块、参考了哪些成果、采纳了哪些意见、借鉴了哪些行业的经验等信息。1.2       确定项目成员工作范围需求分析、数据模型的设计、数据...

2018-09-06 22:22:29 7851 2

转载 kudu、Impala、交互式查询

1、KuduHadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?有人尝试修改HBase内核构造这样的系统,即保留HBase的数据模型,而将其底层存储部分改为纯列式存储(目前HB...

2018-09-04 18:44:02 4968 1

原创 JVM调优

参考http://www.wannengye.com/pages/Mwh1g9FU/?from=timeline&isappinstalled=0

2018-09-04 00:44:38 275

转载 flume java介绍

背景近期在做shark flume开发框架的测试,该框架是一个简单高效的面向数据的pipeline框架,采用flume java的思想,实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper,这里做一些总结,主要针对flume java的一些基本概念和思想,由此可以了解shark相较于我们已有的MaxC...

2018-09-04 00:36:02 4513

转载 Kafka 源码剖析方法

1.概述  在对Kafka使用层面掌握后,进一步提升分析其源码是极有必要的。纵观Kafka源码工程结构,不算太复杂,代码量也不算大。分析研究其实现细节难度不算太大。今天笔者给大家分析的是其核心处理模块,core模块。2.内容  首先,我们需要对Kafka的工程结构有一个整体的认知度,Kafka 大家最为熟悉的就是其消费者与生产者。然其,底层的存储机制,选举机制,备份机制等实现细节,需要...

2018-09-03 23:58:17 505

转载 ETL扫盲

核心技术架构挑战:1、对现有数据库管理技术的挑战。2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开始是没有考虑到非结构化数据的存储问题。3、实时性技术的挑战:一般而言,传统数据仓库系统,BI应用,对处理时间的要求并不高。因此这类应用通过建模,运行1-2天获得结果依然没什么问题。但实时处理的要求,是区别大数据应用和传统数据仓库技术...

2018-09-03 17:17:26 288

转载 Spark作为ETL工具与SequoiaDB的结合应用

一、前言ETL一词较常用于数据仓库,但其对象并不仅限于数据仓库。ETL是指将数据从源系统中经过抽取(Extract)、转换(Transform)、加载(Load)到目标数据存储区的过程。常见的ETL工具有Oracle Data Integrator、Informatica PowerCenter、DataStage、Kettle、DataSprider等。在大数据应用中,海量的数据及对潜在...

2018-09-03 16:43:17 1336

转载 网易大数据平台架构实践分享!

随着网易云音乐、新闻、考拉、严选等互联网业务的快速发展,网易开始加速大数据平台建设,以提高数据获取速度,提升数据分析效率,更快发挥数据价值。 本次演讲主要分享网易如何围绕和改造开源技术,以产品化思维打造网易自己的大数据平台, 也会分享一下网易在大数据平台构建和支撑互联网业务过程中面临的技术挑战,以及我们在调度、安全、元数据管理、spark多租户、SQL流计算、高性能查询引擎等关键技术环节的实践经验...

2018-08-28 11:53:00 10719 3

原创 学习路线图

Hadoop发展到今天家族产品已经非常丰富,能够满足不同场景的大数据处理需求。作为目前主流的大数据处理技术,市场上很多公司的大数据业务都是基于Hadoop开展,而且对很多场景已经具有非常成熟的解决方案。作为开发人员掌握Hadoop及其生态内框架的开发技术,就是进入大数据领域的必经之路。下面详细介绍一下,学习Hadoop开发技术的路线图。Hadoop本身是用java开发的,所以对java...

2018-08-24 19:53:17 284

转载 flume自定义source

  我们了解到了flume的底层实现原理之后,我们不仅可以根据flume自身提供的API,实现Source的定义,还可以根据项目的实际需求,编写我们自己的Source,比如Source可以是从网络上下载一个文件,亦或者是从数据库中查询数据,总之都能灵活实现我们自己的需求!一、新建java工程项目,在项目中添加flume的核心jar包:flume-ng-configuration-1.7.0...

2018-08-24 18:38:08 2836

转载 十大经典排序算法(动图演示)

概述排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。我们这里说说八大排序就是内部排序。        当n较大,则应采用时间复杂度为O(nlog2n)的排序方法:快速排序、堆排序或归并排序序。   快速排序:是目前基于比较的内部排序中被认为是最好的方法,当待排序的关键字是随机分...

2018-08-22 15:05:13 2733

原创 sql练习

准备数据建表语句CREATE TABLE students(sno VARCHAR(3) NOT NULL, sname VARCHAR(4) NOT NULL,ssex VARCHAR(2) NOT NULL, sbirthday DATETIME,class VARCHAR(5))CREATE TABLE courses(cno VARCHAR(5) NOT NULL...

2018-08-22 09:51:04 362

转载 Azkaban简介和使用

概述为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等l 各任务单元之间存在时间先后及前后依赖关系l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,...

2018-08-18 22:54:49 16733 1

转载 高并发面试必问:分布式消息系统Kafka简介

卡夫卡是分布式发布 - 订阅消息系统它最初由LinkedIn公司开发,之后成为Apache的项目的一部分.Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务它主要用于处理。活跃的流式数据。在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理为了已在同时搞定在线应用(消息)和...

2018-08-18 20:46:02 5476

转载 Hbase面试题

他人真实面试问题 HBase的架构和基本原理 HBase与传统关系型数据库如MySQL的区别 读写性能对比读快还是写快 Hbase的设计有什么心得 Hbase的操作是用的什么API还是什么工具 你们hbase里面是存一些什么数据 知道spark怎么读hbase吗 做过hbase的二级索引吗 Hbase的PUT的一个过程 以下是我自己...

2018-08-18 20:40:41 2250

转载 Spark常见问题汇总

1、Operation category READ is not supported in state standby  2、配置spark.deploy.recoveryMode选项为ZOOKEEPER  3、多Master如何配置  4、No Space Left on the device(Shuffle临时文件过多)  5、java.lang.OutOfMemory, un...

2018-08-18 20:37:54 1802 1

转载 大数据集群常见问题总结

 项目将近尾声,上线一切顺利,在开发过程中遇到了不少的问题,趁着空闲时间对项目中遇到的常见问题做一个总结,当作一个笔记,问题如下:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20180124_log/src_20180124_log...

2018-08-18 20:33:50 3237

转载 数据采集与埋点简介之 代码埋点、可视化埋点与无痕埋点

具备条件:java script 脚本编程jsp、asp页面编程根据需求文档中要求的需要做记录的信息博主做移动手机系统中的数据采集与埋点也有近两年,那段时间内一方面是集中在具体的开发和问题细节处理,另外一方面则是在把采集系统适配到不同的平台手机、平板、tv、车载的过程中,有Android和C++两个版本。有一天见到了“神策数据”的这篇博文,发现总结得太好了,有点相见恨晚的感觉。这篇...

2018-08-18 20:31:34 2076

转载 6个人如何维护上千规模的大数据集群?

本文主要介绍如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。其中 6 人的离线团队需要维护大数据集群规模如下:Hadoop 集群规模 1300+HDFS 存量数据 40+PB,Read 3.5 PB+/天,Write 500TB+/天14W MR Job/...

2018-08-18 20:14:36 499

转载 大数据平台集群

基本组件:    Zookeeper:        分布式协作框架            节点数目:                测试集群:3个                生产集群:(7个差不多)                    小型集群:3个或者5个                    中型集群:5个或者7个                    ...

2018-08-18 20:13:35 2382

转载 构建一个跨机房的Hadoop集群,有非常多的技术难点(颠覆你以往的认知)

注:本文原作者罗李,花名鬼厉,阿里分布式团队创建之初的第一批员工,从事分布式计算、分布式存储和Hadoop系统的研发,目前负责分布式存储团队的所有技术和管理。(因为感觉这篇文章非常棒,让人思考角度发生很大变化,转载之)作为一个Hadoop初级入门者,不得不感慨它的beauty,以前把问题想的太简单了。技术挑战要构建一个跨机房的Hadoop集群,有非常多的技术难点:难点1:NameN...

2018-08-18 17:20:35 5823

转载 Dubbo是什么

1. Dubbo是什么?Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。简单的说,dubbo就是个服务框架,如果没有分布式的需求,其实是不需要用的,只有在分布式的时候,才有dubbo这样的分布式服务框架的需求,并且本质上是个服务调用的东东,说白了就是个远程服务调用的分布式框架(告别Web Service模式中的WSdl,以服务者与消费者...

2018-08-18 13:06:21 140

原创 电商推荐系统,用户画像,精准营销

推荐算法: 

2018-08-16 23:19:53 2285

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除