自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

转载 深度|企业如何去做数据标准建设和应用

大数据时代下,随着数据应用和分析挖掘的逐步深入,由于数据标准不统一造成的数据使用问题越来越多。特别是对于企业而言,如果没有进行数据标准体系的建设,不同人员对于数据的理解很难达到完全一致,导致工作中经常出现数据统计口径偏差,系统开发与实际需求的偏差等问题。另外企业的各个系统一般都是不同厂商建设的,所以不同系统之间的标准不一致,从而导致不同系统之间数据融合应用困难。本文将针对这些问题,从数据标准基础概念出发,结合企业数据建设现状,跟大家分享一下数据标准所带来的价值,以及如何去完成企业数据标准建设。具体包括以

2020-05-25 22:10:29 555

转载 系统吞吐量、TPS(QPS)、用户并发量、性能测试概念和公式

QPS:Queries Per Second意思是“每秒查询率”,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。TPS:是TransactionsPerSecond的缩写,也就是事务数/秒。它是软件测试结果的测量单位。一个事务是指一个客户机向服务器发送请求然后服务器做出反应的过程。客户机在发送请求时开始计时,收到服务器响应后结束计时,以此来计...

2019-11-06 18:25:34 645

转载 QPS、TPS、PV、UV、GMV、IP、RPS

关于 QPS、TPS、PV、UV、GMV、IP、RPS 这些词语,看起来好像挺专业。但实际上,我认为是这是每个程序员必懂的知识点了,你可以搞不懂它们怎么计算的,但是你最少要知道它们分别代表什么意思吧?!QPSQPS:全名 Queries Per Second,意思是“每秒查询率”,是一台服务器每秒能够响应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。简...

2019-11-06 18:00:46 367

转载 IDEA快捷键功能说明及Eclipse对应操作

1.Ctrl+z是撤销快捷键2.如果想恢复Ctrl+z 掉的内容,按快捷键为:Ctrl + Shift + Z。方可3.Ctrl-H(Browse Type Hierarchy) Ctrl + Alt + H 2。Eclipse中的回车能自动跳到行尾,IDea怎么做?Ctrl+Shift+Enter(跳到行尾并且如果行尾没有分号自动补上分号)或者Ctrl+Ri...

2019-08-29 18:03:53 243

转载 HBase表的基本结构和常用命令行操作mark下

一、HBase表的基本结构  1.概述:   平时常见的MySQL、Oracle数据库都是传统型关系数据库,它们都是按行查询、按行存储;而HBase为非关系型数据库,它是按列存储的的。   在HBase插入数据时,先输入数据的格式为rowkey => info => column => value    rowkey:行键,唯一且不重复    info:列族(...

2019-08-13 14:12:49 333

转载 分享30道Redis面试题,面试官能问到的我都找到了

============================================================================转自:https://www.cnblogs.com/lfs2640666960/p/9700706.html1、什么是Redis?简述它的优缺点?Redis本质上是一个Key-Value类型的内存数据库,很像memcached,整个数...

2019-07-12 21:10:54 466

转载 Spark常见问题汇总

原文地址:https://my.oschina.net/tearsky/blog/629201摘要:  1、Operation category READ is not supported in state standby  2、配置spark.deploy.recoveryMode选项为ZOOKEEPER  3、多Master如何配置  4、No Space Left on ...

2019-07-09 19:43:27 962

转载 JAVA架构师面试题

基础题目 Java线程的状态 进程和线程的区别,进程间如何通讯,线程间如何通讯 HashMap的数据结构是什么?如何实现的。和HashTable,ConcurrentHashMap的区别 Cookie和Session的区别 索引有什么用?如何建索引? ArrayList是如何实现的,ArrayList和LinkedList的区别?ArrayL...

2019-07-09 19:38:47 154

转载 高并发解决方案

一、什么是高并发高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求。高并发相关常用的一些指标有响应时间(Response Time),吞吐量(Throughput),每秒查询率QPS(Query Per Second),并发用户数等。响应时间:系统对请求做出响应的时间。例如系统处理一个HTTP请求需...

2019-07-04 12:01:37 454

转载 Hadoop关于处理大量小文件的问题和解决方法

小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用Hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,没一个object占用150 bytes的内存空间。所...

2019-07-01 15:37:35 1106

转载 数据中台你想知道的都在这里!

导读,文章万字左右,重点内容导读如下: 数据中台是什么? 数据中台和数据仓库,数据平台的关系是什么? 数据中台和业务中台的区别是什么? 数据中台建设的最大挑战是什么? 数据中台的数据质量应该如何保障? 数据中台的典型架构是怎样的? 企业数据中台的团队如何构建? 数据中台团队的绩效如何评价? 1.数据中台是什么...

2019-06-30 11:38:38 3968

转载 OLTP和OLAP有何区别

OLTP和OLAP主要区别有:1、基本含义不同:OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查,比如在银行存取一笔款,就是一个事务交易。OLAP即联机分析处理,是数据仓库的核心部心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。2、实时性要求不同:OLTP实时性要求高,OLTP数据库旨在使事...

2019-06-30 10:59:00 732

转载 java线程安全问题原因及解决办法

1.为什么会出现线程安全问题计算机系统资源分配的单位为进程,同一个进程中允许多个线程并发执行,并且多个线程会共享进程范围内的资源:例如内存地址。当多个线程并发访问同一个内存地址并且内存地址保存的值是可变的时候可能会发生线程安全问题,因此需要内存数据共享机制来保证线程安全问题。对应到java服务来说,在虚拟中的共享内存地址是java的堆内存,比如以下程序中线程安全问题:public c...

2019-06-30 09:42:43 384 1

转载 数据中台到底是什么?

阿里提出了“大中台,小前台”,其中台事业部包括搜索事业部、共享业务平台、数据技术及产品部,数据技术及产品部应是数据中台建设的核心部门。那么,数据中台到底是什么?具体包含哪些内容?跟大数据平台是什么关系?在架构层面是怎么体现的?数据中台跟产品又有什么关系?阿里数据技术及产品部的掌门提倒了数据中台的具体含义,这里引用他说的话:“很多人会把数据比作“石油”,马老师(马云)也说过,阿里巴巴要成...

2019-06-29 20:01:05 2401

转载 数据仓库之分层模型

一、各行业使用的分层模型不同的行业使用的分层也有所不同,但思想都差不多1.电信通讯stage层 ->bdl层 ->analysis层2.传统金融/保险ods层 ->pdm层 ->dm层3.互联网金融/电商odl层 ->bdl层 ->idl层 ->adl层二、专业术语ODL层 (Operational Data...

2019-06-29 17:05:08 1972

转载 数据仓库中的几种数据模型

数据仓库中常见的模型有:范式建模,雪花模型,星型建模,事实星座模型.星型模型星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了汇总,排序等等,数据量减少,执行的效率就比较高。雪花模型雪花模型也是维...

2019-06-29 10:39:43 1526

转载 Redis和Memcache区别,优缺点对比

1、 Redis和Memcache都是将数据存放在内存中,都是内存数据库。不过memcache还可用于缓存其他东西,例如图片、视频等等。2、Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,hash等数据结构的存储。3、虚拟内存–Redis当物理内存用完时,可以将一些很久没用到的value 交换到磁盘4、过期策略–memcache在set时就指定,例如set ke...

2019-06-24 22:13:13 311

转载 HBase原理-数据读取流程解析

和写流程相比,HBase读数据是一个更加复杂的操作流程,这主要基于两个方面的原因:其一是因为整个HBase存储引擎基于LSM-Like树实现,因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件;其二是因为HBase中更新操作以及删除操作实现都很简单,更新操作并没有更新原有数据,而是使用时间戳属性实现了多版本。删除操作也并没有真正删除原有数据,只是插入了一条打上”deleted”标签的...

2019-06-23 22:28:34 154

转载 Spark SQL基本概念与基本用法

1. Spark SQL概述1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。1.2 为什么要学习Spark SQLHive,它是将Hive SQL转换成MapReduce,...

2019-06-23 18:37:16 280

转载 Spark学习之路SparkSQL的自定义函数UDF

在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种:UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在group by之后使用的sum,avg等 UDTF(User-Defined Table-G...

2019-06-23 17:22:44 212

转载 Spark学习之路 Spark分区

一、分区的概念  分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。二、为什么要进行分区  数据分区,在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能。mapreduce框...

2019-06-23 17:17:02 137

转载 Spark学习之路 SparkSQL简单使用

一、SparkSQL的进化之路1.0以前: Shark1.1.x开始: SparkSQL(只是测试性的) SQL1.3.x: SparkSQL(正式版本)+Dataframe1.5.x:SparkSQL 钨丝计划1.6.x: SparkSQL+DataFrame+DataSet(测试版本)x: SparkSQ...

2019-06-23 17:02:15 403

转载 Apache 流框架 Flink,Spark Streaming,Storm对比分析

1.Flink架构及特性分析Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Flink中,所有 的数据都看作流,是一种很好的抽象,因为这更接近于现实世界。1.1 基本架构下...

2019-06-19 09:53:34 332

转载 Hbase读写流程和寻址机制

写操作流程(1) Client通过Zookeeper的调度,向RegionServer发出写数据请求,在Region中写数据。(2)数据被写入Region的MemStore,直到MemStore达到预设阈值。(3) MemStore中的数据被Flush成一个StoreFile。(4)随着StoreFile文件的不断增多,当其数量增长到一定阈值后,触发Compact合并操作,将多...

2019-06-18 22:44:52 350

转载 大数据在线和离线采集常用架构剖析

1 大数据处理的常用方法大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下:在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求,则可以采用在线处理的方式来对数据进行分析,如使用Spark、Storm等进行处理。比较贴切的...

2019-06-15 18:45:32 4013

转载 Spark中parallelize函数和makeRDD函数的区别

我们知道,在Spark中创建RDD的创建方式大概可以分为三种:(1)、从集合中创建RDD;(2)、从外部存储创建RDD;(3)、从其他RDD创建。  而从集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD。我们可以先看看这两个函数的声明: def parallelize[T: ClassTag]( seq: Seq[T], ...

2019-06-15 18:43:41 914

转载 Flume原理深度解析

一、Flume简介  flume 作为cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。  但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发...

2019-06-15 18:26:18 540

原创 CDH: 请求 Service Monitor 超时。这可能会导致页面响应缓慢

您正在非生产模式下运行 Cloudera Manager,该模式使用嵌入式 PostgreSQL 数据库.请求 Service Monitor 超时。这可能会导致页面响应缓慢是因为jvm内存给的少了, 所有Monitor 当掉了, 解决方法如下:1. 主页 -> 左边最下面的Cloudera Management Service修改后...

2019-05-31 18:58:38 1803

原创 (idea scala) Error:scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException

Error:scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException Error compiling sbt component 'compiler-interface-2.10.0-52.0' at sbt.compiler.AnalyzingCompiler$$anonfun$compileSo...

2019-05-31 17:09:57 2444 1

转载 Redis最全面试题

一、概述Redis 是速度非常快的非关系型(NoSQL)内存键值数据库,可以存储键和五种不同类型的值之间的映射。键的类型只能为字符串,值支持五种数据类型:字符串、列表、集合、散列表、有序集合。Redis 支持很多特性,例如将内存中的数据持久化到硬盘中,使用复制来扩展读性能,使用分片来扩展写性能。二、数据类型数据类型 可以存储的值 操作 STRING 字符串...

2019-05-31 00:08:34 245

原创 安装CM+CDH 主机运行状况不良完美解决方案

官方参考文档参考官网说明:https://www.cloudera.com/documentation/enterprise/releasenotes/topics/cm_rn_known_issues.html#rn_OPSAPS-34847查看官方文档:解决办法翻译过来就是:删除agent目录下面的cm_guid文件,并重启失败节点的agent服务恢复。c...

2019-05-28 10:20:33 6938 1

原创 CDH搭建分发节点报错 解决

看问题 ,看日志 是找不到文件或目录,可是看了一圈都存在啊,然后日志有warning ,说hostname localhost.localdomain,感觉不对劲,于是查看自己的hostname,显示localhost.localdomain , 可我明明都配置了hosts文件 vim /etc/sysconfig/network 和 vim /etc/hosts, 也查看了显...

2019-05-28 09:46:14 829

转载 Kafka如何保证消息不丢失不重复

首先需要思考下边几个问题:消息丢失是什么造成的,从生产端和消费端两个角度来考虑消息重复是什么造成的,从生产端和消费端两个角度来考虑如何保证消息有序如果保证消息不重不漏,损失的是什么大概总结下消费端重复消费:建立去重表消费端丢失数据:关闭自动提交offset,处理完之后受到移位生产端重复发送:这个不重要,消费端消费之前从去重表中判重就可以生产端丢失数据:这个是最麻...

2019-05-22 09:48:48 635

原创 安装RedHat Linux 7.4

安装RedHat Linux 7.4创建新的虚拟机选择“自定义(高级)”选择“下一步”选择“稍后安装操作系统” 选择操作系统的类型设置虚拟机名称和保存路径下一步下一步设置网络类型,选择“使用仅主机模式网络”下一步下一步下一步...

2019-05-21 15:45:26 7431

原创 MySQL学习总结

MySQL学习总结前言春节期间看了一本mysql书《MySQL数据库应用从入门到精通》觉得这本书相对简单、基础、实用、全面,我们大多数人喜欢搞一些高深的东西,而忽视一些简单基础的东西,在工作当中我们犯错的地方往往是那些简单基础的地方,有的时候一些基础的DDL、DML并不一定是信手拈来,有些概念和用法也并不一定掌握的很准确,还需要百度的帮助。下面简单的总结些容易犯错或者是容易模...

2019-05-21 14:39:29 4874

原创 CentOS挂载硬盘

提醒:挂载操作会清空数据,请确认挂载盘无数据或者未使用第一步:列出所有磁盘 命令: ll /dev/disk/by-path 或者使用: fdisk -l提示:如果无法确认数据盘设备名称,请使用df命令来确认系统盘的名称,从而排除挂错盘的情况。第二步:格式化硬盘 命令: fdisk /dev/sdb注意:图中箭头标注处续手动键入第三步:创建分区 ...

2019-05-21 14:35:48 414

原创 软件著作权申报中60页标准代码文档的写作经验谈(1)

软件著作权申报中60页标准代码文档的写作经验谈(1)在申报著作权的工作中,都要提供软件的60页源代码。这是一种特殊要求的东西,它要求每页50行程序,并要求前30页是程序的前半部分有开头并连续,后30页是程序的后半部分包括结尾也要连续,30和31页之间可以不连续。这个文档的格式,一般要求有页眉上标记申报的软件名称,天津还要有行标,页眉的右边有,第某页,共60页字样。一、程序的选择要选择超...

2019-05-21 14:33:03 8700 2

原创 软件著作权登记流程、时间、材料

软件著作权登记流程、时间、材料一、软件著作权登记流程填写申请表--→提交申请文件--→缴纳申请费--→登记机构受理申请--→补正申请文件(非必须程序)--→取得登记证书。http://www.ccopyright.com.cn/; 上面填写申请表,然后微信公众号(CPCC1718)预约办理。三、软件著作权登记文件软件著作权登记申请文件应当包括:软件著作权登记申请表、软件的鉴别...

2019-05-21 14:31:50 604

转载 倒排索引原理和实现

倒排索引原理和实现关于倒排索引搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档。怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词——文档矩阵模型,通过这个模型我们可以很方便知道某篇文档包含哪些关键词,某个关键词被哪些文档所包含。单词-文档矩阵的具体数据结构可以是倒排索引、签名文件、后缀树等。倒排索引源于实际应用中需要根据属性的值来查找记录,luce...

2019-05-21 14:29:21 261

原创 Memcache,Redis,MongoDB数据缓存方案对比与分析

一、问题: 数据库表数据量极大(千万条),要求让服务器更加快速地响应用户的需求。二、解决方案: 1.通过高速服务器Cache缓存数据库数据 2.内存数据库 (这里仅从数据缓存方面考虑,当然,后期可以采用Hadoop+HBase+Hive等分布式存储分析平台)三、主流解Cache和数据库对比: 上述技术基本上代表了当今在数据存储方面所有...

2019-05-21 14:27:50 229

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除