4 翟开顺

尚未进行身份认证

谦谦君子,卑以自牧

等级
TA的排名 6k+

分布式之CAP定理与个人见解

本文是个人见解,或许和网上有稍许不同,应该是我的问题,但我只能这样想,才想得通。如有不对,请批评指正1.CAP是什么:分布式系统中,一致性、可用性、分区容忍性最多只可同时满足两个先介绍CAP分别是什么Consistency一致性,通过某个节点的写操作结果对后面通过其它节点的读操作可见,一致性又有多种形式例如:如果更新数据后,并发访问情况下可立即感知该更新,称为强一致性如果允许...

2019-01-27 23:55:02

腾讯大数据之 TDW 计算引擎解析——Shuffle

腾讯分布式数据仓库(TencentdistributedDataWarehouse,简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求,TDW也在向实时化方向发展,为用户提供更加高效、稳定、丰富的服...

2019-01-07 22:55:43

MYSQL和SQLSERVER数据导入简单小工具

MYSQL和SQLSERVER数据导入简单工具1.简介项目灵感来源于自己经常会分析一些小文本文件,经常用excel等分析不太方便,所以做了这个工具。能将文件简单导入到mysql,sqlserver的工具,目前支持文件,文件夹,hdfs文件,文件夹,以后会支持excel等文件,导入的字段名称为v0,v1,v2…,属性全为varchar(255)表名为指定或者默认的文件夹(或者文件名)和时间...

2018-12-27 21:48:51

jdbc大批量数据导入mysql和sqlserver,最快速方法

1.mysql大批量导入:使用load的方法最快,但是我们知道,load只能load文件,但是如果我们想load内存里面的一些数据怎么办呢,可以参考这篇文章https://blog.csdn.net/seven_3306/article/details/9237495不写文件,同时LOAD的方法,用的是setLocalInfileInputStream方法方法如下:publi...

2018-12-27 21:44:34

java线上程序排错经验5 -linux及其集群环境的分析

top命令查看整体情况top命令和灵活,具体可自行搜索查看内存free-m分析系统内存,看是否足够程序运行磁盘占用情况3.1.查看文件夹中各文件(夹)的大小举例du-h--max-depth=1/home/ubuntu/3.2.查看磁盘占用情况df-h查看磁盘IOddif=/dev/zeroo...

2018-09-16 01:50:29

java线上程序排错经验4 -Btrace了解一下

简介在生产环境中经常遇到格式各样的问题,如OOM或者莫名其妙的进程死掉。一般情况下是通过修改程序,添加打印日志;然后重新发布程序来完成。然而,这不仅麻烦,而且带来很多不可控的因素。有没有一种方式,在不修改原有运行程序的情况下获取运行时的数据信息呢?如方法参数、返回值、全局变量、堆栈信息等。Btrace就是这样一个工具,它可以在不修改原有代码的情况下动态地追踪java运行程序,通过hotswap...

2018-09-16 01:47:45

java线上程序排错经验3 - jvm内存分析

前言堆分析工具很多,这里只介绍一种分析的方法,也是最原始的一种,以后会在这篇文字里面慢慢补充1.先得到堆1.1jmap得到堆直接jmap查看使用方法ubuntu@VM-0-12-ubuntu:~$jmapUsage:jmap[option]<pid>(toconnecttorunningprocess)...

2018-09-16 01:42:04

java线上程序排错经验2 - 线程堆栈分析

1.前言在线上的程序中,我们可能经常会碰到程序卡死或者执行很慢的情况,这时候我们希望知道是代码哪里的问题,我们或许迫切希望得到代码运行到哪里了,是哪一步很慢,是否是进入了死循环,或者是否哪一段代码有问题导致程序很慢,或者出现了线程不安全的情况,或者是某些连接数或者打开文件数太多等问题,总之我们想知道程序卡在哪里了,哪块占用了大量的资源。此时,或许通过线程堆栈的分析就能定位出问题。如果能...

2018-09-16 01:35:07

java程序线上排错经验1- 了解JVM相关知识

原文:https://github.com/CyC2018/CS-Notes/blob/master/notes/Java%20%E8%99%9A%E6%8B%9F%E6%9C%BA.md本文主要参考与《深入理解java虚拟机》*一、运行时数据区域*程序计数器*Java虚拟机栈*本地方法栈*堆*方法区...

2018-09-01 23:39:57

mapreduce的map阶段中某几个task非常慢的一次排错过程与总结

发现问题:在家里的测试集群测试数据,发现如下问题:程序map阶段很慢,然后通过hadoop的集群界面,几乎大多数的task都是在几分钟就执行完,看到有几个task非常慢,执行了4个多小时还不到一半。分析原因要么数据和代码问题,要么测试集群问题初步查看测试集群问题通过hadoopUI和hdfsUI并没有发现有任何问题,测试集群11个节点都是Activ...

2018-08-03 09:59:40

yarn基本组成架构与工作流程简介

之前记录的笔记,摘抄自哪里忘记了。二.YARN基本组成结构YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的Applicati...

2018-07-26 10:20:28

maven打jar包几种方式

https://blog.csdn.net/puhaiyang/article/details/78380550指定打的jar包使用的jdk版本<plugin><!--MAVEN编译使用的JDK版本--><groupId>org.apache....

2018-07-25 10:58:00

某远程工具 crack install

个人使用teamview是可以的,商业使用尽量还是买一个,毕竟做软件不容易TeamView简介teamview是一款用于远程的工具,相比于QQ等,速度和流畅度简直不能再好,teamView比较良心,普通使用一般是免费的,但是如果比较频繁,会被检测为商业用途,这时候就不能用了,然而作为个人,几千块一年也算太贵,曾经破解TV一般采用卸载,删除注册表,修改mac地址等方法,修改mac...

2018-05-11 09:00:25

yarn mapreduce或者hive参数最佳实践

合理设置队列名mapreduce.job.queuename设置队列名map读取时进行小文件整合mapreduce.input.fileinputformat.split.minsizemapreduce.input.fileinputformat.split.maxsizemapreduce.input.fileinputformat.split.minsize.p...

2018-05-05 12:05:10

兔子递归公式的本质到联想到的一些道理

兔子递归问题前几天有个同事考我一个有关兔子递归的题目:题目如下有一对兔子,生长到第3个月时。开始生第一对兔子,并且以后每月生一对兔子,小兔子生长三个月后,也开始生兔子,问N个月后兔子的总数量.刚开始我一想,这不就是大一就做过的吗,这个就是经典的斐波拉契啊。于是在草稿纸上画着月份1234567对数1123...

2018-03-26 21:21:11

2017小结和2018年小目标

回顾2017:技术栈2018年为止,在大数据的技术树又有所提升,下面是一张目前的技术栈,当然,有的可能已经忘记了,但是也有很多都没写上来。终于把工作内容当成了兴趣回顾一年前,我还是认为编程,搞技术并不是真正的兴趣,我只是为了赚钱养活自己和家人就OK了。想着如果我有钱了,我就去游山玩水,家里开家便利店都好,我绝对不会从事IT这一行业,所以也曾一直在迷茫,不知道将来的路...

2018-02-25 01:00:00

SPARK_SQL工具 TODO

目的TODO功能配置数据库功能使用XML来配置数据库表和字段的对应属性xml文件应该再提供一个数字,说明是第几个字段读数据本地:hdfs结构化数据hive的数据json数据csvhdfs:hdfs结构化数据hive的数据json数据xml数据一次只能有一种格式查询功能支持普通的sql查询支持多表的关联查询

2018-01-31 21:01:40

Bloom Filter的证明以及如何使用

前言,原理就不讲了如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比对来判定是否在集合内:链表、树,map等数据结构都是这种思路。但是随着集合中元素数目的增加,我们需要的存储空间越来越大,检索速度也越来越慢(O(n),O(logn))。map速度是o(1),但是存储空间会越来越大,这时候可以使用Bitmap的思想,也就是使用BloomFilter来做。...

2018-01-30 23:21:06

simHash算法

前言:网上有很多对simHash的算法的讲解,但是大多数的通病是要么讲的太冗余,比如分词讲太多,代码写太多,要么关键点没有讲到,例如针对海量数据,如何利用simHash算法。网上都知道使用抽屉原理,但是要知道这个抽屉原理充分条件而非必要条件。本文主要简单明了讲解一下原理问题的起源:设计比较两篇文章相似度的算法。其实比较两篇文章相似度的算法有很多,为什么使用这个,网上也一大堆就不多说了...

2018-01-30 22:47:58

yarn fair-scheduler 公平调度的一个实例

某个集群需求通过yarn将集群资源设置为A,B两个队列,A队列设置占用资源70%主要用来运行常规的定时任务,B队列设置占用资源30%主要运行临时任务,两个队列间可相互资源共享,假如A队列资源占满,B队列资源比较充裕,A队列可以使用B队列的资源,使总体做到资源利用最大化采取措施经过调研,yarn的调度有多种方式,参考这篇文章:http://blog.csdn.net/suifen

2018-01-30 21:42:30

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!