• 等级
  • 58565 访问
  • 116 原创
  • 15 转发
  • 32481 排名
  • 18 评论
  • 69 获赞

Kafka入门

kafka是什么、使用场景 kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。 kafka生产消息、存储消息、消费消息 Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(kafka集群的server,负...

2018-09-09 20:50:05

Mysql启动报错:本地计算机上的mysql服务启动停止后,某些服务在未由其他服务或程序使用时将自动停止

报错 在启动mysql服务时出现该错误: 本地计算机上的mysql服务启动停止后,某些服务在未由其他服务或程序使用时将自动停止。 解决前提 以管理员身份运行cmd,然后切换到mysql安装盘,找到mysql的bin目录 解决步骤 1.删除原来的服务 mysqld --remove mysql 2.清空mysql根目录下的data目录 3.在bin目录下执行命令 m...

2018-09-03 17:38:17

CDH-5.13.1离线安装教程

总结了一份比较详细的文档,希望能帮助到一些同学 下载文档

2018-09-03 09:42:21

Spark源码阅读环境搭建

前言 对于Spark的应用,仅仅会使用期API来编程只能达到初级(助理)工程师或中级(熟练)工程师的水平,而学会调优则可以让你进阶为高级工程师。那么怎么才能成为顶尖的工程师呢?源码! 准备工作 (1)下载IDEA (2)配置Scala2.11 (3)配置Maven (4)下载Spark源码 详细步骤 (1)官网下载 (2)打开IDEA,单击Import Project,并选择...

2018-08-28 10:31:55

Spark性能优化指南——高级篇

前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题...

2018-08-27 16:55:11

Spark性能优化指南——基础篇

本来想自己总结调优,但是涉及的面有点广,现在网上转载最多的莫过于美团2016年写的那两篇博客了,写的很详细,但是我在实际开发中不是所有的都验证过,先转了,完了有时间进行进一步验证 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范...

2018-08-27 16:18:34

Spark提交任务参数详解

先看官网提供的两个提交例子(只看集群模式) # Run on a Spark standalone cluster in cluster deploy mode with supervise ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7...

2018-08-26 23:00:53

Spark提交代码的两种方式

基于spark1.6测试(虽然很多公司都已经在用2.X了,但是1.6我认为是最经典的版本,CDH最新版本至今默认的spark版本依然是1.6,不过2.X提交方式是基本没有变的) Standalone (1)standalone-client提交任务方式 提交命令 ./spark-submit \ --master spark://node1:7077 \ --class org.apa...

2018-08-26 22:18:08

Linux安装和卸载JDK

安装JDK rpm -vi jdk-xxxx-linux-x64.rpm 配置JDK环境变量 vi /etc/profile shift +G把光标移动到文件末尾添加如下配置: export JAVA_HOME=/usr/java/jdk1.x.x_xx export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOMdE...

2018-08-24 15:22:19

IDEA Junit测试

第一步:run-Edit Configurations 第二步:选择JUnit-Method-输入方法名-OK 第三步:Shift+F10(或者点击Run-Run’XXX’)运行即可

2018-08-24 10:41:14

把项目中任意文件夹导出为可执行的jar包

IDEA打包的方法也有很多,常用的当然是Maven打包,但是不用Maven也很容易,接下来介绍我常用的几种打包方式 方法一 (1)File–Project Structure(快捷键:Ctrl +Alt +Shift +S) (2)选择Artifacts-加号-JAR-Empty (3)填写jar包名称-选择compile output结尾的文件,点击下方OK按钮(这里有个Outp...

2018-08-24 10:33:26

IDEA导入jar包

现在很少有人下载jar包,然后导入idea,那是eclipse的做法,但是idea也不是不可以,步骤也很简单,就三步。 (1)File–Project Structure(快捷键:Ctrl +Alt +Shift +S) (2)选择Libraries–加号–Java (3)在你本地选择要导入的jar包,一路确定即可。最后需要等待IDEA配置jar包完成就可以使用了。...

2018-08-24 09:21:52

绘图工具

作为程序员,会经常记录一些知识,并且使用绘图的方式更直观的描绘运行流程,以及一些原理,windows自带的绘图工具,真的有点…我常用的绘制流程图的工具有两种 Processon 这是一款在线绘图工具,使用起来非常简单方便 点击进入官网 Viso 这是一款体积很小,可以绘制很多中流程图的客户端 点击进入官网...

2018-08-23 22:13:15

免秘钥的两种方式

第一种方式(dsa) 1.全部节点执行下面三个步骤 ssh local ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 2.发送自己的公钥到其他所有节点(这里模拟有四个节点,只在node01节点做示范,其它节点类似) [root@no...

2018-08-21 15:12:14

设置时间同步(ntp)详细步骤

所有节点同时操作如下步骤 1.安装ntp yum install ntp 2.配置开机启动 chkconfig ntpd on 3.检查是否设置成功(2-5为on则为成功) chkconfig --list ntpd 4.设置同步(时钟服务器根据实际环境设置、本文采用210.72.145.44-国家授时中心服务器IP地址) ntpdate -u ntp.sjtu.edu.cn...

2018-08-21 11:34:18

一次搭建Spark集群(standalone、yarn、高可用)

摘要内容施舍么

2018-08-20 17:36:26

IDEA注册码激活方法

我也不知道这个方法是否一直能使用,反正这一年多来一直能用 打开网址: http://idea.congm.in/ 修改系统host文件,win7环境下host文件路径在 系统盘下的 C:\Windows\System32\drivers\etc 在host文件中最后一行添加 0.0.0.0 account.jetbrains.com,保存退出 打开 IntelliJ IDEA 输入激...

2018-08-16 14:28:05

Mysql8.0.12解压版安装亲测(步骤超级简单)

Mysql8.0.12解压版亲测 1.下载(官方推荐的是下载安装板,但是之前一直用,想试一下解压版,毕竟更简单嘛) https://dev.mysql.com/downloads/mysql/ 2.解压 这就是解压后的目录,但是我们需要在这个基础上做两步小操作 (1)创建一个名为data的文件夹 (2)创建一个名为my.ini的文件 3.修改my.ini文件 [mysq...

2018-08-16 14:03:03

什么是机器学习

本文转自 在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。   在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢...

2018-08-07 18:10:27

大数据博客

http://www.iteblog.com/ 过往记忆 http://lxw1234.com/ lxw大数据田地 http://www.aboutyun.com/ about云 http://tech.meituan.com/ 美团技术博客 http://dongxicheng.org/ 董西成

2018-08-06 13:58:48

RxWorld

专注研究IT行业中
关注
  • 计算机软件/IT
  • 中国 北京 西城区