自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Tattoo

欢迎评论区交流~

  • 博客(43)
  • 资源 (2)
  • 收藏
  • 关注

原创 tensorflow在win10 下的安装教程

tensorflow安装过程-(windows环境下)一, 前言:本次安装tensorflow是基于Python的,安装Python的过程不做说明本次教程是windows下Anaconda安装Tensorflow的过程(cpu版)二, 安装环境:(tensorflow支持的系统是64位的,windows和linux,mac都需要64位)    Python3.7.3(之前电脑上是安装的就是...

2019-07-04 17:29:58 19047 16

原创 解决ifconfig只有lo或只有ipv6的问题

打开虚拟机发现连不上网ifconfig:只有本地回环手动启动:# ifconfig eth0 upeth0:unknown interface:没有那个设备尝试eth1# ifconfig eth1 up有戏 此时只有ipv6这时就需要配置eth1了进入下图目录可以看到eth0和lo的配置文件操作:cp ifcfg-eth0 ifcfg-eth0.bakmv ...

2018-10-25 12:35:08 8482

原创 Android Studio 配置flutter开发环境教程(超详细)

目录安装JDK下载Flutter SDK下载Android Studio解决方案flutter doctorAndroid toolchain插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表安装JDK下载地址下载安装后配置环境变量即可下载Flutter SDK下载地址下载后解压即可,然后配置环境变量下载Android Studio下载地址下载安装即可安装过程中会出现报...

2020-03-15 16:08:09 25535 9

原创 IDEA TOP TIPS

福利:JetBrains激活码JetBrains(Idea/pyCharm/WebStorm…15款全都可以用),切记,不要传播!点赞关注持续更新!812LFWMRSH-eyJsaWNlbnNlSWQiOiI4MTJMRldNUlNIIiwibGljZW5zZWVOYW1lIjoi5q2j54mIIOaOiOadgyIsImFzc2lnbmVlTmFtZSI6IiIsImFzc2lnbmVl...

2020-03-04 16:59:43 6838 1

原创 IDEA用法整理(头部注释、打包运行)

IDEA - Build Path在IntelliJ IDEA 中选择File->Project Structure->Modules->Dependencies 右边有个绿色的

2020-03-04 16:41:56 1403

原创 matplotlib去掉顶右部边框和坐标轴调整

方法一:import numpy as npimport matplotlib.pyplot as plt data=np.random.rand(10,10)fig, ax=plt.subplots()data[data==-1]=np.nan#去掉缺省值-1im =ax.imshow(data,interpolation='none',cmap='Reds_r',vmin=0.6...

2019-07-15 17:14:31 16772

转载 Python四舍五入函数就用round( )?四舍五入的正确打开方式!

round( )函数简介菜鸟教程中介绍到,round() 函数作用就是,返回浮点数x的四舍五入值。> round( x [, n] )参数x,n均为数值表达式,返回值为x的四舍五入值。n为保留的小数位数,不加n则只保留x四舍五入后的整数部分。>>> round(2.3)2>>> round(2.45, 1)2.5特殊情况上面的结果并...

2019-07-10 14:05:23 3152

原创 如何提高mysql插入数据的速度

提高mysql插入数据的速度在myisam engine下:尽量使用insert into table_name values (…), (…),(…)这样的形式插入数据,避免使用inset into table_name values (); inset into table_name values (); inset into table_name values ();增加bulk_i...

2019-07-04 13:12:53 4376

原创 “此共享需要过时的SMB1协议,而此协议是不安全的“解决方法

1.从计算机中进入卸载和更改程序界面(Win10藏的太深)2.找到程序和功能按钮链接3.进入熟悉的界面,选择左边【启用或关闭Windows功能】,再弹出窗口中勾选【SMB1.0/CIFS文件共享支持】4.按照要求重启电脑生效...

2019-07-04 10:38:12 25273

原创 数据分析工具Pandas

Pandas的数据结构Pandas的数据操作Pandas统计计算和描述数据的分组与聚合数据清洗、合并、转化和重构Pandas•一个强大的分析结构化数据的工具集•基础是NumPy,提供了高性能矩阵的运算•应用,数据挖掘,数据分析• 如,学生成绩分析、股票数据分析等。• 提供数据清洗功能Pandas的数据结构Series• 类似一维数组的对象• 通过list构建Seri...

2019-06-04 15:11:07 610

原创 Ubuntu16安装基于Ambari的HDP集群

Ubuntu16安装基于Ambari的HDP集群安装环境集群基础配置准备安装包配置环境配置Ubuntu启动源安装mysql配置hdp集群安装环境两台干净的Ubuntu16系统分别作为主机和从节点,系统间网络连通,内存最好大于4G;集群基础配置1.主机命名 master.example.com node1.example.com node2.example.com(生产环境下建议使...

2019-04-09 10:34:17 1092

原创 HBase分布式数据库

HBase简介HBase是一个分布式的、面向列的开源数据库,该技术来源于Changetal所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统"高可靠性、高性能、面向列、可伸缩HBase-Hadoop DatabaseHDFS为HBase提供高可靠底层存储支持MapReduce为HBase提供高性能计算能力ZooKeeper为HBase提供稳定服务和failove...

2018-12-10 21:46:40 616

原创 zookeeper总结

ZooKeeper是什么Zookeeper是Hadoop项目的一个子项目Zookeeper是源代码开放的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。它是一个针对大型分布式系统的高性能的可靠协调系统。它将那些复杂的、容易出错的分布式一致性服务封装起来,构成一个高效可靠的原语集,并提供一系列简单易用的接口给用户使用。为什么要使用ZooKeeper大部分分布式应用需要...

2018-12-10 16:22:04 127

原创 kafka高吞吐量原理

kafka高吞吐量的实现原理:一、顺序读写磁盘,充分利用了操作系统的预读机制。kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利用磁盘的顺序读写性能顺序读写不需要硬盘磁头的寻道时间,只需很少的扇区旋转时间,所以速度远快于随机读写二、linux中使用sendfile命令,减少一次数据拷贝,如下。①把数据从硬盘读取到内核中的页缓存。②把数据从内核中读取到用户空间。(send...

2018-12-07 16:57:44 2807

转载 大数据面试题

1 kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果ma...

2018-12-07 13:18:30 306

原创 MapReduce应用编程开发

MapReduce的编程在集群上的运作MapReduce类型与格式MapReduce的编程设计思路MapReduce中定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现:map: (k1; v1) → [(k2; v2)]输入:键值对(k1; v1)表示的数据处理:文档数据记录(如文本文件中的行,或数据表格中的行)将以“键值对”形式传入map函数;map函数...

2018-12-07 02:04:10 679

原创 HDFS的运行机制

HDFS中数据流的读写HDFS的HA机制HDFS的Federation机制HDFS中数据流的读写什么是RPC?RPC(Remote Procedure Call)——远程过程调用,是一种协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传...

2018-12-06 01:33:10 877

原创 Zookeeper分布式安装

1、下载解压缩zookeeper,将软件移到指定目录,修改.bash_profile文件,增加相应的环境变量,并使环境变量生效。2、修改配置文件。在$ZOOKEEPER_HOME/conf,执行cp zoo_sample.cfg zoo.cfg,文件内容如下:#这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心...

2018-12-06 00:17:54 88

原创 Spark Streaming知识总结

Spark Streaming原理Spark Streaming 是基于spark的流式批处理引擎。其基本原理是:将实时输入数据流以时间片为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据。Spark Streaming作业流程客户端提交作业后启动Driver(Driver是spark作业的Master);每个作业包含多个Executor,每个Executor以...

2018-12-05 20:07:33 813 1

原创 windows下安装运行flume 1.8

一、安装环境和软件1、flume 运行需要java环境,所以运行flume之前必须安装并配置java环境(如果安装了jdk,但是没有配置jdk环境,运行 flume 时会抛出找不见 java.exe 的错误)。2、flume 1.8 需要 java运行时环境java 1.8或更高。3、下载 flume 1.8 ,下载地址:http://www.apache.org/dyn/closer.lu...

2018-12-05 19:02:46 673

原创 java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected

在配置hadoop2.6 ,hive1.2的时候,Hive 启动报错:[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expecte解...

2018-12-04 19:07:29 855

原创 大数据概论

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合大数据 = “海量数据”+“复杂类型的数据”如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”Drill/Impala :内存SQL引擎,Dremel开源实现BigTop:Hadoop生态系统打包分发与测试Lucence :全文搜索引擎Nutc...

2018-12-04 02:11:53 1241

原创 SparkSQL基础

SparkSQL概述SparkSQL是Spark的结构化数据处理模块。特点如下:数据兼容:可从Hive表、外部数据库(JDBC)、RDD、Parquet 文件、JSON 文件获取数据;组件扩展:SQL 语法解析器、分析器、优化器均可重新定义;性能优化:内存列存储、动态字节码生成等优化技术,内存缓存数据;多语言支持:Scala、Java、Python;Shark即Hive on Spa...

2018-11-29 22:57:37 1674

原创 Spark-core知识体系总结

RDD是spark的核心概念,它是一个容错、可以并行执行的分布式数据集。RDD包含5个特征:1、一个分区的列表2、一个计算函数compute,对每个分区进行计算3、对其他RDDs的依赖(宽依赖、窄依赖)列表4、对key-value RDDs来说,存在一个分区器(Partitioner)【可选的】5、对每个分区有一个优先位置的列表【可选的】Spark 以一个弹性分布式数据集(RDD)的...

2018-11-28 23:08:38 417

原创 Ubuntu下搭建spark2.4环境(单机版)

说明:单机版的Spark的机器上只需要安装JDK即可,其他诸如Hadoop、Zookeeper(甚至是scala)之类的东西可以一概不安装。集群版搭建:Spark2.2集群部署和配置一、安装JDK1.81、下载JDK1.8,地址2、将下载的文件保存在 /home/qq/java下,进行解压,解压后文件夹为 jdk1.8.0_171:tar -zxvf jdk-8u171-linux-i5...

2018-11-23 20:14:47 938 1

原创 eclipse install 安装时出现Installation failed with an error(解决方案)

首先卸载之前安装过的eclipse(绿色版不用管) 在安装目录下 删除 eclipse .eclipse .p2 文件夹再看一下安装路径里面是不是有空格……和系统位数是不是匹配……然后以管理员权限运行安装...

2018-11-22 20:05:22 12267 2

原创 scala安装部署

查询Scala API:http://www.scala-lang.org/api/2.11.0/index.html#scala.math.package官网: http://www.scala-lang.org/Scala download:https://www.scala-lang.org/download/Java的版本:1.8.x (根据Spark版本确定)IDE:Inte...

2018-11-22 01:50:38 355

原创 Spark2.2集群部署和配置(CentOS)

说明1、Spark版本:2.2.0 2、Spark下载的地址3、Spark下载的类型:源码、编译后的软件包等4、Spark依赖的软件/软件包:Linux(Centos 6.5)Java(1.8+)Scala(2.11.8)Hadoop(2.7)Maven(3.3.9 +)【非必须】Python(2.7+/3.4+)R(3.1+)假设前提:已经设置好了虚拟机;完成了:Li...

2018-11-22 00:38:14 368

原创 Spark开发环境搭建(IDEA、Maven)

在scala的学习中,我们的IDEA已经能做普通的scala开发;如果要开发spark程序,只要引入spark相关的依赖即可(即导入spark相关的jars);导入spark相关的依赖有两个办法:引入相关的jars(操作简单)使用maven/sbt管理jars(操作复杂)Maven简介Maven是一个跨平台的项目管理工具(Apache开源项目)。它主要服务于基于Java平台的项目构建...

2018-11-22 00:04:42 335

原创 Spark2.2.0开发之maven配置

基于maven的spark开发配置。可根据项目情况,调节spark.version和scala.version即可。<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=&

2018-11-21 23:40:47 1806

原创 Flink的安装部署

Standalone集群安装1.上传安装包到linux系统使用rz命令2.解压tar –zxvf flink-1.5.0-bin-hadoop24-scala_2.11.tgz3.修改配置文件vim conf/flink-conf.yamljobmanager.rpc.address: masterjobmanager.rpc.port: 6123jobmanager.heap....

2018-11-21 22:26:54 4562

原创 spark作业常见异常

1、java.lang.IllegalArgumentException: System memory … must be at least … Please use a larger heap … spark.driver.memory…解决:可能跟driver.memory无关,先设置应用程序的 VM optionsidea的设置路径在:Run -Edit Configurations-...

2018-11-21 15:59:52 235

原创 scala整理

Scala语言的特点:基于JVM(可以重用类库)简洁优雅面向对象 + 函数式编程(FP)函数式编程的数学基础是 : λ演算函数式编程中,所有的数据都是不可变的,不同的函数之间通过数据流来交换信息,函数作为FP中的一等公民,享有跟数据一样的地位,可以作为参数传递给下一个函数,同时也可以作为返回值。基础语法Scala基础程序文件的名称可以不与对象名称完全匹配;程序从main()...

2018-11-20 18:35:09 110

原创 spark概述

MapReduce的不足只有两种操作,表达能力欠缺,复杂的计算实现难度大Job的结果保存在HDFS迭代式计算性能比较差延时高,只适合批处理计算,交互式、实时数据处理支持不够spark的产生是直击之前的传统的基于分布式的计算框架MapReduce的一些缺点而设计的:SpeedEase of Use1、提供Scala、Java、Python、R的编程接口2、提供了很多的高层API...

2018-11-14 20:53:00 91

原创 Kafka分布式发布订阅消息系统

Kafka是什么Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费Kafka安装安装条件Kafka的安装需要在Hadoop已经成功安装的基础上,并要求Hadoop集群已经正常启动使用如下命令,看可否正常显示HDFS上的目录列表ha...

2018-10-31 20:42:31 912

原创 flume总结(安装、简介及常见异常处理)

Flume的安装与部署一、Flume的官方网站在哪里?  http://flume.apache.org/二、Flume部署与测试2.1 JDK安装2.2 Flume安装解压:# tar -zxvf apache-flume-1.5.0-bin.tar.gz# tar -zxvf apache-flume-1.5.0-src.tar.gz将apache-flume-1.5....

2018-10-29 17:57:28 685

原创 关于Linux中的PS1和PS2

export PS1="[\e[36m][\u@\h \W]\$ [\e[m]"

2018-10-27 14:32:54 1915

原创 win+eclipse+idea常用快捷键总结

一、常用快捷键1、ctrl+H 打开文件搜索对话框2、alt+? / alt+/ 自动补全代码或者提示代码3、ctrl+o 快速outline视图 查看当前类的方法或某个特定方法4、ctrl + shift + r 打开资源列表 查找类文件5、ctrl + e ...

2018-10-26 01:18:18 188

原创 storm总结

安装部署安装条件:1、Storm的安装需要在Hadoop已经成功安装的基础上,并要求Hadoop集群已经正常启动2、需要Zookeeper集群已经正常启动从http://storm.apache.org获得Storm的安装包安装:unzip apache-storm-0.9.3.zip配置Storm环境变量:vim ~/.bash_profileexport STORM_HOME...

2018-10-24 20:05:36 192

原创 sqoop总结

sqoop参数含义解释:sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://master:3306/test --username hadoop --password hadoop --table test --hbase-table test --column-family info --columns ...

2018-10-24 19:38:53 407

本资源包含kettle连接几乎各种常见数据库所需jar包

本资源包含kettle连接几乎各种常见数据库(mysql,sqlite,oracle,sqlserver,sqlyog.......)所需jar包,解压后可直接覆盖kettle的lib文件夹

2019-07-04

azkaban源码

简单的来说azkaban就是一个工作流引擎。 解决作业依赖关系,从ETL到数据分析 可以解决作业依赖关系的DAG

2018-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除