自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 orcale的函数

1,字符截取函数substr() 1、select substr('HelloWorld',0,3) value from dual; //返回结果:Hel,截取从“H”开始3个字符 2、select substr('HelloWorld',1,3) value from dual; //返回结果:Hel,截取从“H”开始3个字符 3、select substr('HelloWorl...

2019-09-26 15:50:21 187

原创 RedHat RHEL7.2系统的详细步骤(图文)

vmware12中安装 RedHat RHEL7.2系统的详细步骤(图文) 这篇文章主要介绍了VM12中安装 RedHat RHEL7.2系统的详细步骤(图文),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧 本文介绍了vmware12中安装 RedHat RHE...

2019-10-22 11:20:10 1671

原创 python猜数字小游戏

游戏设计思路根据游戏规则:设定一个被猜的数字,该数字是随机的,玩家开始并不知道该数字。该数字是随机整数。玩家报出猜测的数字。庄家告诉玩家报出的数字是否猜中,如果没有猜中猜是大了还是小了,然后庄家继续猜。该局游戏结束,是否还要再玩。代码实现# -*- coding: UTF-8 -*-import randomdef yourGuess(): # 确保输入的是整数 y...

2019-10-17 11:30:25 726 8

原创 深入了解赋值、深拷贝、浅拷贝

在说明之前,先丢一个问题:import copyt = ['a','b']a = [1,2,3,t]b = ac = copy.copy(a)d = copy.deepcopy(a)a.append(4)b = ?c = ?d = ?t.append('c')b = ?c = ?d = ?以上三个值分别代表:直接赋值,浅拷贝,深拷贝;如果你对上面问题的答案还不确...

2019-10-16 10:14:13 168

原创 python的简单练习代码——取值、九九乘法、String、字符串

1234取出千位、百位、十位、个位的值n = 1234print(n/1000)print(n/100%10)print (n/10%10)print(n%10)#n模10:各位数字

2019-10-14 17:52:54 274 1

原创 SecureCRT提示强行关闭———解决办法

1.先说下secureCRT的安装我用的是这个,直接解压好就行了,2.打开后会提示你注册 用那个破解器,点那个path找到SecureCRT.ext打开就破解成功了3,然后出现的问题就是 可以使用,但是再关闭之后会给你提示,程序强行关闭,原因是不能放在中文目录下...

2019-10-11 10:33:30 1187

转载 kettle学习(一)——入门与安装

一、概述  1.kettle是什么  Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。  更多介绍,参考kettle中文网:h...

2019-09-29 17:39:41 159

转载 kettle学习(三)——kettle输出步骤

kettle学习笔记(五)——kettle输出步骤一、概述  数据库表:    • 表输出    • 更新,删除,插入/更新    • 批量加载(mysql,oracle)    • 数据同步  文件:    • SQL 文件输出    • 文本文件输出    • XML 输出    • Excel Outp...

2019-09-29 17:37:24 807

转载 kettle学习(二) ——kettle输入步骤

kettle学习笔记(四)——kettle输入步骤一、输入步骤概述  输入步骤主要分为以下几类:    • 生成记录/自定义常量    • 获取系统信息    • 表输入    • 文本文件输入    • XML 文件输入    • Json输入    • 其他输入步骤二、生成记录和自定义常量    1.生成...

2019-09-29 17:34:57 383

原创 左右连接,内外连接,全连接

用两个表(a_table、b_table),关联字段a_table.a_id和b_table.b_id来演示一下MySQL的内连接、外连接( 左(外)连接、右(外)连接、全(外)连接)。MySQL版本:Server version: 5.6.31 MySQL Community Server (GPL)数据库表:a_table、b_table主题:内连接、左连接(左外连接)、右连接(右外连...

2019-09-26 09:40:47 971

原创 Oracle和MySQL的区别

1. Oracle是大型数据库而MySQL是中小型数据库,Orcale市场占有率达40%,MySQL只有20%左右,同时MySQL是开源的而Oracle价格非常高2. Oracle支持大并发,大访问量,是oltp最好的工具3. 安装空间差别也大,mysql152M而Oracle有3G左右,使用Orcale占用特别大的内存空间和其他机器性能4. Orcale和MySQL操作也有些区别5.5...

2019-09-25 18:06:58 169

原创 MySQL的安装

第一步下载安装包第二步进入bin层执行bin\mysqld --install MySQL第三步启动:net start mysql net stop mysql 如果不能启动移除:bin\mysqld --remove命令行方式:...

2019-09-24 18:07:07 63

原创 orcale最大连接数,创建EDW表空间,用户创建,授权

安装完成后D:\app\Administrator\product\11.2.0\dbhome_1\NETWORK\ADMIN\tnsnames.ora修改里面的loalhost改为对应的IP修改密码效期ALTER PROFILE DEFAULT LIMIT PASSWORD_LIFE_TIME UNLIMITED修改数据库最大连接数select count(*) from v$p...

2019-09-24 17:30:51 233

原创 kettle的安装使用

一、Kettle概念Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你...

2019-09-24 10:26:10 329

原创 flume的安装

flume安装版本: flume-ng:(next generation): 目前使用该版本1.5~1.7flume-og:(Original generation):以前的版本,淘汰安装部署上传解压、重命名mv apache-flume-1.6.0-cdh5.7.6-bin flume-1.6.0-cdh5.7.6-bin/修改配置(1)mv flume-env.sh.temp...

2019-09-21 23:06:35 83

原创 azkaban的安装使用

任务调度管理工具功能主要是调度方面的功能,有些工具也支持资源的管理,比如zeus和Yarn类似时间调度:基于时间条件触发程序执...

2019-09-19 11:35:55 125

原创 zookepper 的安装使用

zookeeper来源Google:bigTable和GFS中包含chubby框架服务,chubby是一个分布式锁服务,基于pa...

2019-09-19 11:23:23 147

原创 hive metaStore配置

hive中metaStore启动方式1-默认方式       bin/hive 每次启动hive CLi都会在内部启动一个meta服务2- Remote Metastore     &nbsp...

2019-09-19 11:20:50 93

原创 hadoop安装及其日志

hadoop的安装部署注意:下面步骤中的配置文件中的汉字建议全部删除,否则会出现编码出错安装方式:伪分布式,让进程跑在一台机器上,只是端口不一样文档:http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/Single...

2019-09-19 11:16:43 211

原创 sqoop的安装使用

介绍大数据Hadoop框架生态系统中一员只有map阶段,没有reduce阶段作用Sqoop可以理解为一个桥梁可以将hadoop中的hdfs文件系统中的文件导入到RDBMS中也可以将RDBMS中表以文件的形式导入到hdfs文件系统中同样,也可以将hive中的表导出到RDBMS中,也可以将hive中...

2019-09-19 11:13:06 75

原创 hive的搭建使用

HIVE框架1:可以干什么:将SQL语句转换成MapReduce程序,并且提交到Yarn上运行,读取HDFS上的数据进行处理。SQL语句:和MySQL数据库中SQL语句非常非常类似。2:概念:SQL on Hadoop建立在Hadoop之上提供以SQL方式分析数据的框架最早的由facebook开源...

2019-09-19 11:11:02 118

原创 Linux用户权限 常用命令

用户管理介绍查看用户信息文件与用户组信息管理员Uid为0Root               :x        :0&...

2019-09-19 11:06:39 310

原创 jdb mysql安装

Linux软件管理软件类型rpm:redhat序列特有软件包dpkg:debian序列特有软件包源码包:需要在Linux上进行编译安装Java:Mavenc/c++:预编译:configure;编译:make; 安装:make install软件安装方式rpm软件查询:rpm –q...

2019-09-19 11:04:55 252

原创 linux环境搭建

Linux思想:一切皆文件Linux系统安装VMware介绍:虚拟机,将硬件进行虚拟化,将内存和CPU打包:容器VMware配置配置网络段编辑 -》虚拟网络编辑器子网ip可以自己配置,但是要注意ip地址格式Liunx系统准备此处有centOS的镜像文件,解压即可用,注意解压目录途径不要包含中文链接:https://pan.baidu.com/s/1ffaSXpvZJs7Ds2...

2019-09-19 10:53:04 94

原创 hive的自定义函数

Hive中UDF练习1.截取请求地址代码:package hiveUDF;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;/** * * 从 "GET /course/view.php?id=27 HTTP/1.1" 中获取请求地址,即 /course/view.php?i...

2019-09-18 16:18:27 203

原创 hive的数据倾斜

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶...

2019-09-18 16:10:50 54

原创 Git的基本使用及作用

git就是一个分布式版本控制系统版本控制系统是一种记录一个或若干个文件内容变化,以便将来查阅特定版本修订情况的统计git比svn好的地方,分布式的、分支管理、gitHubgit内只有三种状态“已提交、已修改、已暂存.git目录是git用来保存元数据和对象数据库的地方git的基本工作流程1、在工作目录中修改某些文件2、对修改后的文件进行快照,然后保存到暂存区域3、提交更新创建方式:...

2019-09-17 18:51:00 1051

原创 医院的业务

***1.医院组织机构医院分类(1)按业务范围划分:综合医院、专科医院(2)按学术性质划分:西医、中医、中西结合、名族医学院(3)按隶属关系划分:教学医院、企事业职工医院、军警医院医院的等级划分根据医院隶属关系及服务地域范围、医疗设施规模、技术力量来划分医院的组织机构医疗运行机构:临床、防保计生部门保障支持机构:药剂、医技、财务部门管理调控机构:后勤、信息管理部门人员组织结构...

2019-09-16 15:09:38 2179

原创 大数据项目

一、项目流程      1)需求概况:实现目标是什么?   ———   通过大数据获取什么信息      2)需求分析:用什么样的数据,实现什么样的效果。 数据源的考量(数据的种类和量的大小),数据呈现的思考(实时,非实时性)。 &nbs...

2019-08-19 11:05:57 689

原创 Hive数据倾斜解决

Hive数据倾斜解决方法总结数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的red...

2019-08-17 15:26:30 212

原创 如何彻底删除Kafka中的topic (marked for deletion)

工作中因为各种原因, 例如topic中消息堆积的太多,或者kafka所在磁盘空间满了等等,可能需要彻底清理一下kafka topic,那么如何彻底删除topic?方法一(配置delete.topic.enable=true)  修改kafaka配置文件server.properties, 添加delete.topic.enable=true,重启kafka,之后通过kafka命令行就可以...

2019-08-10 22:06:52 390

原创 Spark Streaming入门

  Spark Streaming类似于Apache Storm,用于流式数据的处理。Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如:map、reduce、join、window等进行运算。而结果也能保存在很多...

2019-08-10 09:14:57 178

原创 TDH与CDH简介

TDH与CDH简介 hadoop是一个开源项目,所以很多公司在这个基础进行商业化,下面简单介绍下应用比较广泛的TDH和CDH两个版本【TDH】TDH:Transwarp Data Hub1 Transwarp Inceptor简介TranswarpInceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组...

2019-08-08 19:43:39 3630

原创 大数据从入门到放弃

大数据的核心:海量数据分析—————————————————————功能划分—————————————————————————————海量数据存储HDFS,Hive(本质还是HDFS),HBASE(底层依旧是HDFS)数据清洗MapReduce,Hive(ETL),SparkCore海量数据分析MapReduce,SparkSQL,hive(SQL),impala数据展示jav...

2019-08-08 08:59:59 438

原创 hive数据倾斜

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...

2019-08-06 21:29:05 114

原创 spark---RDD (三)

RDDRDD就是一个集合,在使用的时候,就当做为Scala 集合类中List列表实质分布式存储数据集合abstract class RDD [T:ClassTag]A Resilient(弹性) Distributed(分布式) Dataset(RDD)Represents(代表) an immutable(不可变) partitoned(分区) collection of ele...

2019-08-02 22:31:03 116

原创 spark安装配置(二)

1 spark 安装1)上传解压tar -zxvf xxxx 2)修改配置mv spark-env.sh.template spark-env.sh修改spark-env.sh3)启动帮助命令bin/spark-shell-help启动命令交互式bin/spark-shell --master local[2]4)是否启动不报错且进入交互式命令行在外部端口404...

2019-08-02 21:10:14 134

原创 Spark入门(一)

Spark 入门spark框架是如何处理数据的Hadoop MapReduce 框架并行计算的思想分而治之的思想scala集合高阶函数处理数据的思想将要分析的数据放在集合中去,然后调用集合的高阶函数处理数据spark是什么Apache Spark™ is a unified analytics engine for large-scale data ...

2019-08-01 21:07:03 95

原创 如何转载别人的博客

...

2019-07-30 22:26:28 75

原创 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

https://blog.csdn.net/liuxiao723846/article/details/53146304我当时将mysql的数据导入数据的时候就出了这个错误然后在报的错误里面发现10020,将历史进程启动就好了10020是历史进程的内部端口,外部端口是19888...

2019-07-30 22:20:35 72

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除