自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

福州大数据 hadoop学习

福州大数据 hadoop学习 hbase hive spark

  • 博客(59)
  • 资源 (2)
  • 收藏
  • 关注

原创 docker 安装rabbitmq

3.安装插件,rabbitmq-plugins enable rabbitmq_management。docker exec -it {rabbitmq容器名称或者id} /bin/bash。2.进入容器,docker exec -it 镜像ID /bin/bash。docker retart {rabbitmq容器id}查看当前系统中容器的列表:docker ps -a。最后一次运行的容器:docker ps -l。一、查看RabbitMQ在仓库中的镜像。#进入rabbitmq容器。...

2022-08-16 14:05:50 166 1

原创 JAVA连接redis报错 :stop-writes-on-bgsave-error option

(error) MISCONF Redis is configured to save RDB snapshots, but it is currently not able to persist on disk. Commands that may modify the data set are disabled, because this instance is configured to report errors during writes if RDB snapshotting fails (st

2021-09-22 10:25:09 1283

原创 JAVA JDBC 防止SQL注入

package org.jeecg.modules.common.util;import com.alibaba.fastjson.JSONObject;import java.sql.*;public class DbUtil { //定义mysql加载驱动,老版本的mysqljar包用的驱动参数时“com.mysql.jdbc.Driver”,新版的如下所示 private static final String driver = "com.mysql.jdbc.Driv.

2021-04-23 15:37:09 203

转载 从聚合支付的设计来谈谈几个设计模式

一、背景基本上每一个需要对接支付公司的项目都有这样一个烦恼:不同的支付公司给到你的支付费率是不一样的,微信支付宝收的费率是0.6%(不知道后面有没有降低),A支付公司费率的是0.5%,B支付公司费率是0.48%。。。此外还有活动等大部分公司一开始只对接一家或两家支付公司,后面的可能会由于一些原因呢,慢慢的对接多几家支付公司,降低一下成本,提高收益。从代码的角度上看,一开始的支付代码可能是这样的,eg://支付数据$pay = [ 'money' => 10.00,

2020-11-09 14:57:39 1060

原创 微信小程序总结

app.json的配置(全局){// 用来配置页面的路径"pages":["pages/index/index", // 首页"pages/Test/Test" // 跳转的页面],"window":{"enablePullDownRefresh": true, // 是否支持下拉刷新"backgroundTextStyle":"dark", // 下拉刷新的字体颜色,支持light"backgroundColor": "#e04c4c", // 设置下拉刷新的背景颜色"naviga

2020-10-16 12:30:07 492

原创 数仓分层 数据库仓库实战

回到顶部数仓分层ODS:Operation Data Store原始数据DWD(数据清洗/DWI)data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表-用户行为,轻度聚合)data warehouse service ----->有多少个宽表?多少个字段服务层--留存-转化-GMV-复购率-日活点赞、评论、收藏;轻度聚合对DWDADS(APP/DAL/DF)-出报表结...

2020-06-08 09:47:29 578

原创 JEECGBOOT后台学习 MyBatis-Plus 

https://mybatis.plus/guide/generator.htmlDAO层 使用 MyBatis-Plus /** * 通过父菜单ID查询子菜单 * @param parentId * @return */ public List<TreeModel> queryListByParentId(@Param...

2020-04-19 18:36:48 1510

转载 SpringBoot - 结合Redis实现Session共享、结合Nginx实现负载均衡(请求分发)

如果我们需要对项目进行横向扩展搭建集群,那么可以利用一些硬件或者软件工具(比如Nginx)来做负载均衡,此时,来自同一个用户的HTTP请求就有可能被分发到不同的实例上去,如何保证各个实例之间Session的同步就成为一个必须解决的问题。 Spring Boot提供了自动化的Session共享配置,它结合Redis可很方便地解决这个问题。使用Redis解决...

2020-01-07 22:41:29 186

原创 springboot+nginx+https+linux实现负载均衡加域名访问简单测试

1.把springboot项目打包成三个jar包,并指定端口为14341,14342,143432.下载腾讯云免费ssl证书,解压后会出现如下图文件3.把nginx文件夹下的 .crt 和 .key文件复制到服务器,例如复制到/home/ssl/xxx.crt/home/ssl/xxx.key4.安装好nginx默认配置文件在/usr/local/nginx/c...

2020-01-07 22:23:56 186

原创 docker 使用小结

docker stop 容器id也可以使用如下命令开启停止状态的容器docker start 容器id使用docker ps 查看容器id和状态等https://c.163yun.com/hub#/m/home/ 网易蜂巢公共镜像中心docker pull hub.c.163.com/library/nginx:latestdocker pull hub.c.163.com/lib...

2020-01-01 21:25:45 138

原创 服务器管理软件

1、跳板堡垒机:jumpserver 2、代码质量:sonar 3、持续集成:Jenkins、Bamboo 4、监控告警、日志:grafana、prometheus、ELK、Zabbix 5、知识库:Atlassian Confluence 6、项目管理:Jira 7、配置中心:xdiamond https://github.com/hengyunabc/xdiamond 8、数据库管理:Year...

2019-12-05 21:31:23 162

原创 Axure教程

2019-11-09 22:27:06 219

原创 phantomjs安装 和汉字在中文在linux乱码

linux系统(CentOS)下安装PhantomJShttps://www.cnblogs.com/sxming/p/7700504.html用phantomjs在linux中截图,发现图片中的中文不显示,为一堆框框,解决如下:https://blog.csdn.net/qq_26158277/article/details/77935122...

2019-10-25 17:09:03 729

原创 springboot 压力工具Jmeter

1,先通过默认配置测试下,没有改变参数的条件,用压力工具Jmeter,并发量60测试,持续20分钟,jconsole查看下CPU和内存情况。保存下内存和CPU情况2,先通过默认配置测试下,没有改变参数的条件,用压力工具Jmeter,并发量100测试,持续20分钟,jconsole查看下CPU和内存情况。保存下内存和CPU情况3,先通过默认配置测试,用压力工具Jmeter,并发量60测试,...

2019-09-05 19:48:05 1449

原创 大数据学学习

大数据平台采集爬虫八爪鱼后羿采集器Scrapy汇总:https://www.cnblogs.com/cy163/p/3869175.html同步LogstashCloudera FlumeDataX源码:https://github.com/alibaba/DataXFacebook ScribeDebeziumCanal源码:https://github.com/...

2019-08-16 16:01:12 395

原创 大数据架构师该做到的

大数据架构师该做到的https://www.processon.com/view/5c3e0543e4b0db2e59364112?fromnew=1#map软实力六:个人素质1.体系化建设快速了解一个体系渠道专业图书技术官网githubprocesson 里的推荐功能技术博客知乎体系报告网站(参考 数据获取-外部数据-数据报告)各种行业平台...

2019-07-12 14:08:25 968

原创 医疗大数据平台的建设思考

当下,数据对于医院的重要性不言而喻。深入的数据挖掘和应用,无论对临床、科研、管理,还是对患者服务、药物研究,都能起到推动作用。而在另一方面,各医院的系统和数据大都是碎片化的,信息资源基本都躺在数据库中“沉睡”,数据利用率不高,没有充分发挥出价值。...

2019-07-12 14:03:42 577

转载 5G时代将会淘汰哪些行业?

5G时代即将来临,会淘汰哪些行业,又会有哪些行业从中崛起 ?5G会淘汰哪些行业?我们就要先看一下从2、3、4G都淘汰了哪些行业?1、2G手机的普及带来移动通信时代的到来,淘汰了固化、小灵通等通话设备,大大提高人与人之间的沟通交流的效率!2、3G时代的到来和智能手机的普及,意味移动互联网时代的到来。首当其冲的诺基亚等传统手机厂商受到了以苹果为首的智能手机的冲击;同时几百万应用软件改变了人...

2019-06-19 15:19:12 1548

转载 BO DI处理 SCD2维表

摘要:本文首先介绍了缓慢变化维的定义、三种处理方式。之后以员工维表数据为例,详细说明如何使用BO DI实现SCD2维表的ETL。最后讲解了SCD2维表如何使用。1缓慢变化维简介某些维度的属性会随着时间缓慢变化,这种维度被称为缓慢变化维(Slowly Changing Dimension,SCD)。举个例子,跨国企业的员工可能会在不同区域间调动工作,但两次调动之间的时间间隔不会太短,...

2019-06-17 22:08:24 381

转载 hive中创建hive-json格式的表及查询

在hive中对于json的数据格式,可以使用get_json_object或json_tuple先解析然后查询。也可以直接在hive中创建json格式的表结构,这样就可以直接查询,实战如下(hive-2.3.0版本):1. 准备数据源将以下内容保存为test.txt{"student":{"name":"king","age":11,"sex":"M"},"class":{"...

2019-06-11 08:54:34 468

原创 干货请收好:终于有人把用户画像的流程、方法讲明白了

导读:用户画像将产品设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法抓住实际用户的需求。往往对产品做了很多功能的升级,用户却觉得体验变差了。在大数据领域,用户画像的作用远不止于此。用户的行为数据无法直接用于数据分析和模型训练,我们也无法从用户的行为日志中直接获取有用的信息。而将用户的行为数据标...

2019-05-26 22:21:03 460

原创 利用Hive中concat_ws函数将多行记录合并成一行

创建测试表 CREATE TABLE IF NOT EXISTS TEST.USERS ( id string, k1 string, k2 string, k3 string ) COMMENT '用户表' ROW FORMAT delimited fields terminated BY '\t' STORED AS TEXTFIL...

2019-05-15 09:18:23 1262

转载 Spark:JavaRDD 转化为 Dataset<Row>的两种方案 JavaRDD 转化为 Dataset<Row>方案一:

JavaRDD 转化为 Dataset方案一:实体类作为schema定义规范,使用反射,实现JavaRDD转化为DatasetStudent.java实体类:复制代码import java.io.Serializable;@SuppressWarnings(“serial”)public class Student implements Serializable {private S...

2019-04-30 08:29:48 1955

原创 spark2.2 DataFrame的一些算子操作

SparkSession中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。本文将使用SparkSession进行操作。一、DataFrame对象的生成val ss = SparkSession.builder()          .ap...

2019-04-29 18:29:20 539

转载 OLAP引擎这么多,麻袋财富为什么选择用Kylin做自助分析?

项目背景麻袋财富(原麻袋理财)成立于 2014 年 12 月底,是中信产业基金控股的网络借贷信息中介平台,经过 4 年平稳而快速的发展,截至目前,累计交易金额达 750 亿,已成为行业头部平台。庞大的业务量带来了数据量指数级增长,原有的数据分析处理方式已远远不能满足业务的需求:流程耗时长:逻辑比较复杂的数据需求,可能会涉及到开发,产品经理,BI 等多方相关人员,通过反复的沟通,确认才能完成...

2019-04-02 08:45:15 224

原创 CENTOS6.8 防火墙设置

1、基本操作 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 # 查看防火墙状态 service iptables status # 停止防火墙 service ipt...

2019-03-25 09:09:09 148

原创 GreenPlum简介 快速入门

GreenPlum是一个底层是多台PostgreSQL分表分库的分布式数据库,它有如下特点支持标准SQL,几乎所有PostgreSQL支持的SQL,greenplum都支持 支持ACID、分布式事务 支持上百台集群(这一点有点不好,hadoop可以万台)系统架构Master Host处理用户请求,生成执行计划,以及在执行计划执行必要的聚合操作(avg)或者排序 内部有一个P...

2019-03-09 19:39:29 691

原创 Spark Streaming性能调优详解

 SparkStreaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然SparkStreaming开发者就不会弄那么多参数,直接写死不得了),我们需要根据数据量,场景的不同设置不一样的配置,这里只是给出建议,这些调优不...

2019-03-09 19:25:03 139

原创 Tomcat 开启 gzip , Spring Boot 启用Gzip压缩

一、原理介绍HTTP 压缩可以大大提高浏览网站的速度,它的原理是,在客户端请求服务器对应资源后,从服务器端将资源文件压缩,再输出到客户端,由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ,它可以节省40%左右的流量。更为重要的是,它可以对动态生成的,包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网...

2019-03-05 17:17:54 1182

转载 数据仓库之ETL实战

ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。一般随着业务的发展扩张,产线也越来越多,产生的数据也越来越多,这些数据的收集方式、原始数据格式、数据量、存储要求、使用场景等方面有很大的差异。作为数据中心,既要保证数据的准确性,存储的安全性,后续的扩展性,以及数据分析的时效性,这是一个很大的挑战。名词解释:ODS——操作性...

2019-02-25 11:24:25 252

原创 Linux Apache httpd服务的启动,

这里简要介绍Linux环境中Apache也就是httpd服务的启动,查看版本等操作,详细如下第一、启动、终止、重启systemctl start httpd.service #启动systemctl stop httpd.service #停止systemctl restart httpd.service #重启第二、设置开机启动/关闭systemctl enable http...

2019-02-21 11:42:10 478

原创 HDFS的使用 shell接口格式化操作 mapReduce的原理

HDFS的使用 shell接口 格式化操作: hadoop namenode -format展示文件: hadoop fs -ls / hadoop fs -ls / user HDFS使用:它提供了 shell 接口,可以进行命令行操作hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目录文件列表ha...

2019-02-20 16:54:52 202

转载 用Chrome在电脑上模拟微信浏览器

用Chrome在电脑上模拟微信浏览器1、先了解安卓微信和Ios微信的UA(User agent:用户代理)安卓微信UA: mozilla/5.0 (linux; u; android 4.1.2; zh-cn; mi-one plus build/jzo54k) applewebkit/534.30 (khtml, like gecko) version/4.0 mobile safari...

2019-02-20 16:31:17 272

转载 Cloudera&CDH安装配置说明

实验环境实验环境:Win7下vmware虚拟机操作系统:CentOS 6.5 x64Clouder Manager:5.14.0CDH:5.14.0安装说明官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被墙的厉害,我尝试了几次各种超时错误,巨耽误时间不说,一旦失败,重装非常痛苦。第二种方法下载很多包。第三种方法对系统侵入性最小,最大优点可实现全离...

2019-02-20 15:28:17 281

原创 Hadoop分布式批量处理 脚本xcall.sh

#!/bin/bash params=$@ i=1 for((i=1 ;i &lt;=4 ;i=$i+1 ));do echo ==========node$i $params========== ssh node$i "source /etc/profile;$params" done sh xcall.sh jps==========node1 jps========...

2019-02-20 11:21:40 253

原创 Hive简单优化;workflow调试

1. 定义job名字SET mapred.job.name='customer_rfm_analysis_L1';这样在job任务列表里可以第一眼找到自己的任务。 2. 少用distinct, 尽量用group by因为会把数据弄在一个reduce中,造成数据倾斜。distinct数据数量大于1000条时。 3. join时小表最好放左边否则会引起磁盘和内存的大量消...

2019-02-15 16:57:07 228

原创 JVM调优浅谈

JVM垃圾回收与性能调优总结JVM调优的几种策略  一、JVM内存模型及垃圾收集算法 1.根据Java虚拟机规范,JVM将内存划分为:New(年轻代) Tenured(年老代) 永久代(Perm)  其中New和Tenured属于堆内存,堆内存会从JVM启动参数(-Xmx:3G)指定的内存中分配,Perm不属于堆内存,有虚拟机直接分配,但可以通过-XX:PermSize...

2019-02-13 15:08:22 129

原创 JAVA多线程实现的四种方式

Java多线程实现方式主要有四种:继承Thread类、实现Runnable接口、实现Callable接口通过FutureTask包装器来创建Thread线程、使用ExecutorService、Callable、Future实现有返回结果的多线程。其中前两种方式线程执行完后都没有返回值,后两种是带返回值的。 1、继承Thread类创建线程Thread类本质上是实现了Runnable接...

2019-02-13 15:01:39 114

转载 HIVE优化学习

1.概述  继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍  首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产...

2019-02-13 14:53:00 175

转载 hbase 学习笔记

我们知道,Google 发表 GFS、MapReduce、BigTable 三篇论文,号称“三驾马车”,开启了大数据的时代。那和这“三驾马车”对应的有哪些开源产品呢?我们前面已经讲过了 GFS 对应的 Hadoop 分布式文件系统 HDFS,以及 MapReduce 对应的 Hadoop 分布式计算框架 MapReduce,今天我们就来领略一下BigTable 对应的 NoSQL 系统 HBase...

2019-02-12 18:09:28 163

cdh impala JAVA 代码

cdh impala JAVA 代码 很实用的

2018-12-11

hadoop大数据实战培训教材 spark 培训教材

hadoop大数据实战培训教材 spark 培训教材,培训,学习

2018-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除