陈伦(colby)-CSDN博客

原创基于Kafka+SparkStreaming+Hbase的实时数仓案例-计算日活

一、基础工程构建创建父工程pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/...

2021-08-05 23:03:31 1737 2

原创 Python操作HDFS封装类，拷贝过去直接用

from hdfs.client import Clientfrom conf.settings import DFS# 关于python操作hdfs的API可以查看官网:# https://hdfscli.readthedocs.io/en/latest/api.html# client = Client(url, root=None, proxy=None, timeout=None, session=None)# client = Client("http://hadoop:500.

2020-11-03 16:52:46 481

原创基于HA高可用搭建Hadoop-3.2.1实战搭建之ES-7.7.1+Kibana-7.7.1集群部署

一、安装环境操作系统 CentOS8elasticsearch-7.7.1kibana-7.7.1机器：hadoop102、hadoop103、hadoop104、hadoop105、hadoop106二、安装elasticsearch-7.7.11、上传文件elasticsearch-7.7.1-linux-x86_64.tar.gz、kibana-7.7.1-linux-x86_64.tar.gz到/opt/software目录2、解压到/opt/module[dep.

2020-07-03 16:13:09 471

原创基于HA高可用搭建-Hadoop-3.2.1实战搭建之Hbase-2.2.5集群部署

版本选择：Hadoop-3.2.1/Hbase-2.2.5一、Zookeeper正常部署[deploy@hadoop102 module]$ zk.sh start二、Hadoop正常部署[deploy@hadoop102 module]$ start-dfs.sh[deploy@hadoop102 module]$ start-yarn.sh三、Hbase上传、解压[deploy@hadoop102 module]$ tar -xzvf hbase-2.2.5-bin.

2020-07-03 15:45:59 687

原创错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

安装Hadoop3.2.1,做基准测试的时候报以下错误[2020-05-31 19:16:40.815]Container exited with a non-zero exit code 1. Error file: prelaunch.err.Last 4096 bytes of prelaunch.err :Last 4096 bytes of stderr :错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster[

2020-05-31 11:28:31 663

原创 Container exited with a non-zero exit code 1. Error file: prelaunch.err.org.apache.hadoop.mapreduce.

这两天闲的慌，装了一下新版本的HADOOP 3.2.1，的HA，装好之后，测试wordcount程序时报下面的错误For more detailed output, check the application tracking page: http://hadoop102:8088/cluster/app/application_1590917926429_0002 Then click on links to logs of each attempt.. Failing the applicati

2020-05-31 10:32:58 20581 20

原创 HIVE日期函数总结

select day -- 时间 ,date_add(day,1 - dayofweek(day)) ...

2019-09-10 20:50:03 400

原创 SKU与SPU概念

SPU = Standard Product Unit (标准产品单位)SPU 是商品信息聚合的最小单位，是一组可复用、易检索的标准化信息的集合，该集合描述了一个产品的特性。通俗点讲，属性值、特性相同的商品就可以称为一个 SPU。例如:iphone7 就是一个 SPU，与商家，与颜色、款式、套餐都无关。SKU=stock keeping unit(库存量单位)SKU 即库存进出计量...

2019-09-08 23:04:34 365

原创电商基本术语B2B C2C B2C C2B O2O F2C B2B2C

B2B--企业对企业:案例:阿里巴巴、慧聪网C2C--个人对个人:案例:淘宝、易趣、瓜子二手车B2C--企业对个人:案例:唯品会、乐蜂网C2B--个人对企业:案例:海尔商城、尚品宅配O2O--线上到线下:案例:美团、饿了吗F2C--工厂到个人:从厂商到消费者的电子商务模式B2B2C -企业-企业-个人:案例:京东商城、天猫商城...

2019-09-08 23:01:26 1245

原创 django模型中auto_now与auto_now_add的区别

auto_nowauto_now无论是你添加还是修改对象，时间为你添加或者修改的时间，一般用作更新时间。auto_now_addauto_now_add为添加时的时间，更新对象时不会有变动，一般用作创建时间。具体案例：class BaseModel(models.Model): '''模型抽象类型''' create_time = models.DateTim...

2019-09-08 22:49:33 646

转载 ODPS之合并与拆分-Lateral View

Lateral View更新时间：2019-02-13 11:56:02编辑··我的收藏本页目录单个Lateral View语句多个Lateral View语句Lateral View和split，explode等UDTF一起使用，它能够将一行数据拆成多行数据，并在此基础上对拆分后的数据进行聚合。单个Lateral View语句语法定义如下：latera...

2019-09-06 14:23:05 4848

原创 ubuntu 卸载python3.5

1.卸载python3.5sudo apt-get remove python3.52.卸载python3.5以及它的依赖包sudo apt-get remove --auto-remove python3.53.清除python3.5要想清除python3.5的配置文件和数据文件，执行以下命令：sudo apt-get purge python3.5sudo ...

2019-09-06 14:18:17 4848

原创最简单的大数据平台架构

2019-09-06 14:08:41 377

原创 Hive留存计算

准备表CREATE EXTERNAL TABLE ods_app_log ( sdk_ver string ,time_zone string ,commit_id string ,commit_time string ,pid string ,app_token string ,app_id string ,device_id...

2019-09-06 14:06:59 995

原创 Sqoop实战案例总结

安装注意事项#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/app/bigdata/hadoop#Set path to where hadoop-*-core.jar is availableexport HADOOP_MAPRED_HOME=/app/bigdata/hadoop ...

2019-09-06 14:03:25 482 2

原创 Hive之UDF实现

Java实现UDF函数一、实现字符串到数字的转换package com.easyrong.data.function;import org.apache.hadoop.hive.ql.exec.UDF;public class NumberToChar extends UDF{ public static int byteToInt(byte b) { //...

2019-09-06 13:59:16 809

原创 Python封装mysql操作方法

class DBTool(object): conn = None cursor = None def __init__(self, conn_dict): self.conn = pymysql.connect(host=source['host'], port=source['p...

2019-09-05 15:01:39 315

原创 Shell实现Hive表结构全备份

登录hive服务器，新建一个shell脚本，内容如下#!/bin/bash#原样输出一段文字可以用CATcat<<EOF****************************************************功能：实现Hive表结构备份参数：P1,P2,P3...创建者：XXXX创建日期：YYYY-MM-DD修改...

2019-09-05 14:56:02 582

转载 Hive-ORC文件存储格式

Hive-ORC文件存储格式转自：http://www.lai18.com/content/24596525.html?from=cancelORC文件格式是从Hive-0.11版本开始的。关于ORC文件格式的官方文档，以及基于官方文档的翻译内容这里就不赘述了，有兴趣的可以仔细研究了解一下。本文接下来根据论文《Major Technical Advancements in Apache H...

2019-09-04 19:14:59 325

转载排序算法整合（冒泡，快速，希尔，拓扑，归并）

2019-08-29 14:28:03 154

原创 gitee码云git快捷入门

开源中国git,13661892653/jk**ac,https://gitee.com/profile/sshkeys1、初始化git目录，新建目录testchenlun@kf-0531 MINGW32 /e/project/test$ git initInitialized empty Git repository in E:/project/test/.git/2、创建一个文件...

2019-08-29 13:56:32 204

原创 Linux搭建SVN服务器详细指南

1安装SVN# yum install subversion:1.新建一个目录用于存储SVN所有文件1. #mkdir/svn2.新建一个资源仓库1. #svnadmincreate/svn/edwh 2. #ls/svn/edwh/ 3. confdbformathookslocksREADME.txt目录...

2019-08-29 13:51:23 169

原创 Kettle在Linux周期调度的实现

Kettle作业调度引擎：kitchen.sh一、JOB调度shell脚本#!/bin/bashcat<<EOFSHELL*****************************************************Function :xxxAuthor :colby陈CreateDate:2016-10-10ModifyDate:2016-10...

2019-08-29 13:42:35 227

原创 DB2中NULL,COUNT,NOT IN,NOT EXISTS的区别

TB1_1TB1_2下列执行结果分别为：SELECTCOUNT(COL_1)FROMTB1_1SELECTCOUNT(DISTINCTCOL_1)FROMTB1_1SELECT AVG(COL_1) FROM TB1_1SELECTCOL_1FROMTB1_1WHERECOL_1NOTIN(SELECTCOL_1...

2019-08-29 11:11:42 1084

原创 Python装饰器掌握技巧

先给出一个最简单的装饰样例一# coding=utf-8二def login_checking(fun_name):三 def inner():四 print("登录验证...")五 return fun_name()六 return inner()七@login_checking # login_checking(login)八d...

2019-08-29 11:11:09 112

原创 MySQL 去除字段中的换行char(10)和回车符char(13)

问题描述：我们导出数据到excel的时候，会无缘无故换行，导致数据格式混乱，这样的问题一般都是我们的数据中有隐藏的换行符，回车符导致的，所以再导出前我们要将这样的字符替换掉注意引号都是英文引号环境： RHEL5+MySQLUPDATE SMS_PROVINCE SET PROVINCENAME = REPLACE(REPLACE(PROVINCENAME, CHAR(10),'')...

2019-08-29 10:36:11 5196

原创 Mysql实现数据库row_number()的写法

以下是固定的写法，实现其他逻辑按这个套路写就好，将字段替换成你想分组查询的字段即可rank跟row_number()一样，过滤分组排序后的数据SELECT id, name, create_time, rankFROM ( SELECT b.id, b.name, b.create_time , @rownum := @rownum + 1 , I...

2019-08-29 10:28:42 720

原创 MYSQL查询json指定key的值

key:代表你要查询的json的字段的key以下SQL会去掉查询结果的双引号select id,trim(both '"' from cast(JSON_EXTRACT(extended_para,'$.key') as char)) report_id from tables

2019-08-29 10:23:31 2008

原创 SQL实现MYSQL到HIVE建表语句的转换（异构数据源DDL转换）

准备一张维度表：dim_ddl_convert，建表语句如下：CREATE TABLE dim_ddl_convert ( source VARCHAR(100) NOT NULL, data_type1 VARCHAR(100) NOT NULL, target VARCHAR(100) NOT NULL, d...

2019-08-29 10:08:55 6167 7

转载你还在用sqoop吗，大厂都在用datax了

一. DataX3.0概览 DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。（这是一个单机多任务的ETL工具）下载地址：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar...

2019-08-28 18:07:33 718

转载 crontab定时任务不执行的原因

crontab定时任务不执行的原因1、重启crontab若是遇见“You (cloudlogin) are not allowed to use this program (crontab) See crontab(1) for more information ”则切换到root用户，再使用命令#crontab -u 用户名命令然后...

2019-08-28 17:42:36 376

原创数据建模经验总结

主题域主题域比较抽象，可以理解成我们要分析业务的范围，实际开发中接触更多的是主题，一个主题对应一个单独的模型，一个模型则有多个实体，多个维度、多个度量。主题主题就是我们要分析的对象，业务关心数据实体，比如我们的订单主题、用户客户主题、渠道主题、流量主题、企业主题、产品主题、销售主题、财务主题、活动大赛主题等一个主题：包含要统计的度量、分析度量的维度、数据调度周期、存放时间等，...

2019-08-28 17:39:33 1553

转载 Python实现八大排序

1、插入排序描述插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中，从而得到一个新的、个数加一的有序数据，算法适用于少量数据的排序，时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分：第一部分包含了这个数组的所有元素，但将最后一个元素除外（让数组多一个空间才有插入的位置），而第二部分就只包含这一个元素（即待插入元素）。在第一部分排序完成后，再将这个最后元...

2019-08-28 17:34:42 112

原创 Python爬虫代理IP结合BeautifulSoup MongoDB

安装包准备：pymongo、BeautifulSoup实现代码#coding=utf-8import requestsimport pymongofrom bs4 import BeautifulSoupfrom conf.config import *from multiprocessing import Poolclient=pymongo.MongoCli...

2019-08-28 17:29:26 366

原创 Mysql 中文显示乱码的解决办法

以Windows为例，找到my.ini文件Windows路径：C:\ProgramData\MySQL\MySQL Server 5.7/my.iniLinux路径：/etc/my.ini修改服务器配置文件5.5版本之后修改方法/etc/my.cnf[client]default-character-set=utf8[mysqld]default-storage-eng...

2019-08-28 17:20:35 445

原创三种常见字符编码简介：ASCII、Unicode和UTF-8

三种常见字符编码简介：ASCII、Unicode和UTF-8什么是字符编码？计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是655...

2019-08-28 17:16:50 259

原创 hadoop-3.1.0双NameNode集群安装笔记-colby陈伦

1、修改主机名称vim /etc/hosts重启2、修改该hosts文件，添加主机跟ip的映射关系虚拟机网络host-only这个必须注释掉#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4#::1 localhost localhost.localdoma...

2019-08-28 17:13:18 272 1

原创 DB2 SQL实现小计总计汇总

SELECT DECODE(ID,1,TO_CHAR(DATA_PRD,'YYYYMMDD'),2,TO_CHAR(DATA_PRD,'YYYYMMDD'),3,'总计') 调度日期,DECODE(ID,1,JOB_STS ,2,'小计' ,3,'-') 作业状态,COUNT(1) 作业数 FROM DWMM.JOB_LOG AS T1,(select 1 as ID FRO...

2019-08-28 17:10:42 948

原创 Hive Beeline窗体函数使用

hive 窗口分析函数0: jdbc:hive2://localhost:10000> select * from t_access;+----------------+---------------------------------+-----------------------+--------------+--+| t_access.ip | t_a...

2019-08-28 17:05:22 191

原创 dataX 在Linux的安装部署与测试方案

环境准备 Hadoop2.7.3Hive1.2.1JDK1.8Python2.7 centOS系统默认自带Mysql5.7dataX3.0下载地址：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 测试脚本准备 Mysql建表脚本与数据脚本 DROP TABLE...

2019-08-24 18:46:09 3879

Python 人工智能 机器学习 深度学习 自然语言处理 视频

空空如也

Python 人工智能机器学习深度学习自然语言处理视频