九叶不睡觉-CSDN博客

原创 spark处理hive数据排序问题

新入坑数据挖掘，从一段spark入门级数据处理代码开始。涉及语言Scala、Sql，并涉及将DataFrame转换为Rdd，实现的是从hive读取数据，并根据字段进行分组排序的功能，代码如下：val df_sr = spark.sql(s"""SELECT pushConfigId, updatedFROM default.ods_flow_rye_PushScene...

2019-01-30 16:22:10 881 2

原创常用排序算法python实现

一直捋不清几个排序，特意花点时间理解一下，有码有字有动图，明天补完1、插入排序：不断将待排序中元素一个一个插入一个有序序列中（一般初始为待排序序列中的第一个元素，且待排序列表和有序列表其实在一个列表），最终得到有序序列。如图：实现代码：def insert_sort(lst):# 认为lst中元素第一个已排序 for...

2018-08-26 00:48:26 374

原创 hdfs数据迁移至hbase(python2.7版本)

惯例直接上详细注释的代码。任务是将HDFS上多个需要重新编码的文件合并后写入HBASE。 python2.7完成，用3的话可能需要改hbase.py的一些源码。# -*- coding: utf-8 -*-"""Created on Thu Aug 9 09:09:56 2018@author: admin"""from hdfs import Clientfrom ...

2018-08-21 16:47:54 630

原创阿里妈妈关键词排序笔试题

说在前面：两个小问题：1、没处理处理编码问题，建议使用python3，这将不是个问题； 2、结果没有排序输出；其他完全ok，有时间再完善吧。题目：阿里妈妈广告直通车是一个基于关键词(比如，“连衣裙”，“手机”)的竞价营销平台，商家在后台可以设置参与竞价的关键词。已知历史上所有关键词，和它的受欢迎程度(提前量化为1-99的数字，数值越大越受欢迎)。现在希望提供一个功能：当商家完...

2018-08-15 12:31:12 869

原创 python版MR任务完整过程（附代码）

将近期写的MR程序及过程记录下来。简单介绍下环境：hadoop2.6.4hadoop-streaming-2.6.0.jar线上python2，线下python3都可以用首先放上需要的代码，定制python代码，很爽 mapper.py#!/usr/bin/python# -*- coding: UTF-8 -*-import sys#定义一个函数读标准输入或者...

2018-08-13 14:56:53 4799

原创 python3操作HDFS

直接贴代码# -*- coding: utf-8 -*-"""Created on Thu Aug 9 09:09:56 2018@author: admin"""from hdfs import Client#url：ip：端口，root：制定的hdfs根目录，proxy：制定登陆的用户身份，timeout：设置的超时时间client = Client("ht

2018-08-09 10:30:02 3692 1

原创 python3字符串字节转码相关问题

这得从一张图片说起：就长上面这个样子，对了，不能正常显示的是中文。身为老司机，一看就是字符编码的问题。然后果断检查输入数据源什么编码，然后自信的.decode()。然而并没有什么卵用，我记错了？测试一下：没毛病啊，为毛不行？去冲冲浪详细了解下是什么鬼：首先了解下数据前面加u,r,b的含义 u/U:表示unicode字符串：不是仅仅是针对中文, 可以针...

2018-08-03 12:04:36 1284

原创 YARN工作全解

首先放张YARN官网的图便于理解：讲一下YARN的优点（网上一搜一箩筐）：首先要提一下MapReduce1，它只包含JobTracker（协调在集群上运行的所有作业）和TaskTracker（运行分配的任务并定期向 JobTracker 报告进度），主要存在这样几个问题：JobTracker容易存在单点故障；既要负责资源管理，又要进行作业调度，负担重；当需处理太多任务时，会造...

2018-07-20 22:58:50 697

原创场景下理解维度表，事实表，中间表

今天详细介绍一下数据仓库中的维度表，事实表与中间表：什么是数据仓库？数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。提数据仓库不得不提一下关系型数据库，关系型数据库主要是用来支撑即时操作，对数据库的性能和质量要求都比较高，通常设计操作型数据库的都要遵循3F范式的约束，具有ACID特性；而数据仓库的数据是来源于即时操作产生的数据，数据仓库的特征在于面向主题、集成性...

2018-07-18 18:31:05 6626

原创记一次实际sqoop业务的理解（注释多）

最近梳理一项sqoop业务，整理如下（尽可能详细注释,表名，IP，账户密码，以及实际代码都做了处理，当作demo看完全可以的，可运行）：1、mysql -> hive（创建任务->执行任务）创建用户任务脚本createUserJob.sh内容如下： - sqoop job --delete sqoop_job_1sqoop job --create sqoop_...

2018-07-18 16:56:08 661

原创 win10下kettle7.1连接hive1，mysql完整实例

最近想要在windows10上使用kettle做数据ETL，首先安装配置作为新手也是踩坑无数，主要环境版本目前不是本人能够修改的，而kettle这东西对版本对应要求又比较严格，虽然只是连接就已经踩坑无数，主要问题集中在连接hive的时候，下面看图说话：测试环境版本： hadoop-2.6.4 apache-hive-0.13.0启动之后先连个MySQLkettle7.1下载地...

2018-07-11 10:03:30 6048 2

转载这么经典全面的java岗面试题不了解下？

Java面试的一些题目，个人觉得很经典转过来了，答案准备自己找，保证质量所以贴个原创不断更新，当然也可以去原文找。题目：Java基础：面向对象和面向过程的区别Java的四个基本特性（抽象、封装、继承，多态）Overload和Override的区别构造器Constructor是否可被override访问控制符public,protected,private,以及默认的...

2018-07-06 21:53:23 704

原创查看MySQL，HDFS空间占用情况

查看所有数据库大小（通用）select TABLE_SCHEMA, concat(truncate(sum(data_length)/1024/1024,2),' MB') as data_size,concat(truncate(sum(index_length)/1024/1024,2),'MB') as index_sizefrom information_schema.tables...

2018-07-05 14:34:57 3346

转载事务4种隔离级别实例解析

数据库事务的隔离级别有4种，由低到高分别为Read uncommitted 、Read committed 、Repeatable read 、Serializable 。而且，在事务的并发操作中可能会出现脏读，不可重复读，幻读。下面通过事例一一阐述它们的概念与联系。Read uncommitted读未提交，顾名思义，就是一个事务可以读取另一个未提交事务的数据。事例：老板要给程序员...

2018-07-04 09:44:28 545

原创 zoopkeeper工作机制及原理

1、什么是zoopkeeper ? ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务。2、为什么要使用zoopkeeper？（顺序一致性）从同一个客户端发起的事务请求，最终将会严格按照其发起顺序被应用到zookeeper中；（原子性）所有事物请求的处理结果在整个集群中所有机器上的应用情况是一致的；（单一视图）无论客户端连接的是哪个zookeeper服务...

2018-07-03 19:42:02 6264 1

转载数据库优化大全

数据库优化神文，全而细：转载不便点击这里链接在这里：数据库SQL优化大总结1之- 百万级数据库优化方案

2018-07-02 14:17:29 176

原创 sqoop将hive中数据导入mysql（实例讲解）

假设这样一个场景：数据已经导入hive（hive实例讲解看这里），现在要把hive中数据库导入出到（mysql）关系型数据库中，这里使用的工具是sqoop(sqoop详细讲解看这里)。该怎么处理呢？首先，我们需要的是在mysql中建立对应的表，数据字段类型与hive数据表中要导出的数据类型保持一致；然后，我们需要在假如你不是需要原样输出而是需要经过计算统计的话，就需要写在h...

2018-07-02 13:26:08 3898

原创脚本执行命令实例详解

使用linux不免要用到执行脚本，比如一个文件a.sh，我们有时会见到用. a.sh去执行，有时见到用sh a.sh去执行,或者bash a.sh,或者source a.sh，那么这两种执行脚本的方式有什么区别呢？这个问题也困惑了本人很久，今天总结一下：首先考虑这样子一种情况：我的作用文件有时候路径比较长，为什么不创建一个脚本放在初始路径下，这样运行一下直接到到位，于是有了下面的welco...

2018-07-02 10:33:49 12524

原创 hive数据处理及hdfs文件操作

写在前面：本想使用hive调用python脚本实现统计分析movielens数据，但是最后一步调用脚本的地方不成功没找到问题所在，于是将过程中的一些经验写出来，非常详尽，对新手来说应该挺有用的。另外调用脚本的程序和报错我会贴出来，应该是脚本写的有问题，后面找到问题或者有人告诉我我会更新。还拿hive与movie lens数据说事儿。1、首先进入hive数据库创建...

2018-06-28 15:02:35 13489

原创 sqoop实例操作及详细参数解析

1、MySQL数据库中的数据导入到Hadoop的HDFS：使用命令： $ sqoop import $ sqoop-import示例：$ sqoop import \ --connect jdbc:mysql://localhost/userdb \ --username root \ --table emp \ --m 1 \...

2018-06-27 17:56:29 8330

原创 Flume详细解析

1、Flume简介　　Apache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统，用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储（如文本、HDFS、Hbase等）。　　其使用不仅仅限于日志数据聚合。因为数据源是可定制的（内置Avro，Thrift Syslog，Netcat），Flume可以用于传输大量事件数据，包括但不限于网络流量数...

2018-06-27 15:19:52 1822

两张图读懂kafka应用：Kafka 中的术语 broker：中间的kafka cluster，存储消息，是由多个server组成的集群。 topic：kafka给消息提供的分类方式。broker用来存储不同topic的消息数据。 producer：往broker中某个topic里面生产数据。 consumer：从broker中某个topic获取数据。Kafka 中的术语设计：1、Broker ...

2018-06-27 11:55:56 95845 10

原创 centos7下完全式hadoop集群搭建

初入数仓坑，搭建hadoop集群折腾了几天险些让我崩溃，好歹是让我看到了结果：当然虽然过程坑了点耗费了相当心力，但好处是对配置的理解更明白了些，当然流程更是烂熟于心了。下面就开始总结吧：免密通信就不提了需要的话可以直接戳http://blog.csdn.net/qq_29186199/article/details/78428498。首先说下环境，我是在centos7下面安装的二进制hado

2017-11-08 17:44:02 512

原创 hadoop服务器节点间免密通信图文过程

配置hadoop各节点之间免密通信时候，虽然有教程，但还是花费了很多时间，不过做过很多次之后似乎也更加顺手了，理解也更清晰了。在虚拟机上配置玩的，所以全部不打码了：首先进入账户主目录： 1、我直接用的root（不建议）：cd ~ 2、生成密匙对：ssh-keygen -t rsa 3、进入账户下.ssh目录（在第2步会提示存贮位置如下图，填写括号位置）会生成如下后两个文件（对每

2017-11-02 19:37:36 543

原创数据库三大范式以及各种键值

在关系型数据库中建立科学的，规范的的数据库是需要满足一些规范的来优化数据数据存储方式就可以称为范式。直接进入主题：三大范式：第一范式：当关系模式R的所有属性都不能在分解为更基本的数据单位时，称R是满足第一范式的，简记为1NF（满足第一范式是关系模式规范化的最低要求，否则，将有很多基本操作在这样的关系模式中实现不了）。解释：每一列属性都是不可再分的属性值，确保每

2017-10-31 21:35:13 2402

转载为普通用户赋予sudo权限（Linux）

sudo功能的配置文件一般在这里：/etc/sudoers，可以使用visudo编辑，好处是如果规则写的不符合要求能提示你，坏处是调出的是nano编辑器，甚为不顺手。而且/etc/sudoers的配置文件的注释里也说明了，不建议直接修改/etc/sudoers，而是通过在/etc/sudoers.d/文件夹中新增文件来完成配置。Please consider adding local cont

2017-10-29 21:10:20 1536

原创 centos7下postgresql9.6安装

1、查看数据库是否已安装：rpm -qa | grep postgres命令查询2、若已经安装，rpm -e 命令卸载，或者yumerase postgresql*彻底扫净数据库rpm -e postgresql95-contrib-9.5.9-1PGDG.rhel7.x86_64 postgresql95-server-9.5.9-1PGDG.rhel7.x86_64

2017-10-27 19:34:07 1559

原创 centos7下解压缩与跨服务器传输文本那些事儿

1、几个查询软件是否安装的命令：查看rpm -qa 是查看该软件是否被安装 grep和find是查看文件位置centos7查看ip: ifconf -a2、跨服务器文件传输：scp是secure copy的简写，用于在Linux下进行远程拷贝文件的命令，scp [参数] [原路径] [目标路径]-B 使用批处理模式（传输过程中不询问传输口令或短语）-C 允许压缩。（

2017-10-26 11:25:01 410

原创那些最小化centos7安装图形化界面的坑

环境：虚拟机下CentOS7：一、安装图形化界面、yum -y groupinstall "GNOME Desktop" （双引号是必须的），早版本中可能是这个名字"GNOME Desktop Environment"，使用yum grouplist可以查看可用的组二、使用Yum出现"Cannot find a valid baseurl for repo"，无法更新下载安装。

2017-10-22 20:12:12 9629 2

Saint