5 Saint-at-home

尚未进行身份认证

拔刀吧

等级
TA的排名 9w+

spark处理hive数据排序问题

新入坑数据挖掘,从一段spark入门级数据处理代码开始。涉及语言Scala、Sql,并涉及将DataFrame转换为Rdd,实现的是从hive读取数据,并根据字段进行分组排序的功能,代码如下:val df_sr = spark.sql(s"""SELECT pushConfigId, updatedFROM default.ods_flow_rye_PushScene...

2019-01-30 16:22:10

大数据研发工程师面试题记录

1、10进制转2进制def tansform(num): s=[] if num<0: return "-"+transform(abs(num))) while True: num,remainder=divod(num,2)#divod(a,b),输出(a//b,a%b)即整数和余数 s.append(rem...

2018-09-13 13:24:49

常用排序算法python实现

一直捋不清几个排序,特意花点时间理解一下,有码有字有动图,明天补完1、插入排序: 不断将待排序中元素一个一个插入一个有序序列中(一般初始为待排序序列中的第一个元素,且待排序列表和有序列表其实在一个列表),最终得到有序序列。 如图: 实现代码:def insert_sort(lst):# 认为lst中元素第一个已排序 for...

2018-08-26 00:48:26

hdfs数据迁移至hbase(python2.7版本)

惯例直接上详细注释的代码。 任务是将HDFS上多个需要重新编码的文件合并后写入HBASE。 python2.7完成,用3的话可能需要改hbase.py的一些源码。# -*- coding: utf-8 -*-"""Created on Thu Aug 9 09:09:56 2018@author: admin"""from hdfs import Clientfrom ...

2018-08-21 16:47:54

阿里妈妈关键词排序笔试题

说在前面: 两个小问题:1、没处理处理编码问题,建议使用python3,这将不是个问题; 2、结果没有排序输出; 其他完全ok,有时间再完善吧。题目:阿里妈妈广告直通车是一个基于关键词(比如,“连衣裙”,“手机”)的竞价营销平台,商家在后台可以设置参与竞价的关键词。已知历史上所有关键词,和它的受欢迎程度(提前量化为1-99的数字,数值越大越受欢迎)。现在希望提供一个功能:当商家完...

2018-08-15 12:31:12

python3将mongodb数据迁移至mysql

新鲜的,IP隐匿,直接贴出代码:# -*- coding: utf-8 -*-"""Created on Tue Aug 14 14:00:55 2018@author: admin"""from pymongo import MongoClientimport pymysql#--------------------------mysql数据库操作-----------...

2018-08-14 15:40:56

python版MR任务完整过程(附代码)

将近期写的MR程序及过程记录下来。 简单介绍下环境:hadoop2.6.4hadoop-streaming-2.6.0.jar线上python2,线下python3都可以用首先放上需要的代码,定制python代码,很爽 mapper.py#!/usr/bin/python# -*- coding: UTF-8 -*-import sys#定义一个函数读标准输入或者...

2018-08-13 14:56:53

python3操作HDFS

直接贴代码# -*- coding: utf-8 -*-"""Created on Thu Aug 9 09:09:56 2018@author: admin"""from hdfs import Client#url:ip:端口,root:制定的hdfs根目录,proxy:制定登陆的用户身份,timeout:设置的超时时间client = Client("ht

2018-08-09 10:30:02

python3字符串字节转码相关问题

这得从一张图片说起: 就长上面这个样子,对了,不能正常显示的是中文。 身为老司机,一看就是字符编码的问题。 然后果断检查输入数据源什么编码,然后自信的.decode()。 然而并没有什么卵用,我记错了?测试一下: 没毛病啊,为毛不行? 去冲冲浪详细了解下是什么鬼: 首先了解下数据前面加u,r,b的含义 u/U:表示unicode字符串 :不是仅仅是针对中文, 可以针...

2018-08-03 12:04:36

YARN工作全解

首先放张YARN官网的图便于理解: 讲一下YARN的优点(网上一搜一箩筐):首先要提一下MapReduce1,它只包含JobTracker(协调在集群上运行的所有作业)和TaskTracker(运行分配的任务并定期向 JobTracker 报告进度),主要存在这样几个问题:JobTracker容易存在单点故障; 既要负责资源管理,又要进行作业调度,负担重;当需处理太多任务时,会造...

2018-07-20 22:58:50

场景下理解维度表,事实表,中间表

今天详细介绍一下数据仓库中的维度表,事实表与中间表: 什么是数据仓库? 数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。提数据仓库不得不提一下关系型数据库,关系型数据库主要是用来支撑即时操作,对数据库的性能和质量要求都比较高,通常设计操作型数据库的都要遵循3F范式的约束,具有ACID特性;而数据仓库的数据是来源于即时操作产生的数据,数据仓库的特征在于面向主题、集成性...

2018-07-18 18:31:05

记一次实际sqoop业务的理解(注释多)

最近梳理一项sqoop业务,整理如下(尽可能详细注释,表名,IP,账户密码,以及实际代码都做了处理,当作demo看完全可以的,可运行):1、mysql -> hive(创建任务->执行任务)创建用户任务脚本createUserJob.sh内容如下: - sqoop job --delete sqoop_job_1sqoop job --create sqoop_...

2018-07-18 16:56:08

win10下kettle7.1连接hive1,mysql完整实例

最近想要在windows10上使用kettle做数据ETL,首先安装配置作为新手也是踩坑无数,主要环境版本目前不是本人能够修改的,而kettle这东西对版本对应要求又比较严格,虽然只是连接就已经踩坑无数,主要问题集中在连接hive的时候,下面看图说话: 测试环境版本: hadoop-2.6.4 apache-hive-0.13.0启动之后先连个MySQLkettle7.1下载地...

2018-07-11 10:03:30

这么经典全面的java岗面试题不了解下?

Java面试的一些题目,个人觉得很经典转过来了,答案准备自己找,保证质量所以贴个原创不断更新,当然也可以去原文找。题目:Java基础:面向对象和面向过程的区别Java的四个基本特性(抽象、封装、继承,多态)Overload和Override的区别构造器Constructor是否可被override访问控制符public,protected,private,以及默认的...

2018-07-06 21:53:23

查看MySQL,HDFS空间占用情况

查看所有数据库大小(通用)select TABLE_SCHEMA, concat(truncate(sum(data_length)/1024/1024,2),' MB') as data_size,concat(truncate(sum(index_length)/1024/1024,2),'MB') as index_sizefrom information_schema.tables...

2018-07-05 14:34:57

事务4种隔离级别实例解析

数据库事务的隔离级别有4种,由低到高分别为Read uncommitted 、Read committed 、Repeatable read 、Serializable 。而且,在事务的并发操作中可能会出现脏读,不可重复读,幻读。下面通过事例一一阐述它们的概念与联系。Read uncommitted读未提交,顾名思义,就是一个事务可以读取另一个未提交事务的数据。事例:老板要给程序员...

2018-07-04 09:44:28

zoopkeeper工作机制及原理

1、什么是zoopkeeper ? ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务。2、为什么要使用zoopkeeper?(顺序一致性)从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到zookeeper中;(原子性)所有事物请求的处理结果在整个集群中所有机器上的应用情况是一致的;(单一视图)无论客户端连接的是哪个zookeeper服务...

2018-07-03 19:42:02

数据库优化大全

数据库优化神文,全而细:转载不便点击这里链接在这里: 数据库SQL优化大总结1之- 百万级数据库优化方案

2018-07-02 14:17:29

sqoop将hive中数据导入mysql(实例讲解)

假设这样一个场景: 数据已经导入hive(hive实例讲解看这里),现在要把hive中数据库导入出到(mysql)关系型数据库中,这里使用的工具是sqoop(sqoop详细讲解看这里)。该怎么处理呢? 首先,我们需要的是在mysql中建立对应的表,数据字段类型与hive数据表中要导出的数据类型保持一致; 然后,我们需要在假如你不是需要原样输出而是需要经过计算统计的话,就需要写在h...

2018-07-02 13:26:08

脚本执行命令实例详解

使用linux不免要用到执行脚本,比如一个文件a.sh,我们有时会见到用.a.sh去执行,有时见到用sha.sh去执行,或者basha.sh,或者sourcea.sh,那么这两种执行脚本的方式有什么区别呢?这个问题也困惑了本人很久,今天总结一下:首先考虑这样子一种情况:我的作用文件有时候路径比较长,为什么不创建一个脚本放在初始路径下,这样运行一下直接到到位,于是有了下面的welco...

2018-07-02 10:33:49

查看更多

勋章 我的勋章
    暂无奖章