小飞云-CSDN博客

原创数据库语句汇总

查看某个表占用空间大小：select round (BYTES/1024/1024, 2)||'M' from user_segments where segment_name='table_name'

2017-08-25 10:53:51 370

原创 Mysql 语句之group by, having, count

Mysql的group by, having, count平时经常用错，这里举一些使用的例子。group byhaving聚合函数count，avg，min，max，sum等一些基础的sql语句： http://www.cnblogs.com/xinge1993/p/4769468.html常用的sql http://www.cnblogs.com/sunada2005/p/341187

2017-08-01 11:07:12 21010 1

原创常见基础排序算法总结及java代码

常见基础排序算法常见的排序：冒泡排序快排归并排序插入排序堆排序选择排序希尔排序基数排序冒泡排序// java public static void bubblesort(int[] array) { int temp; for(int end = array.length - 1; end > 0; end--) {

2017-07-26 21:29:43 398

原创 windows7 + pycharm 搭建spark的python开发环境，Java gateway process exited before sending the driver its port

spark版本spark-2.1.1-bin-hadoop2.7jdk1.8python 3.6参考：http://www.jianshu.com/p/5701591bfc70测试代码：from pyspark import SparkContext, SparkConflogFile = 'C:\\Python\\Python36\\Lib\\site-pa

2017-07-25 16:57:34 4091

原创 Java关键字volatile，原子性，变量可见性

内存模型与CPU缓存本来CPU计算的数字都是从主从main memory中读取的，但是CPU运行的速度比计算机读取内存的速度快，为了补齐这个短板，所以出现了CPU缓从这种东西。在多CPU系统（或多核处理器——一个芯片上有多个CPU），每个CPU有自己的缓存。两个线程A，B在不同的CPU上同时跑，A对主存的某个共享变量修改后会暂时存在CPU a的缓存中。线程B在CPU b

2017-07-20 14:49:56 4718

原创 Linux命令

查看Linux版本cat /proc/version uname -a lsb_release -a 网卡、IP查看、设置相关以太网卡是否被操作系统内核监测 lspci | grep Ethernet找出已识别未激活的网络接口 ifconfig -a临时修改IP ifconfig 网卡名 IP netmask 子网掩码永久改变IP（需两步）： vim

2017-07-07 17:25:20 358

原创 Hadoop 集群命令

pdsh：在指定的机器上执行同一个命令。pdcp：将文件拷贝到一组机器上。安装Yarn的时候，经常改完在某个机器上改完一个配置文件，然后依次复制到其他机器。这种情况下，用pdsh、pdcp方便多了。

2017-06-27 16:37:04 526

原创 Python 数字操作

float保留指定位数a = 0.017685447b = '%.5f' % a # 保留小数点后5位

2017-06-27 15:40:34 402

原创 Python 日期与时间

判断某个日期是所在年份的第几周：date.isocalendar()from datetime import *d = date(2012, 9, 17)print(d.isocalendar())判断某个日期是周几：date.isoweekday()from datetime import *d = date(2012, 9, 17)print(d.iso

2017-06-27 15:34:25 273

原创 HDFS HA 配置学习

配置HDFS 的高可用（High Availability）两种实现：1. Quorum Journal Manager（QJM）配置两个NameNode；配置奇数个JournalNode，至少3个；配置DataNode向两个NN发送心跳。QJM高可用中的StandbyNameNode会执行命名状态空间检查，因此在使用QJM的HA集群中

2017-06-27 15:21:27 319

原创 Yarn-cluster 与 Yarn-client的区别

总结性地说，Yarn-cluster模式提交作业后，可关掉client，适合生产环境；Yarn-client适合交互式的，开发环境。本质上，对Spark on Yarn集群，是Spark Driver在哪里运行、谁进行调度的区别。Yarn-cluster模式，Spark Driver运行在Application Master所在的机器上，因此该机器一定是集群中某个节点；Applic

2017-06-27 14:47:31 819

原创 Yarn运行Job报错：container is running beyond virtual memory limits

在Spark on Yarn集群上运行Spark jar包，结果报错：container *** is running beyond virtual memory limits……问题分析：yarn-site.xml 中关于资源的配置有问题。yarn.nodemanager.resource.memory-mb = 3072，默认8192yarn.scheduler

2017-06-15 17:34:19 874

Matthewhou的专栏