山木枝-CSDN博客

原创 go 有向图遍历及回路判断

图遍历深度优先遍历func depthFirst(m map[string][]string) []string { var order []string seen := make(map[string]bool) var visitAll func(items []string) visitAll = func(items []string) { ...

2020-04-25 23:14:39 1682

原创 java执行cmd命令详解

前言Java应用程序主要是通过Runtime和Process两个类来执行cmd命令。Runtime.exec方法创建本机进程并返回Process子类的实例，该实例可用于控制进程并获取有关它的信息。Process类提供了从进程执行输入，执行输出到进程，等待进程完成，检查进程的退出状态以及销毁（杀死）进程的方法。具体有哪些方法请查看相关文档：https://docs.oracle.com/ja...

2019-07-30 11:13:37 31471 5

原创 mysql采坑之count distinct多列

背景有个小伙伴在用mysql做统计分析的时候发现有行数据凭空消失了。最近我刚好在学习相关内容，所以对这个问题比较感兴趣，就研究了一下。复现的测试数据库如下所示：CREATE TABLE `test_distinct` ( `id` int(11) NOT NULL AUTO_INCREMENT, `a` varchar(50) CHARACTER SET utf8 DEFAULT N...

2019-07-29 16:22:51 12228 1

原创 mybatis枚举类型转换器详解

1. 前言刚入手spring-boot还不太熟练，先弄了个空的框架，然后写了个简单的用户查询，没啥挑战性。然后想起来之前一直对枚举不太了解，而用户的性别正好可以用枚举类型来表示(male, female)。于是就开始了自己的挖坑之旅。本文主要分为三个部分：mybatis自带枚举类型转换自定义枚举类型转换mybatis类型转换深入理解（将在下一篇介绍）2. mybatis自带枚举类...

2019-06-26 20:24:03 8697

原创 Java线程状态转换详解

线程的状态转换图线程状态类型新建状态（New）用new语句创建的线程对象处于新建状态，此时它和其他Java对象一样，仅仅在堆区被分配了内存。就绪状态（Runnable）当一个线程对象创建后，其他线程调用它的start()方法，该线程就进入就绪状态，Java虚拟机会为它创建方法调用栈和程序计数器。处于这个状态的线程位于可运行池中，等待获得CPU的使用权。运行状态（Runn...

2019-06-05 11:21:26 395

原创 pyspark读取Oracle数据库并根据字段进行分区

前一篇文章pyspark连接oracle中详细讲述了初步连接Oracle的方法，这种连接方式每次只使用一个RDD分区，即numPartitions默认为１．这种方式当表特别大的时候，很可能出现OOM．pyspark提供两种对数据库进行分区读取的方式方法一：指定数据库字段的范围之前的方式是：empDF = spark.read \ .format("jdbc") \ ...

2018-12-11 16:34:16 2278

原创 Ubuntu server18.04输入ifconfig找不到IP地址

记一次误删系统文件导致机器不能联网的经历问题：主机重启之后连不上网，输入ifconfig找不到IP地址，ping局域网的主机，bash显示network is unreachable解决方式：首先需要解决的第一个问题是让机器连上网因为这台主机之前设计了静态IP，所以怀疑是静态IP的配置文件/etc/netplan/*.xml有问题。和网上配置静态IP的详细比对后，发现基本一致，...

2018-12-11 15:14:15 6812 3

原创 pyspark dataframe将一行分成多行并标记序号(index)

原始数据如下：gid score a1 90 80 79 80 a2 79 89 45 60 a3 57 56 89 75 from pyspark.sql.functions import udf, colfrom pyspark.sql.types import MapType, IntegerType, StringTypedef udf_...

2018-12-02 14:27:55 5841

原创 pyspark dataframe列的合并与拆分

使用Spark SQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。from pyspark.sql import SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("da...

2018-11-25 19:29:19 31226 2

转载 Spark应用程序第三方jar文件依赖解决方案

第一种方式操作：将第三方jar文件打包到最终形成的spark应用程序jar文件中应用场景：第三方jar文件比较小，应用的地方比较少第二种方式操作：使用spark-submit提交命令的参数: --jars要求：1、使用spark-submit命令的机器上存在对应的jar文件2、至于集群中其他机器上的服务需要该jar文件的时候，通过driver提供的一个http接口来获取...

2018-11-25 16:06:09 1339

原创 linux下kill -9 不能强制杀掉spark-submit进程

问题：在python编辑器中运行spark程序时，忘记加spark.stop()停止spark，所以每提交一次程序就多一个spark-submit进程，而且sparkUI的端口号还被占用了。这时候用kill -9 spark-submit_pid无法杀死spark-submit进程原因： kill -9发送SIGKILL信号将其终止，但是以下两种情况不起作用：a、该进程处...

2018-11-25 15:57:13 4736

原创 pyspark连接hbase

在CentOS下用PySpark连接HBasehttp://www.yanglajiao.com/article/otie99/79343984Spark2.1.0+入门：读写HBase数据(Python版)http://dblab.xmu.edu.cn/blog/1715-2/

2018-11-23 18:46:14 3473

翻译 pyspark连接oracle

在本文中，我将Apache Spark连接到Oracle数据库，直接读取数据，并将其写入DataFrame。随着我们日常生活中产生的数据量的快速增长，大数据技术已经很快进入我们的生活。我们现在使用的工具能够快速有效地解决我们的业务，而不是传统的解决方案。 Apache Spark的使用是一种可以满足我们需求的常用技术。Apache Spark基于一个可以非常快速和分布式地处理数据的框架。...

2018-11-20 20:02:26 3134 2

转载 spark作业配置及spark-submit参数说明

1.spark作业配置的三种方式读取指定配置文件，默认为conf/spark-defaults.conf。在程序中的SparkConf中指定，如conf.setAppName(“myspark”)。 spark-submit中使用参数。这三种方式的优先级为SparkConf>spark-submit>配置文件。可以在spark-submit中使用–verbos参数查看起作...

2018-11-20 19:27:54 2659

原创 Hadoop的磁盘大小不一导致节点挂掉

问题描述DataNode挂载的磁盘或者DataNode节点挂载多个磁盘，如果存在一些磁盘大小不一样，数据在落盘时就可能会出现磁盘使用率不均匀的情况，容量较小的盘容易被写满，而容量大的盘还剩很多空间。磁盘写满后，影响Hadoop集群的正常工作。建好集群后需要将历史记录导入到hbase中，而集群中有三台主机外接了磁盘阵列，主机磁盘阵列大小四十多G，磁盘阵列大概1.6个T。运行将数据写入hbas...

2018-11-18 16:15:01 2684

原创 hadoop及spark集群搭建后续

问题1：查看 jps，里面只有HQuorumPeer，没有 HRegionServer查看logs，master rejected startup because clock is out of sync原因：几台机器时间对不上解决方法：将有问题机器的时间校正date -s xx:xx:xx然后重启regionserver hbase-daemon.sh --config ...

2018-11-10 16:57:14 568

原创 Hadoop及spark集群搭建踩过的坑

本集群总共有三台主机，一台master，两台slave Hadoop有一个节点无法启动在按照教程子雨大数据之Spark入门教程(Python版)搭建Hadoop集群时，运行jps命令，发现master和其中一个slave能正常工作，运行./bin/yarn node -list发现只有一个alive节点再次申明：本文只是针对搭建集群中有一个节点无法启动，而不是所有的节点进一步观...

2018-10-12 16:20:21 917

原创 Spark读取本地文件时报错：java.io.FileNotFountException:file doesn't exist

在确认文件存在的情况下，出现这个问题的原因是：在集群中运行的pyspark。例如使用命令bin/pyspark --master yarn启动pyspark解决方式1：让每个Worker节点的相应位置都有要读取的数据文件。解决方式2：直接将数据文件上传到hdfs，达到数据共享。...

2018-10-09 11:25:51 3570

原创 java HashMap插入重复Key值问题

要在HashMap中插入重复的值，首先需要弄清楚HashMap里面是怎么存放元素的。 put方法 Map里面存放的每一个元素都是key-value这样的键值对，而且都是通过put方法进行添加的，而且相同的key在Map中只会有一个与之关联的value存在。put方法在Map中的定义如下。V put(K key, V value);它用来存放key-value这样的一个键值对，返回值是key在Ma

2017-05-22 16:14:04 100703 3

原创 PHP实现Apriori算法——计算置信度

强规则定义对于一个频繁集L，找到所有的L的非空子集非空子集f，如果f -> L - f，的概率满足最小置信度，则这是一个强规则。如果{A,B,C,D}是一个频繁集，则它有如下候选规则 ABC -> D, ABD -> C, ACD -> B, BCD -> A, A -> BCD, B -> ACD, C -> ABD, D -> ABC，AB -> CD, AC -

2017-03-21 14:09:49 1278

原创 PHP实现Apriori算法——计算支持度

Apriori算法是数据挖掘中十分经典的算法，在关联度的挖掘中会经常用到，通过实现来更好的理解Apriori算法。 Apriori定律 1：如果一个集合是频繁项集，则它的所有子集都是频繁项集。举例：假设一个集合{A,B}是频繁项集，即A、B同时出现在一条记录的次数大于等于最小支持度min_support，则它的子集{A},{B}出现次数必定大于等于min_support，即它的子集都是频繁项集。

2017-03-12 19:29:47 1458

原创软件测试——Junit、Hamcrest、Eclemma的安装和使用

综述 1. JUnit是一个开放源代码的Java测试框架，用于编写和运行可重复的测试。他是用于单元测试框架体系xUnit的一个实例（用于java语言）。它包括以下特性： 1. 用于测试期望结果的断言（Assertion） 2. 用于共享共同测试数据的测试工具 3. 用于方便的组织和运行测试的测试套件 4. 图形和文本的测试运行器 2. Hamcrest是一个框架，协助编写Java 编

2017-03-10 13:08:22 1513

PHPDocumentor是一个用PHP写的工具，对于有规范注释的php程序，它能够快速生成具有相互参照,索引等功能的API文档。老的版本是 phpdoc。1. 什么是phpDocumentor ? PHPDocumentor 是一个用PHP写的工具，对于有规范注释的php程序，它能够快速生成具有相互参照,索引等功能的API文档。老的版本是 phpdoc，从1.3.0开始，更名为phpDocume

2017-03-09 23:13:07 2165

原创 PHP实现简单双向链表

实现文件DoubleLinkList.php<?php/** * **双向链表 * @author [email protected] * */ /** * 链表元素结点类 */class Node{ public $prev = NULL; // 前驱 public $next = NULL; // 后继 public $key = NULL; // 元素

2017-03-09 22:54:26 1507

转载 D3.js——理解 update, enter, exit 的使用

Update、Enter、Exit 是 D3 中三个非常重要的概念，它处理的是当选择集和数据的数量关系不确定的情况。什么是 Update、Enter、Exit前几课里，反复出现了形如以下的代码。svg.selectAll("rect") //选择svg内所有的矩形 .data(dataset) //绑定数组 .enter()

2017-03-07 17:54:52 744

转载 css样式的加载顺序及覆盖顺序

css样式层叠优先级是:1.浏览器缺省 < 外部样式表(引入的css文件) < 内部样式表(<style type="text/css"> #p {color:red} .blue{color:blue} p{color:green}</style><p> 我是绿色，p{color:green}</p><p class="blue"> 我是蓝色，class="blue"

2017-02-27 16:42:18 12790

转载必须知道的 Visual Studio 快捷键

本文将为大家列出在Visual Studio中常用的快捷键，正确熟练地使用快捷键，将大大提高你的编程工作效率。项目相关的快捷键Ctrl + Shift + B = 生成项目Ctrl + Alt + L = 显示Solution Explorer（解决方案资源管理器）Shift + Alt+ C = 添加新类Shift + Alt + A = 添加新项目到项目编辑

2016-12-25 21:31:03 356

原创 MFCC程序参数详解

本文程序来源于宋知用老师编著的《MATLAB在语音信号分析与合成中的应用》

2016-11-10 21:12:32 5778 6

原创 php htmlentities汉字中文乱码问题解决办法

设置htmlentities的默认参数，具体参见PHP手册

2016-09-23 23:32:12 1296

转载 4种PHP异步执行的常用方式

本文为大家讲述了php异步调用方法，分享给大家供大家参考

2016-09-21 20:24:17 1423

原创深入理解PHP之设置类的属性

事实上，PHP并没有强制所以的属性都要在类中声明。我们可以动态地添加属性到对象，如下所示：class A { public $id = "12345"; public $name = "aaa";}$a = new A();$a->sex = "man";print($a->sex);但是，这种给对象赋属性的方法在面向对象编程中并不是一个良好的做法，我们基本上不用。至少，据我

2016-09-16 22:22:40 6168 1

转载 Git上传代码新建仓库及错误解析

Github上传代码菜鸟超详细教程【转】最近需要将课设代码上传到Github上，之前只是用来fork别人的代码。这篇文章写得是windows下的使用方法。第一步：创建Github新账户第二步：新建仓库第三部：填写名称，简介（可选），勾选Initialize this repository with a README选项，这是自动创建REAMDE.md文件，省的你再创建。

2016-09-04 22:54:48 1178

原创微信公众平台开发，微信JS-SDK对接invalid signature报错解决

笔者在做微信JS-SDK学习过程中，用微信打开页面时总是弹出invalid signature的errmsg，笔者在开发文档和网友提供的解决方法中苦苦搜寻，好在功夫不负有心人，经历一上午的苦苦挣扎总结出如下解决方案

2016-08-31 14:24:23 3244

转载微信公众平台开发上传素材

微信公众账号在回复图片、语音、视频的时候，将使用media_id来调用相关文件，很多朋友咨询这个如何开发实现。本文将介绍在微信公众平台开发过程中，如何上传下载多媒体文件。一、上传多媒体文件公众号可调用本接口来上传图片、语音、视频等文件到微信服务器，上传后服务器会返回对应的media_id，公众号此后可根据该media_id来获取多媒体。请注意，media_id是可复用的，调用该接口

2016-08-29 21:36:57 6064

intersting的博客