自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 ConcurrentHashMap

此文章在HashMap的基础上介绍,基于java1.8,主要从结构、并发保证、put数据、get数据、大小统计以及扩容来介绍。结构Node节点Node:链表节点ForwardingNode:仅在扩容时用到,标识此节点已迁移到新table上且扩容未完成ReservationNode:保留节点,在compute和computeIfAbsent中使用,在正式赋值之前起一个暂时占位的作用。TreeBin:用于封装维护TreeNode,指向红黑树的根结点,包含红黑树的各种转换操作TreeNode:红

2021-01-08 14:30:20 228

原创 HashMap

此文章基于Java1.8,主要从存储结构、hash过程、put数据、get数据以及resize几个方面来介绍HashMap。存储结构主要由数组+链表+红黑树组成,关于链表和红黑树的具体相关操作请另行查看哦!Hashput数据get数据reszie...

2021-01-08 12:39:44 353 3

转载 在MapReduce项目中添加spark job

直接在java并行的目录下创建scala文件,并标注为源代码目录,在test中也添加scala目录,然后添加spark相关依赖即可。<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --><dependency> <groupId>org.apache.spark&...

2019-05-17 11:52:44 218

转载 hadoop configuration

参考Hadoop Configuration 源码详解使用Hadoop Configuration一些需要注意的细节hadoop3.0 api介绍使用Configuration类的对象去初始化一个任务,在整个任务执行过程中,作为参数的携带者,任务执行过程中所需要的所有参数都从该对象中获取,是一个配置文件管理类。设置属性方式hadoop jar $jar \ ${classna...

2019-03-29 13:32:11 748

原创 Mapper中获取分片信息

场景输入路径中含有重要信息,需要在map的时候进行处理。场合只有一个Mapper,每个mapper只处理一个输入文件protected void setup(Context context) throws IOException, InterruptedException { Path path = ((FileSplit) context.getInputSplit()).get...

2019-03-25 14:18:55 232

转载 sbt更新编译

从sbt0.13 换到1.2.3的艰辛路程sbtsbt assembly githubsbt编译Spark App依赖问题使用SBT构建Scala应用sbt(simple build tool)与maven一样用于编译之类的sbt-assembly则是一个插件,说可以加依赖打进jar包,使用方式在github上主要遇到问题:sbt与sbt-assembly有版本对应,需使用正确,...

2019-01-07 17:39:09 985

转载 gitlab项目迁移

修改本地配置,push到新地址gitlab project项目迁移git remote -vgit remote set-url origin [email protected]:360-fyd/fang.gitgit remote -vgit branch -agit push origin master:master直接push所有分支git push origin master...

2019-01-07 17:18:10 1538

原创 mac编译hadoop,spark

hadoop编译前提安装java,maven,jdk,ProtocolBuffer,cmake,openssl从git上clone hadoop 源码protocolbuffer安装2.5.0protocolbuffer下载./configure makesudo make installprotoc —version #测试卸载在终端执行which protoc注:...

2018-10-17 14:44:44 308

转载 yarn下的mapreduce内存问题

参考ERROR:is running beyond physical memory limits. Tuning yarnYarn下Mapreduce的内存参数理解Yarn下Mapreduce的内存参数理解&amp;xml参数配置前因使用Hadoop的streming.jar遇到问题问题1:18/10/13 19:40:56 INFO input.FileInputFormat: ...

2018-10-15 16:16:32 750

转载 parquet

参考内部know Parquet vs ORC大数据开源列式存储引擎Parquet和ORC新型列式存储格式 Parquet 详解读写parquet格式文件的几种方式Parquet file optional field does not existparquet列存列存使用场景:数据列很多,且每次操作仅针对若干列的情景parquet数据存储schema描述存储结构有group...

2018-10-11 17:19:19 939

转载 jar资源文件处理方式

参考 主题:【解惑】深入jar包:从jar包中读取资源文件java读取jar包中的文件总结读取资源文件问题描述:资源文件在单独运行的时候没有问题。但是把代码打成一个jar包以后,即使将资源文件一并打包,这些东西也找不出来了。public static void getResourcefile() throws IOException { prop= new Properties...

2018-10-10 17:47:05 3080

转载 kafka 使用python消费consumer

参考 https://www.jianshu.com/p/ede62642a438 http://shartoo.github.io/kafkaquestion/ http://www.cnblogs.com/AcAc-t/p/kafka_topic_consumer_group_command.html https://blog.csdn.net/chunlongyu/article/d...

2018-09-13 19:58:03 18405 1

转载 Jenkins简单使用

JenkinsJenkins是一款开源的持续集成工具,广泛用于项目开发,具有自动化构建、测试和部署等功能 其本身主要负责自动化的 代码编译, 打包, 测试, 组装;向上要与代码管理工具(如gitlab)/配置管理工具进行交互;向下要与服务器管理工具/容器(docker)/服务器(物理机, aws)进行交互。Jenkins W3Cschool Jenkins官方文档 wiki gi...

2018-09-12 14:48:20 3650 1

转载 linux 多版本的python对应 easy-install pip

参考easy_install和pip区别 easy_install的安装与使用 windows python2.7下 安装 pip安装# wget https://bootstrap.pypa.io/ez_setup.py# python2.7 ez_setup.py# ls /usr/bin/easy_install*/usr/bin/easy_install /...

2018-09-06 18:28:10 746

原创 MapReduce读文件

参考读文件在Driver中读本地在map或reduce中读hdfsStreaming中的-file

2018-08-09 16:45:30 4183

转载 java 静态

主要思想 主要为了标记下java关于静态变量,静态方法,静态块,静态嵌套类,内部类之间的关系参考Java 静态类、静态方法和静态变量 http://hongyubox.com/2016/08/05/Java%20%E9%9D%99%E6%80%81%E7%B1%BB%E3%80%81%E9%9D%99%E6%80%81%E6%96%B9%E6%B3%95%E5%92%8C%E9%9D...

2018-08-06 17:12:44 177

原创 Mapreduce多种输入

是mapreduce中的一种类型,记录下主要使用了MultipleInputs类,允许对不同的输入路径指定InputFormat和Mapper, 对reduce并没有什么影响//job.setMapperClass(Mapper.class); 就不要了MultipleInputs.addInputPath(job, new Path(input1), TextInputForma...

2018-07-19 16:27:39 152

转载 MapReduce学习写测试

参考Effective Testing Strategies for MapReduce Applications:https://stackoverflow.com/questions/27136752/powermock-throws-nosuchmethoderror-setmockname PowerMock throws NoSuchMethodError (setMockName...

2018-07-06 18:34:45 544

原创 json 方式

json讲解 https://www.w3cschool.cn/json/8kjw1pl0.html json三种方式 https://www.oudahe.com/p/11923/ fastjson解析map类型 https://blog.csdn.net/wenxingchen/article/details/78622655 fastjson使用 http://www.cnblo...

2018-06-26 14:49:53 245

转载 Hbase使用简要分析

参考 https://blog.csdn.net/u014419512/article/details/27966957 https://www.jianshu.com/p/0f9578df7fbc https://www.cnblogs.com/raphael5200/p/5229164.html https://songlee24.github.io/2015/07/24/hbase...

2018-05-29 16:53:05 445

转载 shell并行执行程序

参考https://www.linuxidc.com/Linux/2011-03/33918.htm http://www.sohu.com/a/161607089_610671 https://blog.csdn.net/yeweiouyang/article/details/52512522 http://www.cnblogs.com/yxzfscg/p/5330136.html...

2018-05-03 15:13:39 5319

转载 flink简单使用

参考https://flink.apache.org/ https://www.jianshu.com/p/2ee7134d7373 https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/ https://www.jianshu.com/p/26c9ef86fb19 https://blog.csdn.n...

2018-04-25 19:25:06 3149 1

转载 oozie简单使用

来自http://shiyanjun.cn/archives/684.html https://www.cnblogs.com/cenzhongman/p/7229387.html?yyue=a21bo.50862.201879 https://www.cnblogs.com/xing901022/p/6216456.html简要说明:使用oozie需要coordinator....

2018-04-19 13:50:59 1300

转载 sbt添加依赖

参考https://www.scala-sbt.org/1.x/docs/zh-cn/Library-Dependencies.html有两种方式 非托管依赖:放在lib目录下的jar包 托管依赖:配置在构建定义中,并且会自动从仓库中下载非托管依赖将jar包放在lib文件下如果需要修改lib的名称为custom_lib,在build.sbt文件中添加unman...

2018-04-10 20:53:32 9665 2

转载 spark读取当前处理数据的文件名

参考http://hanyingjun318.iteye.com/blog/2277512环境idea;sbt;hadoop在hadoop中读取文件名InputSplit inputSplit=(InputSplit)context.getInputSplit(); String filename=((FileSplit)inputSplit).getPa...

2018-04-09 18:24:05 4930

转载 字符编码

根据以下链接中的内容总结而成https://zhuanlan.zhihu.com/p/25435644http://cenalulu.github.io/linux/character-encoding/http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.htmlhttp://blog.itpub.net/55022/vie...

2018-04-02 18:45:14 387

原创 回调函数

回调函数是在调用某个函数(通常是API函数)时,将自己的一个函数(这个函数为回调函数)的地址(函数指针)作为参数传递给那个函数。而那个函数在需要的时候,利用传递的地址调用回调函数,这时你可以利用这个机会在回调函数(自己写的这个函数)中处理消息或完成一定的操作。 回调函数就像一个中断处理函数,系统在符合你设定的条件时自动调用,为此需要做:1 声明2 定义3 设置触发条件,就是在你的函

2016-07-28 10:50:25 298

原创 eclipse下新建hadoop项目

此次介绍有关在eclipse当中进行文件操作及wordcount的运行按照我写的顺序进行讲述新建Map/Reduce Project项目WordCountDemo新建类WordCountDemo,包为org.hadoop.examples将hadoop源码中的wordcount粘贴过来设置arguments运行,结果出现output文件已存在

2016-07-26 13:02:34 1495

原创 windows下eclipse连接hadoop

首先介绍配置环境linux版本 CentOS release 6.7 64位 一个master,若干slavewindows版本 win7 32位hadoop 2.6.0版本1 安装插件hadoop-eclipse-plugin-2.6.0.jar,下载后放到eclipse/plugins,重启eclipse2 在windows下解压hadoop-2.6.0

2016-07-26 12:18:12 595

原创 动态规划

使用Dynamic Programming 的条件 1)优化子结构:一个问题的优化解包含子问题的优化解 2)重叠子问题:在问题的求解过程中,很多子问题被多次使用 算法设计步骤 *分析优化解的结构:划分子问题、优化子结构、子问题重叠性 *建立优化解的代价递归方程 *递归的划分子问题,直至不可划分 *自底向上计算优化解的代价,记录优化解的构造信息

2016-07-07 16:42:41 296

原创 文件系统

块管理 文件的物理结构指文件在存储设备上的存取方式。块管理用于记录存储块和文件的关联关系,对于随机存储设备而言,一般有如下三种方法实现块管理。 a.连续分配 b.链接表 c.索引链式表 存储空间管理 对存储介质上未使用空间的管理,当创建文件、写入文件或删除文件时,都涉及存储空间的管理。目前存储空间管理主要的方法有 空间文件目录 空闲块链 位示图 文件的共享是指不同的用户共同使用一

2016-06-24 22:12:14 403

转载 硬链接与软链接

文件有文件名与数据,在linux中被分成用户数据(user data)和元数据(metadata)。用户数据即文件数据块,记录文件真实内容的地方,元数据是文件的附加属性,如文件大小、创建时间、所有者等信息。系统或程序通过inode号寻找正确的文件数据块。 在linux系统中查看inode可以使用stat或ls -i。# stat /home/harris/source/glibc-2.16.0.t

2016-04-26 21:18:17 402

原创 有关字符串编程

给定一个query和一个text,均由小写字母组成。要求在text中找出以同样的顺序连续出现在query中的最长连续字母序列的长度。例如,query为 “acbac”,text为”acaccbabb”,那么text中的”cba”为最长的连续出现在query中的字母序列,因此,返回结果应该为其长度3。给出两个字符串,用自己最熟悉的编程语言找出两个字符串中匹配最长的字符串。如:“ascdefd”和“a

2016-04-19 21:51:47 389

原创 有关scanf的输入格式不正确之说

int main() { // your code goes here int a; scanf("%d",&amp;a); printf("%d\n",a);}然后输入’a’ 输出结果为:-1219387827 原因:如果scanf函数未按指定格式输入,数据是不会存入到变量中去的,变量还会保持原有的数据。在程序中,a没有给初值,所以输出了一个随机值. ...

2016-04-12 09:59:43 1832 2

原创 形如int x:1;int x:2;int x:32

#include<iostream>#include <bitset>using namespace std;struct a{ int x:1; int y:2; int z:32;};int main(){ a d; d.x=8; d.y=8; d.z=6; cout<<bitset<sizeof(int)*8>(d.x

2016-04-06 15:30:21 3228

转载 Linux I/O调度程序

Linux I/O调度程序是块设备I/O子系统的主要组件,它介于通用块层和块设备驱动程序之间,如图所示:当Linux内核组件要读写一些数据时,并不是请求一发出,内核便立即执行该请求,而是把它放到设备的I/O等待队列中,并通过算法在队列中合并多个相邻的请求,然后发送到块设备驱动程序中。在数据返回后,把数据分别返回给相应的请求。在2.6内核中,实现了四种I/O调度算法,分别为预期(Anti

2015-12-14 00:18:45 1260

原创 贪心算法基础理论

Greedy算法基本思想:贪心算法是一种在每一步选择中都采取在当前状态下最好或最优的选择,从而希望结果是最好或

2015-12-13 14:37:52 1610 1

原创 哈密顿环之分支限界

最小哈密顿环问题,输入是一个无向连通图G=(V,E),每个节点都没有到自身的边,每对节点间都有一条非负加权边;输出一个权值代价和最小的哈密顿环。使用分支限界算法,先令当前的界限定为(最大权值*路数),然后寻找路径依次判定是否有更小值存在。#include&lt;stdio.h&gt;#include&lt;stdlib.h&gt;#include&lt;windows.h&gt;#defi...

2015-12-09 21:40:17 598

原创 哈密顿环之广度优先

广度优先,使用队列,在网上下的关于队列的代码将数据节点改成本部分需要的结构。#include&lt;stdio.h&gt;#include&lt;stdlib.h&gt;#include&lt;windows.h&gt;#include"Queue.h"#define MAX_SIZE 21/*struct Point{int vertex;int path[MAX_SIZE];...

2015-12-09 21:18:10 527

原创 哈密顿环之深度优先

求解哈密顿环问题,接下来三篇博文将从深度、广度和分支界限算法描述该问题的求解。如有问题请多多指教!哈密顿环问题:输入是一个无向连通图G=(V,E);如果G中存在哈密顿环则输出该环,否则输出“否”。接下来用深度和广度解决哈密顿环问题,用分支限界解决最小哈密换带权问题。深度优先,使用栈的原理存储数据,一旦找到结果就结束。#include&lt;stdio.h&gt;#include&lt;stdli...

2015-12-09 21:09:39 1130

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除