JasonZhangOO-CSDN博客

原创 java中string，stringbuffer和stringbuilder的问题

关于StringBuilder，一般同学只简单记住了，字符串拼接要用StringBuilder，不要用＋，也不要用StringBuffer，然后性能就是最好的了，真的吗吗吗吗？ 1.初始长度好重要，值得说四次。StringBuilder的内部有一个char[]，不断的append()就是不断的往char[]里填东西的过程。new StringBuilder() 时char[]的默...

2018-12-20 14:41:26 385

转载 Java API 与HBase交互实例

HBase提供了Java Api的访问接口，掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要本篇blog转载自：https://blog.csdn.net/lifuxiangcaohui/article/details/39997391主要是对于使用java如何连接HBase以及CRUD的相关操作的整理。[html] view plain copyimport java.io.IOEx...

2018-06-06 11:06:56 467

原创 Spark性能调优之数据本地化

本篇blog讲述实际spark项目中调优的一个小技巧，调节数据本地化的等待时长。 Spark在Driver上，对Application的每一个stage的task，进行分配之前，都会计算出每个task要计算的是哪个分片数据，RDD的某个partition；Spark的task分配算法，优先，会希望每个task正好分配到它要计算的数据所在的节点，这样的话，就不用在网络间传输数据； ...

2018-02-22 23:15:20 1159

原创 Spark性能调优之广播大变量

本篇blog讲述在实际spark项目中可能需要注意的一个性能调优的一个点，就是broadcast大变量。默认的在spark作业中，task执行的算子中，使用了外部的变量，每个task都会获取一份变量的副本，有什么缺点呢？<br>map，本身是不小，存放数据的一个单位是Entry，还有可能会用链表的格式的来存放Entry链条。所以map是比较消耗内存的数据格式。比如，ma...

2018-02-22 22:05:57 1936

转载美团技术团队：实例详解机器学习如何解决问题（转载）

原文 http://tech.meituan.com/mt-mlinaction-how-to-ml.html前言随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学

2017-10-21 15:38:51 626

原创 Hadoop- Writable, WritableCompareable, WritableComparator

Hadoop-序列化序列化：对象的序列化用于将一个对象编码成字节流，以及从字节流中重新构建对象。将一个对象编码成一个字节流称为序列化该对象。序列化三种主要的用途：1.作为一种持久化格式。2.作为一种通信的数据格式。3.作为一种拷贝、克隆机制。Hadoop序列化机制：Hadoop序列化机制是调用的write方法将对象序列化到流中，调用readFiles方法进行反序列化。java序列化机制与Hadoop

2017-10-03 22:31:27 1023

原创 Hadoop启动dfs时报错Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namen

Hadoop2.7.4安装之后./sbin/start-dfs.sh报错：Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.Starting namenodes on []Error: Cannot

2017-09-07 18:42:08 7159 2

原创在HDFS中创建目录报错WARN util.NativeCodeLoader: Unable to load native-hadoop library for your pla

Hadoop2.7.4在安装成功后，start-dfs.sh启动后，在HDFS创建目录报错：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable在/etc/profile

2017-09-07 18:34:05 4992 1

转载回归评价指标：均方误差根（RMSE）和R平方（R2）

做回归分析，常用的误差主要有均方误差根（RMSE）和R-平方（R2）。RMSE是预测值与真实值的误差平方根的均值。这种度量方法很流行（Netflix机器学习比赛的评价方法），是一种定量的权衡方法。 ””’ 均方误差根 ”’ 过拟合加入L1正则化和L2正则化，岭回归

2017-08-30 21:09:16 173814 5

转载 GBDT（梯度提升决策树）剖析

在网上看到一篇对从代码层面理解gbdt比较好的文章，转载记录一下： GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（g

2017-07-12 23:29:51 846

原创 xgboost算法原理与实战

xgboost算法原理与实战之前一直有听说GBM，GBDT（Gradient Boost Decision Tree）渐进梯度决策树 GBRT（Gradient Boost RegressionTree）渐进梯度回归树是GBDT的一种，因为GBDT核心是累加所有树的结果作为最终结果，而分类树的结果是没法累加的，所以GBDT中的树都是回归树，不是分类树。 XGBoost（eXtreme Gradi

2017-06-11 19:12:25 33390 3

原创 spark部署模式解析

单机上可以本地模式运行单机上伪分布式模式运行集群上standalone模式,spark on yarn模式，spark on mesos模式，这里主要介绍集群前两种。standalone模式类似于单机伪分布式模式，如果是使用spark-shell交互运行spark任务或者使用run-example运行官方示例，driver是运行在master节点上的。如果使用spark-submit进行任务

2017-04-24 10:41:22 2673

原创 MapReduce1.0 VS Yarn

简答来说，经典的MapReduce中主要有两个角色JobTracker和TaskTracker， JobTracker负责作业调度和任务进度监督，追踪任务，任务登记等。 TaskTracker运行作业划分后的任务，且对map任务和reduce任务，都有固定数量的任务槽。下面是MapReduce的数据流和控制流图示： yarn将JobTracker中两种角色分为两个独立的守护进程：管理集群上

2017-04-24 10:18:40 939

原创 spark之广播共享变量broadcast

广播变量用来把变量在所有节点的内存之间进行共享，这样的方式尤其是在分布式集群中进行并行计算提供了很大的便利，如果数据集很大，需要分布式存储到各个DataNode上，根据“计算向数据靠近”的原则，将每一个DataNode上都要使用的变量（类似全局变量）进行广播，而不是在每一个DataNode上产生一个副本，比如利用sc.broadcast将聚类中心设置为一个只读变量，并广播给每一个集群中的机器进行共享

2017-04-22 17:53:37 4638

原创 kaggle入门（python数据处理）

目前入坑机器学习machine learning，kaggle算是最著名的机器学习比赛（其实主要是特征工程），所以如果想走算法岗，光理论肯定不行，一定要实战，就拿kaggle开刀了，不求多好的结果，但求通过参与的过程对数据挖掘有更好的贴近数据项目的体验，最近与DC的Oliver组成了jo-team。开始一步一步踏坑了，下面是我看到的一些数据处理以及训练的方法，主要是python的。best paac

2017-04-03 22:34:45 8374

原创交叉验证等验证方法

一.交叉验证法 1.“交叉验证法”（cross validation）先将数据集D划分为k个大小相似的互斥子集，即D=D1并D2并D3…并Dk，每个子集之间没有交集。 2.然后每次用k-1个子集的并集作为训练集，余下的那个作为测试集，这样得到k组训练/测试集。 3.可以进行k次训练和测试，最终返回的是这k个结果的均值。 4.可以随机使用不同的划分多次，比如10次10折交叉验证通常把交叉验

2017-04-03 22:19:04 6602

转载参考美团的"机器学习中的数据清洗与特征处理综述"(转载)

综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分，即“数据清洗=>特征，标注数据生成=>模型学习=>模型应用”中的前两个步骤。灰色框中蓝色箭头对应的是离线处理部分。主要工作是从原始数据，如文本、图像或者应用数据中清洗出特征数据和标注数据。对清洗出的特征和标注数据进行处理，例如样本采样，样本调权，异常点去除，特征归一化处理，特征变化

2017-03-24 13:10:13 650

原创 Java二进制运算

位运算：左移位:<</* 00000001 << 1 = 00000010 */1 << 1 == 2 /* 00000001 << 3 = 00001000 */1 << 3 == 8右移位:>> 是有符号操作符，使用最高位来表示数值的正负，负数的最高位永远为1。一个以1开头的二进制数移位后还将以1开头，一个以0开头的二进制树移位后还将以0开头。/* 11111111 11111111 11

2017-03-12 16:09:32 3587

原创 Eclipse远程连接Hadoop

先说下我自己laptop没有hadoop环境（虚拟机中有伪分布式，不过是为了熟悉hadoop啦），也没有像网上那样用cygwin，主要得益于实验室服务器上师兄之前搭建了hadoop集群，之前一直用xshell连接的。不过后面要写mapreduce程序的时候在本地写再打包成jar放到hadoop上跑就没法本地运行测试了。所以这里是记录：本机eclipse远程连接hadoop集群，使用hadoop2x-

2017-03-12 16:00:14 1827

原创 TensorFlow保存和加载训练模型

对于机器学习，尤其是深度学习DL的算法，模型训练可能很耗时，几个小时或者几天，所以如果是测试模块出了问题，每次都要重新运行就显得很浪费时间，所以如果训练部分没有问题，那么可以直接将训练的模型保存起来，然后下次运行直接加载模型，然后进行测试很方便。在tensorflow中保存（save）和加载（restore）模型的类是tf.train.Saver()，其中变量保存的是key-value，不传参数默认

2017-03-07 11:13:33 16478

原创 Java集合框架详解之一点小总结

趁着最近比较闲，静下心来准备把关于集合框架的东西好好整理一下，边学边整理。近阶段先是整理整体的知识点，一些接口，一些继承类以及它们的特性,用法，后续还会有一些常用的，比较重要的类的jdk源码剖析。Java集合框架详解之继承set接口： Java集合框架详解之继承list接口： Java集合框架详解之继承queue接口： Java集合框架详解之继承map接口：Java集合框架图插入一段：Arra

2017-02-19 20:00:55 939

原创 Java集合框架详解之继承map接口

趁着最近比较闲，静下心来准备把关于集合框架的东西好好整理一下，边学边整理。近阶段先是整理整体的知识点，一些接口，一些继承类以及它们的特性,用法，后续还会有一些常用的，比较重要的类的jdk源码剖析。Java集合框架详解之继承set接口： Java集合框架详解之继承list接口： Java集合框架详解之继承queue接口： Java集合框架详解之继承map接口：map接口： Map 提供 Key

2017-02-19 19:57:53 7727 3

原创 Java集合框架详解之继承queue接口

趁着最近比较闲，静下心来准备把关于集合框架的东西好好整理一下，边学边整理。近阶段先是整理整体的知识点，一些接口，一些继承类以及它们的特性,用法，后续还会有一些常用的，比较重要的类的jdk源码剖析。Java集合框架详解之继承set接口： Java集合框架详解之继承list接口： Java集合框架详解之继承queue接口： Java集合框架详解之继承map接口：继承queue接口Queue接口与L

2017-02-19 19:55:01 2567

原创 Java集合框架详解之继承list接口

趁着最近比较闲，静下心来准备把关于集合框架的东西好好整理一下，边学边整理。近阶段先是整理整体的知识点，一些接口，一些继承类以及它们的特性,用法，后续还会有一些常用的，比较重要的类的jdk源码剖析。Java集合框架详解之继承set接口： Java集合框架详解之继承list接口： Java集合框架详解之继承queue接口： Java集合框架详解之继承map接口：继承list接口list中允许有相同

2017-02-19 19:52:15 2418 1

原创 Java集合框架详解之继承set接口

Java集合框架详解趁着最近比较闲，静下心来准备把关于集合框架的东西好好整理一下，边学边整理。近阶段先是整理整体的知识点，一些接口，一些继承类以及它们的特性,用法，后续还会有一些常用的，比较重要的类的jdk源码剖析。首先在集合框架的类继承体系中包含两个最顶层的接口：collection和map接口 1）collection表示纯数据；map表示key-value键值对 2）集合框架的两个“标准

2017-02-19 19:44:37 1762

原创深度学习之Windows下安装faster-rcnn

windows安装配置faster-rcnn

2017-02-04 21:26:28 8869 10

原创深度学习之Windows下安装caffe及配置Python和matlab接口

Win10下安装caffe的GPU版本之step four：我是在win10+GTX950m+VS2013,matlab接口我是matlab2016a，Python接口我是pycharm5.0.3

2017-02-04 21:17:54 26236 12

原创深度学习之Ubuntu下安装caffe和TensorFlow的cpu版本

当然如果你仅仅是初学者就只想快速感受一下caffe和TensorFlow的魅力，那么可以在Ubuntu下安装cpu版本跑几个demo看看。

2017-02-04 21:09:29 8898

原创深度学习准备之Ubuntu下装显卡驱动

装显卡驱动之step two（很多同学都是因为这步而放弃深度学习的）：这也是使用深度学习框架GPU版本的关键，无奈装了几天没装好，大部分时间都是停在这一步，只能放弃，其实这里与我的电脑显卡设置有关

2017-02-04 21:04:47 333551 7

原创深度学习准备之安装双系统

在win10下安装Ubuntu16.04双系统，成功安装并设置引导，因为要进行深度学习方面的研究，需要借助caffe，TensorFlow等深度学习框架，在Ubuntu系统中是十分方便的。

2017-02-04 20:51:36 15141

转载 spring 学习攻略

转载自：http://geek.csdn.net/news/detail/115029刚刚进入研一，想想先把Java的基础打扎实，然后捧着一本厚厚的spring攻略在啃，看了很多了，下面讲一下主要的技术点，spring还是一个比较轻量级的框架，相比于之前的ssh（Struts+Spring+Hibernate）现在更多的公司选择了更加轻的ssm（Spring+SpringMVC+mybat

2016-12-04 22:23:49 2535

转载 Kafka学习

本文转载自：http://www.58maisui.com/2016/11/15/883/Kafka 架构简介 Kafka是一个开源的、分布式的、可分区的、可复制的基于日志提交的发布订阅消息系统。它具备以下特点：·消息持久化：为了从大数据中获取有价值的信息，任何信息的丢失都是负担不起的。Kafka使用了O(1)的磁盘结构设计，这样做即便是在要存储大体积的数据时也是可以提供

2016-11-28 18:32:57 947

原创 bigdata之HDFS

学习本篇博客需要有hadoop的基础，可以先看我的上一篇博客简单介绍hadoop，http://blog.csdn.net/jasonzhangoo/article/details/52718729分布式文件系统即HDFS，在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，另一类叫“从

2016-10-01 22:15:51 742

原创 bigdata之hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：• 高可靠性• 高效性• 高可扩展性• 高容错性• 成本低• 运行在Linux平台上• 支持多种编程语言Hadoop在企业中的应用架构Hadoop项目结构

2016-10-01 21:44:00 465

原创 TCP

Welcome to TCPTCP协议是网络中的比较重要的一个协议，http协议是建立在tcp基础之上的，所以想要学习网络编程，尤其是其中的http网络传输等方面需要我们掌握好tcp协议，而tcp中比较重要的是三次握手建立连接以及四次挥手断开连接。

2016-10-01 21:03:32 638

安装faster-rcnn需要的external文件库

Google的protobuf，可以下载安装

numpy在win10上的exe安装包，很方便

libsvm工具包，兼容Python2.7

空空如也