自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (4)
  • 收藏
  • 关注

原创 java中string,stringbuffer和stringbuilder的问题

关于StringBuilder,一般同学只简单记住了,字符串拼接要用StringBuilder,不要用+,也不要用StringBuffer,然后性能就是最好的了,真的吗吗吗吗? 1.初始长度好重要,值得说四次。StringBuilder的内部有一个char[], 不断的append()就是不断的往char[]里填东西的过程。new StringBuilder() 时char[]的默...

2018-12-20 14:41:26 385

转载 Java API 与HBase交互实例

HBase提供了Java Api的访问接口,掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要本篇blog转载自:https://blog.csdn.net/lifuxiangcaohui/article/details/39997391主要是对于使用java如何连接HBase以及CRUD的相关操作的整理。[html] view plain copyimport java.io.IOEx...

2018-06-06 11:06:56 467

原创 Spark性能调优之数据本地化

    本篇blog讲述实际spark项目中调优的一个小技巧,调节数据本地化的等待时长。    Spark在Driver上,对Application的每一个stage的task,进行分配之前,都会计算出每个task要计算的是哪个分片数据,RDD的某个partition;Spark的task分配算法,优先,会希望每个task正好分配到它要计算的数据所在的节点,这样的话,就不用在网络间传输数据;   ...

2018-02-22 23:15:20 1159

原创 Spark性能调优之广播大变量

    本篇blog讲述在实际spark项目中可能需要注意的一个性能调优的一个点,就是broadcast大变量。    默认的在spark作业中,task执行的算子中,使用了外部的变量,每个task都会获取一份变量的副本,有什么缺点呢?<br>map,本身是不小,存放数据的一个单位是Entry,还有可能会用链表的格式的来存放Entry链条。所以map是比较消耗内存的数据格式。比如,ma...

2018-02-22 22:05:57 1936

转载 美团技术团队:实例详解机器学习如何解决问题(转载)

原文  http://tech.meituan.com/mt-mlinaction-how-to-ml.html前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工 业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学

2017-10-21 15:38:51 626

原创 Hadoop- Writable, WritableCompareable, WritableComparator

Hadoop-序列化序列化:对象的序列化用于将一个对象编码成字节流,以及从字节流中重新构建对象。将一个对象编码成一个字节流称为序列化该对象。序列化三种主要的用途:1.作为一种持久化格式。2.作为一种通信的数据格式。3.作为一种拷贝、克隆机制。Hadoop序列化机制:Hadoop序列化机制是调用的write方法将对象序列化到流中,调用readFiles方法进行反序列化。java序列化机制与Hadoop

2017-10-03 22:31:27 1023

原创 Hadoop启动dfs时报错Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namen

Hadoop2.7.4安装之后./sbin/start-dfs.sh报错:Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.Starting namenodes on []Error: Cannot

2017-09-07 18:42:08 7159 2

原创 在HDFS中创建目录报错WARN util.NativeCodeLoader: Unable to load native-hadoop library for your pla

Hadoop2.7.4在安装成功后,start-dfs.sh启动后,在HDFS创建目录报错:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable在/etc/profile

2017-09-07 18:34:05 4992 1

转载 回归评价指标:均方误差根(RMSE)和R平方(R2)

做回归分析,常用的误差主要有均方误差根(RMSE)和R-平方(R2)。RMSE是预测值与真实值的误差平方根的均值。这种度量方法很流行(Netflix机器学习比赛的评价方法),是一种定量的权衡方法。 ””’ 均方误差根 ”’ 过拟合加入L1正则化和L2正则化,岭回归

2017-08-30 21:09:16 173814 5

转载 GBDT(梯度提升决策树)剖析

在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:              GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g

2017-07-12 23:29:51 846

原创 xgboost算法原理与实战

xgboost算法原理与实战之前一直有听说GBM,GBDT(Gradient Boost Decision Tree)渐进梯度决策树 GBRT(Gradient Boost RegressionTree)渐进梯度回归树是GBDT的一种,因为GBDT核心是累加所有树的结果作为最终结果,而分类树的结果是没法累加的,所以GBDT中的树都是回归树,不是分类树。 XGBoost(eXtreme Gradi

2017-06-11 19:12:25 33390 3

原创 spark部署模式解析

单机上可以本地模式运行 单机上伪分布式模式运行 集群上standalone模式,spark on yarn模式,spark on mesos模式,这里主要介绍集群前两种。standalone模式类似于单机伪分布式模式,如果是使用spark-shell交互运行spark任务或者使用run-example运行官方示例,driver是运行在master节点上的。如果使用spark-submit进行任务

2017-04-24 10:41:22 2673

原创 MapReduce1.0 VS Yarn

简答来说,经典的MapReduce中主要有两个角色JobTracker和TaskTracker, JobTracker负责作业调度和任务进度监督,追踪任务,任务登记等。 TaskTracker运行作业划分后的任务,且对map任务和reduce任务,都有固定数量的任务槽。下面是MapReduce的数据流和控制流图示: yarn将JobTracker中两种角色分为两个独立的守护进程: 管理集群上

2017-04-24 10:18:40 939

原创 spark之广播共享变量broadcast

广播变量用来把变量在所有节点的内存之间进行共享,这样的方式尤其是在分布式集群中进行并行计算提供了很大的便利,如果数据集很大,需要分布式存储到各个DataNode上,根据“计算向数据靠近”的原则,将每一个DataNode上都要使用的变量(类似全局变量)进行广播,而不是在每一个DataNode上产生一个副本,比如利用sc.broadcast将聚类中心设置为一个只读变量,并广播给每一个集群中的机器进行共享

2017-04-22 17:53:37 4638

原创 kaggle入门(python数据处理)

目前入坑机器学习machine learning,kaggle算是最著名的机器学习比赛(其实主要是特征工程),所以如果想走算法岗,光理论肯定不行,一定要实战,就拿kaggle开刀了,不求多好的结果,但求通过参与的过程对数据挖掘有更好的贴近数据项目的体验,最近与DC的Oliver组成了jo-team。开始一步一步踏坑了,下面是我看到的一些数据处理以及训练的方法,主要是python的。best paac

2017-04-03 22:34:45 8374

原创 交叉验证等验证方法

一.交叉验证法 1.“交叉验证法”(cross validation)先将数据集D划分为k个大小相似的互斥子集,即D=D1并D2并D3…并Dk,每个子集之间没有交集。 2.然后每次用k-1个子集的并集作为训练集,余下的那个作为测试集,这样得到k组训练/测试集。 3.可以进行k次训练和测试,最终返回的是这k个结果的均值。 4.可以随机使用不同的划分多次,比如10次10折交叉验证 通常把交叉验

2017-04-03 22:19:04 6602

转载 参考美团的"机器学习中的数据清洗与特征处理综述"(转载)

综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。灰色框中蓝色箭头对应的是离线处理部分。主要工作是从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。对清洗出的特征和标注数据进行处理,例如样本采样,样本调权,异常点去除,特征归一化处理,特征变化

2017-03-24 13:10:13 650

原创 Java二进制运算

位运算:左移位:<</* 00000001 << 1 = 00000010 */1 << 1 == 2 /* 00000001 << 3 = 00001000 */1 << 3 == 8右移位:>> 是有符号操作符,使用最高位来表示数值的正负,负数的最高位永远为1。一个以1开头的二进制数移位后还将以1开头,一个以0开头的二进制树移位后还将以0开头。/* 11111111 11111111 11

2017-03-12 16:09:32 3587

原创 Eclipse远程连接Hadoop

先说下我自己laptop没有hadoop环境(虚拟机中有伪分布式,不过是为了熟悉hadoop啦),也没有像网上那样用cygwin,主要得益于实验室服务器上师兄之前搭建了hadoop集群,之前一直用xshell连接的。不过后面要写mapreduce程序的时候在本地写再打包成jar放到hadoop上跑就没法本地运行测试了。所以这里是记录:本机eclipse远程连接hadoop集群,使用hadoop2x-

2017-03-12 16:00:14 1827

原创 TensorFlow保存和加载训练模型

对于机器学习,尤其是深度学习DL的算法,模型训练可能很耗时,几个小时或者几天,所以如果是测试模块出了问题,每次都要重新运行就显得很浪费时间,所以如果训练部分没有问题,那么可以直接将训练的模型保存起来,然后下次运行直接加载模型,然后进行测试很方便。在tensorflow中保存(save)和加载(restore)模型的类是tf.train.Saver(),其中变量保存的是key-value,不传参数默认

2017-03-07 11:13:33 16478

原创 Java集合框架详解之一点小总结

趁着最近比较闲,静下心来准备把关于集合框架的东西好好整理一下,边学边整理。近阶段先是整理整体的知识点,一些接口,一些继承类以及它们的特性,用法,后续还会有一些常用的,比较重要的类的jdk源码剖析。Java集合框架详解之继承set接口: Java集合框架详解之继承list接口: Java集合框架详解之继承queue接口: Java集合框架详解之继承map接口:Java集合框架图插入一段:Arra

2017-02-19 20:00:55 939

原创 Java集合框架详解之继承map接口

趁着最近比较闲,静下心来准备把关于集合框架的东西好好整理一下,边学边整理。近阶段先是整理整体的知识点,一些接口,一些继承类以及它们的特性,用法,后续还会有一些常用的,比较重要的类的jdk源码剖析。Java集合框架详解之继承set接口: Java集合框架详解之继承list接口: Java集合框架详解之继承queue接口: Java集合框架详解之继承map接口:map接口: Map 提供 Key

2017-02-19 19:57:53 7727 3

原创 Java集合框架详解之继承queue接口

趁着最近比较闲,静下心来准备把关于集合框架的东西好好整理一下,边学边整理。近阶段先是整理整体的知识点,一些接口,一些继承类以及它们的特性,用法,后续还会有一些常用的,比较重要的类的jdk源码剖析。Java集合框架详解之继承set接口: Java集合框架详解之继承list接口: Java集合框架详解之继承queue接口: Java集合框架详解之继承map接口:继承queue接口Queue接口与L

2017-02-19 19:55:01 2567

原创 Java集合框架详解之继承list接口

趁着最近比较闲,静下心来准备把关于集合框架的东西好好整理一下,边学边整理。近阶段先是整理整体的知识点,一些接口,一些继承类以及它们的特性,用法,后续还会有一些常用的,比较重要的类的jdk源码剖析。Java集合框架详解之继承set接口: Java集合框架详解之继承list接口: Java集合框架详解之继承queue接口: Java集合框架详解之继承map接口:继承list接口list中允许有相同

2017-02-19 19:52:15 2418 1

原创 Java集合框架详解之继承set接口

Java集合框架详解趁着最近比较闲,静下心来准备把关于集合框架的东西好好整理一下,边学边整理。近阶段先是整理整体的知识点,一些接口,一些继承类以及它们的特性,用法,后续还会有一些常用的,比较重要的类的jdk源码剖析。首先在集合框架的类继承体系中包含两个最顶层的接口:collection和map接口 1)collection表示纯数据;map表示key-value键值对 2)集合框架的两个“标准

2017-02-19 19:44:37 1762

原创 深度学习之Windows下安装faster-rcnn

windows安装配置faster-rcnn

2017-02-04 21:26:28 8869 10

原创 深度学习之Windows下安装caffe及配置Python和matlab接口

Win10下安装caffe的GPU版本之step four:我是在win10+GTX950m+VS2013,matlab接口我是matlab2016a,Python接口我是pycharm5.0.3

2017-02-04 21:17:54 26236 12

原创 深度学习之Ubuntu下安装caffe和TensorFlow的cpu版本

当然如果你仅仅是初学者就只想快速感受一下caffe和TensorFlow的魅力,那么可以在Ubuntu下安装cpu版本跑几个demo看看。

2017-02-04 21:09:29 8898

原创 深度学习准备之Ubuntu下装显卡驱动

装显卡驱动之step two(很多同学都是因为这步而放弃深度学习的):这也是使用深度学习框架GPU版本的关键,无奈装了几天没装好,大部分时间都是停在这一步,只能放弃,其实这里与我的电脑显卡设置有关

2017-02-04 21:04:47 333551 7

原创 深度学习准备之安装双系统

在win10下安装Ubuntu16.04双系统,成功安装并设置引导,因为要进行深度学习方面的研究,需要借助caffe,TensorFlow等深度学习框架,在Ubuntu系统中是十分方便的。

2017-02-04 20:51:36 15141

转载 spring 学习攻略

转载自:http://geek.csdn.net/news/detail/115029刚刚进入研一,想想先把Java的基础打扎实,然后捧着一本厚厚的spring攻略在啃,看了很多了,下面讲一下主要的技术点,spring还是一个比较轻量级的框架,相比于之前的ssh(Struts+Spring+Hibernate)现在更多的公司选择了更加轻的ssm(Spring+SpringMVC+mybat

2016-12-04 22:23:49 2535

转载 Kafka学习

本文转载自:http://www.58maisui.com/2016/11/15/883/Kafka 架构简介 Kafka是一个开源的、分布式的、可分区的、可复制的基于日志提交的发布订阅消息系统。它具备以下特点:·消息持久化: 为了从大数据中获取有价值的信息,任何信息的丢失都是负担不起的。Kafka使用了O(1)的磁盘结构设计,这样做即便是在要存储大体积的数据时也是可以提供

2016-11-28 18:32:57 947

原创 bigdata之HDFS

学习本篇博客需要有hadoop的基础,可以先看我的上一篇博客简单介绍hadoop,http://blog.csdn.net/jasonzhangoo/article/details/52718729分布式文件系统即HDFS,在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从

2016-10-01 22:15:51 742

原创 bigdata之hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:•   高可靠性•   高效性•   高可扩展性•   高容错性•   成本低•   运行在Linux平台上•   支持多种编程语言Hadoop在企业中的应用架构Hadoop项目结构

2016-10-01 21:44:00 465

原创 TCP

Welcome to TCPTCP协议是网络中的比较重要的一个协议,http协议是建立在tcp基础之上的,所以想要学习网络编程,尤其是其中的http网络传输等方面需要我们掌握好tcp协议,而tcp中比较重要的是三次握手建立连接以及四次挥手断开连接。

2016-10-01 21:03:32 638

安装faster-rcnn需要的external文件库

这里是CUDA8.0使用的external文件库,可以直接使用

2017-02-03

Google的protobuf,可以下载安装

因为可能会出现No module named google.protobuf.internal的问题,但是缺少的这个包又比较难找,这里可以直接下载安装,简单好用

2017-02-03

numpy在win10上的exe安装包,很方便

这个是很难找到的win10下的安装包,是exe格式的安装包,就和普通安装软件没什么区别,在Windows下还在为无法使用numpy而困扰的同学可以下载,简单好用

2016-12-07

libsvm工具包,兼容Python2.7

大家免费享用吧

2016-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除