自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Vi的博客

走的越远,离自己越近

  • 博客(99)
  • 收藏
  • 关注

原创 数据预处理—归一化(连续值和离散值)

归一化原因1. 如果多个特征之间数值差异较大,那么收敛速度会很慢。如吴恩达老师在《机器学习》中给出的例子:x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快2. 在涉及到距离计算的模型中,若多个特征之间数值差异较大,那么数值小的特征

2017-08-07 18:27:23 18623 2

原创 Scala——字符串

/** * Created by vincentliu on 7/18/2017. */object StringType { /** * scala中的字符串类型其实是Java Strng,它本身没有String * scala中String是不可变的常量,若要创建可修改的字符串,可以使用String Builder类 * java.String 中常用的方法,

2017-07-18 17:57:30 812

原创 Scala——正则表达式

import scala.util.matching.Regex/** * Created by vincentliu on 7/18/2017. */object pattern { def main(args: Array[String]): Unit = { val pattern = "Scala".r val str = "Scala is Scalable a

2017-07-18 17:57:05 474

原创 Scala——函数

import java.util.Dateimport java.util.concurrent.atomic.DoubleAccumulator/** * Created by vincentliu on 7/17/2017. */object HelloWorld { def main(args: Array[String]): Unit = { println("=====

2017-07-18 17:56:32 359

原创 Scala——提取器

/** * Created by vincentliu on 7/18/2017. */object Extractor{ def main(args: Array[String]): Unit = { println ("Apply 方法 : " + apply("Zara", "gmail.com")); println ("Unapply 方法 : " + una

2017-07-18 17:55:53 318

原创 Scala——异常

import java.io.{FileNotFoundException, FileReader, IOException}/** * Created by vincentliu on 7/18/2017. */object ex { def main(args: Array[String]): Unit = { try{ val f = new FileReade

2017-07-18 17:55:14 402

原创 Scala——集合

/** * Created by vincentliu on 7/18/2017. */object Collect { def main(args: Array[String]): Unit = { /** * List 线性集合, 可以有重复元素 * 是不可变的 */ val x = List(1, 2, 3, 4) //

2017-07-18 17:54:51 373

原创 Scala——闭包

/** * Created by vincentliu on 7/18/2017. */object Closure { def main(args: Array[String]): Unit = { println(multiplier(1)) println(multiplier(2)) } var factor = 3 // var 声明的对象是可变的

2017-07-18 17:53:58 258

原创 Scala——数组

/** * Created by vincentliu on 7/18/2017. */import Array._object Arr { def main(args: Array[String]): Unit = { // 声明数组 var z: Array[String] = new Array[String](3) // 或者 // var z =

2017-07-18 17:52:38 408

原创 决策树——python(机器学习实战)

原理步骤分解遍历数据集 循环计算提取每个特征的香农熵和信息增益 选取信息增益最大的特征 再递归计算剩余的特征顺序 将特征排序 并将分类结果序列化保存到磁盘当中递归构建决策树使用Matplotlib注解绘制树形图完整代码原理 通过提问的方式,根据不同的答案选择不同的分支, 完成不同的分类步骤分解1.遍历数据集, 循环计算提取每个特征的香农熵和信息增益, 选取信息增益最大的特征。 再递归计算

2017-07-17 13:25:58 866

原创 Sqoop ERROR tool.ImportTool: Imported Failed: There is no column found in the target table

Sqoop从oracle中导入数据到hive时,若在导入表不属于指定用户, 则在导入的表名前需要添加大写的所属用户的用户名 如: sqoop import --hive-import --connect "jdbc:oracle:thin:@(DESCRIPTION=(ADDRESS_LIST=(ADDRESS=(PROTOCOL=TCP)(HOST=xx.xxx.xx.xxx)(PORT=152

2017-07-17 09:26:15 8055

原创 kNN算法——python(机器学习实战)

原理源码加权kNN高斯函数交叉验证原理kNN(k近邻算法)的基本思想就是选择距离待分类点最近的K个点,统计这K个点中出现的分类的概率, 出现概率最高的分类即为待分类点的分类源码from numpy import *import operatordef createDataSet(): # create data set group = array([[1.0, 1.1], [

2017-07-17 09:17:31 612

原创 python2和python3 Exception

lambda:python2中是:lambda (x,y):x>y python3中改为了:lambda x_y: x_y[0] > x_y[1]) dict:python2中是:dict.iteritems() python3中是:dict.items()list的extend和append:a.extend([1,2]) ==>> [1, 2, '3', '1', 1, 2]a.appen

2017-07-17 09:07:38 602

原创 协同过滤算法

协同过滤算法简介协同过滤算法常用语推荐系统中,旨在填补用户项目关联矩阵的缺失条目,spark.mllib目前支持基于模型的协同过滤,其中用户和产品由一小组潜在因素描述,可用于预测缺失的条目。spark.mllib使用交替最小二乘法(ALS)算法来学习这些潜在因素。原理(先占位,等我这两天搞懂了就填上)低秩矩阵最小二乘法Python实现参数 参数 含义 numBlocks 用于并行计算

2017-07-12 20:03:07 705

原创 K-Means及Spark实现Kmeans算法

K-means步骤关键步骤聚类个数K的选择初始聚类中心点的选择MLlib的K-means实现参数Spark_K-Means_PythonK-means步骤选择K个点作为初始聚类中心计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中去。计算距离常用欧几里得距离公式,也叫欧氏距离。查看距离的计算方法重新计算每个聚类中所有点的平均值,并将其作为新的聚类中心点

2017-07-12 15:48:48 10460 1

原创 Spark中的Pi Estimation

源码思路源码from pyspark.sql import SparkSessionfrom random import randomfrom operator import add# Pi Estimationdef inside(p): x, y = random(), random() # 随机生成x,y坐标,在圆内或圆上则返回True return x*

2017-07-11 15:31:53 670

原创 spark-submit 参数

Spark standalone with cluster deploy mode onlySpark standalone and YARN onlyYARN-only 参数 含义 –master MASTER_URL spark://host:port, mesos://host:port, yarn, or local –deploy-mode DEPLOY_MODE

2017-07-06 11:18:47 442

原创 Oozie bundle定时调度多job

包含关系实例workflow1xmlworkflow2xmlcoordinator1xmlcoordinator2xmlbundlexmljobproperties包含关系 几个包含关系: action∈workflow∈coordinatorㄈbundle 就是workflow可以包含多可action,通过coordinator来定时调度workflow,通过bund

2017-07-06 10:09:11 3518 1

原创 Oozie调度sqoop导入hive

command模式workflow.xml的编写: 红框内的内容一定要写,否则数据只能导入到hdfs上,不能导入hive中。 hive.metastore.uris的值在hive-site.xml中查找将sqoop/lib下的所有jar上传到hdfs上的ShareLib文件夹arg模式

2017-06-28 14:34:25 1331

原创 Oozie调用shell脚本

job.properties的通用配置注:这里nameservice1 是hadoop中hdfs-site.xml中的dfs.nameservices。cm:8032是yarn-site.xml中的yarn.resourcemanager.addressworkflow.xml配置执行shell程序* example里的是输出一个字符串,所以exec的value是echo* 如果要调用其他的she

2017-06-27 17:21:06 5292

原创 Oozie运行ExampleClassNotFound异常

Oozie运行ExampleClassNotFound异常: 原因: Jar包未找到问题解决方法:1. 把hadoop下的jar包上传到hdfs上2. 再在job的job.properties中设置jar包文件夹路径,如下:设置访问jar的方法:1. 在每一个workflow文件夹下建lib文件夹,把需要的jar放在里面, job会将需要的jar自动加载到workflow的cla

2017-06-27 14:04:36 553 1

原创 从小到大插入排序

插入排序的基本思想就是把元素分为已排序和未排序两部分, 依次取出未排序部分的元素插入排序部分中public class Insertion_Sort { public static void main(String[] args) { // 待排序序列 int[] nums = {1, 6, 3, 8, 12, 9, 7}; // 从序列第二个数开

2017-06-17 15:11:50 902

转载 Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

原文链接:http://www.csdn.net/article/2014-02-17/2818431-HDFS+MapReduce+Hbase

2017-06-05 15:04:50 303

原创 Shell中awk文本处理工具和sed文本处理工具

awk编程语言数据处理引擎语法格式示例常用的内建变量示例使用正则表达式示例指定分割指定输出字段示例Sed流式编辑器文本过滤语法格式编辑指令写法编辑指令格式常用的操作类型示例使用正则表达式awk编程语言/数据处理引擎基于模式匹配检查输入将期望的匹配结果print到屏幕语法格式awk '模式{操作}' 文件1 文件2 ......示例awk 'NR==1 {prin

2017-05-29 10:54:26 353

原创 Shell的条件判断结构

if语句结构单分支双分支的if应用单分支if语句结构双分支if语句结构多分支if语句结构for循环语句结构if语句结构单分支/双分支的if应用单分支if语句结构语法:if 条件测试 then 命令序列fi双分支if语句结构语法:if 条件测试 then 命令序列1 else 命令序列2fi多分支if语句结构语法:if 条件测试1 then 命令序列1

2017-05-28 23:51:11 825

原创 Shell条件测试

测试的本质操作规范文件状态的检测存在及识别权限的检测整数值比较字符串匹配整数值比较字符串匹配测试的本质* 是一条操作命令* 根据$?返回值来判断条件是否成立操作规范* 格式1:test 条件表达式* 格式2:[条件表达式]文件状态的检测存在及识别 操作符 含义 -e 目标是否存在(Exist) -d 是否为目录(Directory) -f 是否为

2017-05-28 22:57:28 298

原创 Shell中的字符串处理

子串截取操作路径分割使用expr命令使用表达式字符串替换使用使用随机字符串子串截取操作路径分割命令:dirname命令、basename命令使用expr命令格式:expr substr $var1 起始位置 截取长度 (第一个字符的下标为1)示例:var="zxcvb"; expr substr $var 1 3使用${}表达式格式:${var1:起始位置:截取长度} (第一个字符的

2017-05-28 15:47:48 765

原创 Shell中的数值运算及处理

整数运算操作expr数值1 运算符 数值2几个数值处理技巧变量递更处理使用随机数生成数字序列小数运算操作整数运算操作exprexpr 数值1 运算符 数值2注:使用*使需要转义$[数值1 运算符 数值2]如果数值是变量的话,直接使用变量名,如 num1=10;num2=20;echo $[num1-num2];使用*时不需要转义几个数值处理技巧变量递更处理格式:let 变量++,

2017-05-28 15:11:11 697

原创 Shell中的变量

变量的基本操作定义及赋值引用变量双引号单引号和反撇号双引号单引号反撇号或者常见的环境变量系统赋值用户操作其他特殊变量变量的基本操作定义及赋值格式:变量名 = 变量值引用变量格式:$变量名、${变量名}双引号、单引号和反撇号(`)双引号允许引用(即包含变量)、\转义单引号不允许引用和转义反撇号(`)或者$()``中间跟的是命令常见的环境变量用来记录/设置运行参数系统赋值U

2017-05-28 14:38:39 309

原创 多条Shell命令的组合连接

管道操作符重定向符命令间的逻辑关系管道操作符:|前一条命令的输出作为后一条命令的参数重定向符 类型 操作符 用途 重定向输入 < 从指定文件读取数据,而不是从键盘输入 重定向输出 >、>> 将输出结果覆盖、追加到指定文件 标准错误输出 2>、2>> 将错误信息覆盖、追加到指定文件 混合输出 &>、&>> 将标准输出和错误信息覆盖、追加到

2017-05-28 13:56:11 5177 1

原创 Centos7下各种配置集合

Centos7下配置pppoe可以连接有线网http://www.linuxidc.com/Linux/2015-01/111600.htm , 然后yum -y install NetworkManager-tui, 然后sudo nmtui配置ss客户端http://www.valentine9.space/index.php/archives/62/配置git-sshhttps://segmentfaul

2017-05-25 15:37:33 1027

原创 SpringBoot上传文件

Spring官方文档教程 Github完整项目传送门编写Maven配置文件,添加依赖最后一个依赖是解析HTML文件,官方文档里好像没添加这个依赖,但是不添加的话会报错<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schema

2017-05-17 23:47:25 495

原创 Maven搭建Spring Boot JDBC

编写pom.xml添加依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/mav

2017-05-17 20:30:33 3154

原创 使用git将本地项目上传到github

在Github上创建新的repository 在项目文件夹中初始化Git版本库git init将文件添加至暂存区git add .“.”代表所有文件, 也可指定想要添加的文件将暂存区文件提交到本地仓库git commit -m "这里写注释语句"将本地仓库文件关联到远程仓库git remote add origin github项目地址 在这一步时如果出现错误:fatal:remote orig

2017-05-17 09:49:49 307

原创 SpringBoot定时任务SchedulingTasks

DEMO源自Spring官方文档使用IDEA+MAVEN搭建项目编写pom.xml配置文件,添加依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/

2017-05-16 20:03:09 893

原创 快速搭建RESTful Web Service(Spring Boot)

注:源自Spring官方文档的DEMO IDEA+MAVEN搭建该项目编写pom.xml,自动添加依赖文利用MAVEN可以解决jar版本冲突问题<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h

2017-05-16 11:47:26 732

转载 UML类图几种关系的总结(依赖、聚合、组合、泛化、实现、关联)

在UML类图中,常见的有以下几种关系:泛化(Generalization), 实现(Realization),关联(Association),聚合(Aggregation),组合(Composition),依赖(Dependency)1.泛化(Generalization)【泛化关系】:是一种继承关系,它指定了子类如何特化父类的所有特征和行为例如:老虎是动物的一种. 【箭头指向】:带三角箭头的实

2017-05-01 10:09:28 377

原创 怎样使HashMap安全

将HashMap替换为HashTable,但效率较低,因为HashTable每个方法都是Synchronized的;用Collection类的synchronizedMap方法包装一下返回一个新的Map;使用ConcurrentHashMap,它使用分段锁,即将修改的部分锁住,所以效率比HashTable高

2017-04-27 09:57:29 785

原创 JAVA中Throws和Throw的区别

Throw是语句抛出一个异常,写于方法内部;语法:throw (异常对象); throw e;Throws是方法可能抛出异常的声明;语法:[(修饰符)](返回值类型)(方法名)([参数列表])[throws(异常类)]{......} public void doA(int a) throws Exception1,Exception3{......}1、t

2017-04-27 09:46:50 1686

转载 JAVA常用设计模式

1.单例设计模式 所谓单例设计模式简单说就是无论程序如何运行,采用单例设计模式的类(Singleton类)永远只会有一个实例化对象产生。具体实现步骤如下: (1) 将采用单例设计模式的类的构造方法私有化(采用private修饰)。 (2) 在其内部产生该类的实例化对象,并将其封装成private static类型。 (3) 定义一个静态方法返

2017-04-20 11:16:38 813

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除