自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

将登太行雪满山

将登太行雪满山

  • 博客(23)
  • 收藏
  • 关注

原创 java_多线程简介

综述多线程是非常重要的内容,同时又非常深入,这里对以前了解的内容做了一下总结,后续有机会还要继续深入的学习。进程和线程进程 进程有独立的地址空间,占据资源任一时刻,CPU总是运行一个进程,其他进程处于非运行状态。线程 线程只是一个进程中的不同执行路径,线程有自己的堆栈和局部变量,但线程之间没有单独的地址空间。一个进程的内存空间是共享的,每个线程都可以使用这些共享内存。进程中一定要有线程。

2017-06-18 23:34:05 274

原创 Linux_shell(二)

变量环境变量(局部变量) 所有的场景都能用 /etc/profile文件 source一下局部变量 只能在自己的shell函数或脚本中使用变量定义定义变量的三种方式:直接定义 直接写。输出的时候是什么就是什么单引号 输出的时候完全按照内容输出,不解析任何符号双引号 输出的时候解析内容 适合字符串中含有变量的内容的形式。echo '${a}' #输出的是${a

2017-05-20 12:09:14 355

原创 机器学习之特征工程简介

简介特征工程非常重要。对于模型的效果起大了极大的作用。实际开发中,大部分的时间都花费在特征工程上面。特征工程最重要的是对具体业务的深刻理解。减少数据存储和输入的代价,降低数据的维度 发现更多深入的特征,提升准确率。特征工程和降维,是处理高维度数据的两大主要手段。特征选择(选)去掉无关特征,只保留核心特征。从总体特征中选择一个最好(最能代表整体)的特征子集本质上是一个降维的过程。核心是不丢失关

2017-05-20 12:07:58 585

原创 机器学习之回归简介

线性回归综述目的是找到一个映射,最能反映二者之间的关系。用来预测当有新的样本输入的时候,输入的结果线性回归处理的变量必须是连续的。欠拟合&过拟合 过拟合跟欠拟合是ml算法表现差的两大原因 欠拟合:样本的容量不够引起的 过拟合:如果有特别多的特征,曲线可以拟合的很好,但是丧失了一般性,导致泛化能力差。设如何处理正则化? 正则化的方法。算法使用最小二乘法计算两个参数。根据输入的样本情况,计

2017-05-20 12:07:01 336

原创 scala(二)

数组不可变数组// 定义数组的两种方式val ar1 = new Array[数组类型](数组大小)// val ar2 = Array[数组类型](具体内容)val ar2 = Array[String]("a","bc","def")for ( i<- ar ){print (i)}for (i <-ar.reverse()){print (i)}可变数组数组都是不可变的,如果需

2017-05-11 13:04:46 222

原创 scala(一)

综述学习scala:静态语言,jvm - 面向对象和函数式编程相结合 - 代码简洁效率高(数量级),java相比之下太复杂 - scala是基于java的,可以无缝调用java代码中的方法/库等 - 有助于理解spark的核心,一些scala有的spark接口,java中不一定有 - 命令式编程:通过输入的语句执行命令,有复杂度的概念,复杂度主要取决于行数等。告诉机器干啥,每一步

2017-05-07 17:17:50 433

原创 linux_awk(二)

综述每个程序都是一个或多个模式动作序列。每个模式一次匹配文本的每一行。直到输入完毕。 都是用 符号操作。shell中的 符号操作。shell中的后有{}号,awk一般不使用{}号。语法使用 模式-动作 语句 ex:awk ' $3 > 0 {print $1 $2 $3} {FS= " "} ' awk1.txtawk 指明使用的是awk程序awk1.txt 对awk1.txt文本进行操作

2017-05-07 17:16:37 423

原创 linux_awk(一)

综述是linux的shell三剑客之一:grep 查找sed 编辑awk 数据分析awk本身也是一门语言,是linxu中处理字符文本的强大工具,结合sed,grep能产生强大的效果。 简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。灵活性是awk最大的优势。后续的演示和学习都用下面的例子进行,分别是awk1.txt和awk2.txt// e

2017-05-07 17:16:05 636

原创 linux_grepbak

综述grep是Linux命令行下常用于查找过滤文本文件内容的命令,查找的是文本文件。 通过grep,结合使用正则表达式,可以灵活的查找一个字符串。无论是在一个文本文件还是在整个目录中,都能方便的查找。语法grep para "model" file/dir使用参数-i 忽略大小写-? n 显示目标行的上下n行-A n 显示目标行的之后n行-B n 显示目标行的之前n行-n

2017-05-07 17:15:17 706

原创 linux_shell(一)

综述shell是一个命令解释器,在os的最外层,负责直接和用户对话。交互式的(实时反馈)非交互式的(脚本方式)shell脚本:流程控制,变量,命令 最后 chmod一下。 ./xx.sh运行脚本很擅长处理纯文本类型的数据。 bashshell,POSIXshell等。弱类型语言:(类似python)不强制要求事先定义数据的类型。 几大脚本语言: - PHP:专注网页开发 - pe

2017-05-06 13:49:11 734

原创 机器学习之集成学习简介

综述集体学习: 将不同的分类器组合起来。 先产生个体学习,在根据多个个体学习完成学习任务。 每个个体学习可以采用的算法可以不同集成学习可能有不同的提升/不变/降低 这要求学习器:单个个体不能太差学习器之间要有差异/多样性理论上来说,如果单个学习器之间相互独立,当个数很多的时候,集成学习的正确率非常高,趋近于满分如何产生好而不同的个体学习器,是集成学习的核心问题bagging有放回从有

2017-05-06 11:56:59 696

原创 机器学习之SVM简介

综述在深度学习(2012)出现之前,SVM是ml算法中最优秀的算法。 支持向量机,本质是个分类器。核技巧+间隔最大 当间隔最大的时候,他的泛化能力是最强的,鲁棒性最高。基于最大间隔分割数据。分割的超平面有无数个,找的是最大化的寻找一个能把样本分割开的超平面(分割超平面)Max Margin Hyperplane求解凸二次规划的最优化算法。支持向量:超平面上的那些点(样本) 当样本有多个

2017-04-26 12:51:26 516

原创 机器学习之K近邻简介

描述KNN是常见的监督学习算法,输入是实例的特征向量,输出是实例对应的类别。 给定测试样本,基于某种距离计算方法,计算出与其距离最近的K个训练样本,根据多数表决方法判定属于哪个类别。典型的懒惰学习算法,不具有显示的学习过程。在接受数据时,不做处理,当真正计算的时候才按照算法流程走。 三大要素:K值的选择 较小的K,会导致过拟合较大的K,会导致欠拟合距离的度量。 不同的距离度量算法所确定

2017-04-26 12:48:57 234

原创 机器学习之Kmeans

聚类非监督学习,输入的数据没有标签,通过学习找出数据内在的性质和规律。 两个基本问题来衡量聚类效果的好坏:性能度量最佳的效果是簇内相似度高,簇间相似度低(类似高内聚低耦合)簇间度量(越大越好)Jrccard系数FM系数Rand系数簇内度量DB系数(越小越好)Dumn系数(越大越好)距离计算有序属性闵可夫斯基距离 曼哈顿距离 是闵可夫斯基距离参数=1 的情况 欧氏距离 是闵可夫斯基

2017-04-14 15:24:11 430

原创 机器学习之朴素贝叶斯简介

综述适用于标称型数据的监督学习方法。NB本质是个分类问题,根据样例属于哪个类的概率的大小判断样本属于哪个类。 朴素贝叶斯有两个基本条件:朴素和贝叶斯定理朴素:朴素指的是特征之间的相互独立性假设,就是特征1和特征2之间发生的概率相互不受影响。 特征1发生与否和特征2无关。贝叶斯定理:算法流程NB中常用的几个模型:高斯模型通过高斯分布,可以把连续的变量转换成标称型变量。 多项式模型多项式分布适合词

2017-04-09 19:37:00 1335

原创 机器学习综述

基本概念机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。 “用机器学习的方法来进行数据挖掘。”机器学习是一种方法;数据挖掘是一件事

2017-04-05 21:23:08 748

原创 机器学习之决策树简介

综述一种非常常用的机器学习算法,属于监督学习,可以用于分类和回归。每个内部节点表示在一个属性上的测试,每个分支代表当前测试的输出。每个叶节点代表类别。根据属性的值分类。得到的新节点是根据属性分后的实例当新节点内,所有的实例都是同一个标记的时候,停止分类自顶向下,基本思想是以信息熵为度量,构造一棵熵值下降最快的树,直到熵的值最终为0。可能是最常使用的数据挖掘算法,主要有ID3,X4.5,C

2017-04-05 20:33:54 494

原创 VIM简介

综述vim是linux下一款非常强大的文本编辑器,每位程序员都应该熟练掌握。当然工具的目的是提高生产效率,对于vim的使用不必强制,最重要的还是适合自己 引用块内容下面是vim键盘图。 命令模式 在vim刚刚启动的时候,进入的就是命令模式按i/a进入,可以正常输入和编辑文本插入模式 基本操作与普通文本编辑器类似按esc退出插入模式,进入命令模式底线命令行模式 q 放弃保存文本 !

2017-04-05 12:44:55 1146

原创 spark之RDD

RDD概念与特性RDD是spark最重要的抽象。spark统一建立在抽象的RDD之上。设计一个通用的编程抽象,使得spark可以应对各种场合的大数据情景。RDD模型将不同的组件融合到一起,选用其中的几个/所有,可以应付各种不同的场景。解决了mr的缺陷 1. 弹性分布式数据集Resilient Distributed Dataset。 2. 只读分区数据集,final修饰的 3. 一个分布

2017-03-27 15:20:48 3867 3

原创 数据库与SQL语言

数据库综述SQL语言:结构化查询语言,用于操作数据库关系型数据库:一个二维表格,易于操作,容易理解,但是在操作海量数据的时候效率低。ACID特性。非关系型数据库:以键值对存储,结构不固定。不局限于固定的结构。 kv数据库 redis等文档数据库 mongodb等分布式数据库 hbase等SQL语言SQL语言是用关键字,表名,列名等组合而成的一条语句。SQL语句可以分成三大类 - D

2017-03-26 11:19:10 533

原创 spark工作机制

spark这里以wordcount程序为例,演示spark的基本流程和原理基本概念RDD:弹性分布式数据集。数据存放在各个节点上。spark对RDD进行操作。算子:各种操作/行动。spark中的函数 创建变换缓存行动spark架构分析application:用户编写的spakr程序,包含驱动程序和要运行的代码driver驱动程序:main创建sparkcontent,程序结束后负责

2017-03-23 16:58:32 3449

原创 函数式编程概述

概述函数式编程是一种编程模型,他将计算机运算看做是数学中函数的计算,并且避免了状态以及变量的概念。函数式编程的特点是简介,把控制权让渡给语言。 变量的不变性 高并发 sclaa,lisp,haskell等 多核并行程序设计就这样被推到了前线,而命令式编程天生的缺陷却使并行编程模型变得非常复杂,无论是信号量,还是锁的概念,都使程序员不堪其重。 函数是函数式编程的第一型。 在面向对象编程中,

2017-03-21 21:12:49 315

原创 spark综述

spark综述一个大数据处理框架spark是一个开源分布式计算框架,有着丰富的数据操作方法。不只有mr模型使用scala语言。同时支持python,java,R。可以运行在多个平台上spark特别适合机器学习,RDD特性,高容错通用性强,可以处理四大组件spark四大组件和核心功能:spark core spakrcontext:一切的对象都是他产生的 存储体系:内存不足的时候才会

2017-03-21 16:00:45 835

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除