未央夜色-CSDN博客

原创 java_多线程简介

综述多线程是非常重要的内容，同时又非常深入，这里对以前了解的内容做了一下总结，后续有机会还要继续深入的学习。进程和线程进程进程有独立的地址空间，占据资源任一时刻，CPU总是运行一个进程，其他进程处于非运行状态。线程线程只是一个进程中的不同执行路径，线程有自己的堆栈和局部变量，但线程之间没有单独的地址空间。一个进程的内存空间是共享的，每个线程都可以使用这些共享内存。进程中一定要有线程。

2017-06-18 23:34:05 274

原创 Linux_shell（二）

变量环境变量（局部变量）所有的场景都能用 /etc/profile文件 source一下局部变量只能在自己的shell函数或脚本中使用变量定义定义变量的三种方式：直接定义直接写。输出的时候是什么就是什么单引号输出的时候完全按照内容输出，不解析任何符号双引号输出的时候解析内容适合字符串中含有变量的内容的形式。echo '${a}' #输出的是${a

2017-05-20 12:09:14 355

原创机器学习之特征工程简介

简介特征工程非常重要。对于模型的效果起大了极大的作用。实际开发中，大部分的时间都花费在特征工程上面。特征工程最重要的是对具体业务的深刻理解。减少数据存储和输入的代价，降低数据的维度发现更多深入的特征，提升准确率。特征工程和降维，是处理高维度数据的两大主要手段。特征选择（选）去掉无关特征，只保留核心特征。从总体特征中选择一个最好（最能代表整体）的特征子集本质上是一个降维的过程。核心是不丢失关

2017-05-20 12:07:58 585

原创机器学习之回归简介

线性回归综述目的是找到一个映射，最能反映二者之间的关系。用来预测当有新的样本输入的时候，输入的结果线性回归处理的变量必须是连续的。欠拟合&过拟合过拟合跟欠拟合是ml算法表现差的两大原因欠拟合：样本的容量不够引起的过拟合：如果有特别多的特征，曲线可以拟合的很好，但是丧失了一般性，导致泛化能力差。设如何处理正则化？正则化的方法。算法使用最小二乘法计算两个参数。根据输入的样本情况，计

2017-05-20 12:07:01 336

原创 scala（二）

数组不可变数组// 定义数组的两种方式val ar1 = new Array[数组类型](数组大小)// val ar2 = Array[数组类型](具体内容)val ar2 = Array[String]("a","bc","def")for ( i<- ar ){print (i)}for (i <-ar.reverse()){print (i)}可变数组数组都是不可变的，如果需

2017-05-11 13:04:46 222

原创 scala（一）

综述学习scala：静态语言，jvm - 面向对象和函数式编程相结合 - 代码简洁效率高（数量级），java相比之下太复杂 - scala是基于java的，可以无缝调用java代码中的方法/库等 - 有助于理解spark的核心，一些scala有的spark接口，java中不一定有 - 命令式编程：通过输入的语句执行命令，有复杂度的概念，复杂度主要取决于行数等。告诉机器干啥，每一步

2017-05-07 17:17:50 433

原创 linux_awk（二）

综述每个程序都是一个或多个模式动作序列。每个模式一次匹配文本的每一行。直到输入完毕。都是用符号操作。shell中的符号操作。shell中的后有{}号，awk一般不使用{}号。语法使用模式-动作语句 ex：awk ' $3 > 0 {print $1 $2 $3} {FS= " "} ' awk1.txtawk 指明使用的是awk程序awk1.txt 对awk1.txt文本进行操作

2017-05-07 17:16:37 423

原创 linux_awk（一)

综述是linux的shell三剑客之一：grep 查找sed 编辑awk 数据分析awk本身也是一门语言，是linxu中处理字符文本的强大工具，结合sed，grep能产生强大的效果。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。灵活性是awk最大的优势。后续的演示和学习都用下面的例子进行，分别是awk1.txt和awk2.txt// e

2017-05-07 17:16:05 636

原创 linux_grepbak

综述grep是Linux命令行下常用于查找过滤文本文件内容的命令，查找的是文本文件。通过grep，结合使用正则表达式，可以灵活的查找一个字符串。无论是在一个文本文件还是在整个目录中，都能方便的查找。语法grep para "model" file/dir使用参数-i 忽略大小写-? n 显示目标行的上下n行-A n 显示目标行的之后n行-B n 显示目标行的之前n行-n

2017-05-07 17:15:17 706

原创 linux_shell（一）

综述shell是一个命令解释器，在os的最外层，负责直接和用户对话。交互式的（实时反馈）非交互式的（脚本方式）shell脚本：流程控制，变量，命令最后 chmod一下。 ./xx.sh运行脚本很擅长处理纯文本类型的数据。 bashshell，POSIXshell等。弱类型语言：（类似python）不强制要求事先定义数据的类型。几大脚本语言： - PHP：专注网页开发 - pe

2017-05-06 13:49:11 734

原创机器学习之集成学习简介

综述集体学习：将不同的分类器组合起来。先产生个体学习，在根据多个个体学习完成学习任务。每个个体学习可以采用的算法可以不同集成学习可能有不同的提升/不变/降低这要求学习器：单个个体不能太差学习器之间要有差异/多样性理论上来说，如果单个学习器之间相互独立，当个数很多的时候，集成学习的正确率非常高，趋近于满分如何产生好而不同的个体学习器，是集成学习的核心问题bagging有放回从有

2017-05-06 11:56:59 696

原创机器学习之SVM简介

综述在深度学习（2012）出现之前，SVM是ml算法中最优秀的算法。支持向量机，本质是个分类器。核技巧+间隔最大当间隔最大的时候，他的泛化能力是最强的，鲁棒性最高。基于最大间隔分割数据。分割的超平面有无数个，找的是最大化的寻找一个能把样本分割开的超平面（分割超平面）Max Margin Hyperplane求解凸二次规划的最优化算法。支持向量：超平面上的那些点（样本）当样本有多个

2017-04-26 12:51:26 516

原创机器学习之K近邻简介

描述KNN是常见的监督学习算法，输入是实例的特征向量，输出是实例对应的类别。给定测试样本，基于某种距离计算方法，计算出与其距离最近的K个训练样本，根据多数表决方法判定属于哪个类别。典型的懒惰学习算法，不具有显示的学习过程。在接受数据时，不做处理，当真正计算的时候才按照算法流程走。三大要素：K值的选择较小的K，会导致过拟合较大的K，会导致欠拟合距离的度量。不同的距离度量算法所确定

2017-04-26 12:48:57 234

原创机器学习之Kmeans

聚类非监督学习，输入的数据没有标签，通过学习找出数据内在的性质和规律。两个基本问题来衡量聚类效果的好坏：性能度量最佳的效果是簇内相似度高，簇间相似度低（类似高内聚低耦合）簇间度量（越大越好）Jrccard系数FM系数Rand系数簇内度量DB系数（越小越好）Dumn系数（越大越好）距离计算有序属性闵可夫斯基距离曼哈顿距离是闵可夫斯基距离参数=1 的情况欧氏距离是闵可夫斯基

2017-04-14 15:24:11 430

原创机器学习之朴素贝叶斯简介

综述适用于标称型数据的监督学习方法。NB本质是个分类问题，根据样例属于哪个类的概率的大小判断样本属于哪个类。朴素贝叶斯有两个基本条件：朴素和贝叶斯定理朴素：朴素指的是特征之间的相互独立性假设，就是特征1和特征2之间发生的概率相互不受影响。特征1发生与否和特征2无关。贝叶斯定理：算法流程NB中常用的几个模型：高斯模型通过高斯分布，可以把连续的变量转换成标称型变量。多项式模型多项式分布适合词

2017-04-09 19:37:00 1335

原创机器学习综述

基本概念机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。基本目标是学习一个x->y的函数（映射），来做分类或者回归的工作。 “用机器学习的方法来进行数据挖掘。”机器学习是一种方法；数据挖掘是一件事

2017-04-05 21:23:08 748

原创机器学习之决策树简介

综述一种非常常用的机器学习算法，属于监督学习，可以用于分类和回归。每个内部节点表示在一个属性上的测试，每个分支代表当前测试的输出。每个叶节点代表类别。根据属性的值分类。得到的新节点是根据属性分后的实例当新节点内，所有的实例都是同一个标记的时候，停止分类自顶向下，基本思想是以信息熵为度量，构造一棵熵值下降最快的树，直到熵的值最终为0。可能是最常使用的数据挖掘算法，主要有ID3，X4.5，C

2017-04-05 20:33:54 494

原创 VIM简介

综述vim是linux下一款非常强大的文本编辑器，每位程序员都应该熟练掌握。当然工具的目的是提高生产效率，对于vim的使用不必强制，最重要的还是适合自己引用块内容下面是vim键盘图。命令模式在vim刚刚启动的时候，进入的就是命令模式按i/a进入，可以正常输入和编辑文本插入模式基本操作与普通文本编辑器类似按esc退出插入模式，进入命令模式底线命令行模式 q 放弃保存文本！

2017-04-05 12:44:55 1146

原创 spark之RDD

RDD概念与特性RDD是spark最重要的抽象。spark统一建立在抽象的RDD之上。设计一个通用的编程抽象，使得spark可以应对各种场合的大数据情景。RDD模型将不同的组件融合到一起，选用其中的几个/所有，可以应付各种不同的场景。解决了mr的缺陷 1. 弹性分布式数据集Resilient Distributed Dataset。 2. 只读分区数据集，final修饰的 3. 一个分布

2017-03-27 15:20:48 3867 3

原创数据库与SQL语言

数据库综述SQL语言：结构化查询语言，用于操作数据库关系型数据库：一个二维表格，易于操作，容易理解，但是在操作海量数据的时候效率低。ACID特性。非关系型数据库：以键值对存储，结构不固定。不局限于固定的结构。 kv数据库 redis等文档数据库 mongodb等分布式数据库 hbase等SQL语言SQL语言是用关键字，表名，列名等组合而成的一条语句。SQL语句可以分成三大类 - D

2017-03-26 11:19:10 533

原创 spark工作机制

spark这里以wordcount程序为例，演示spark的基本流程和原理基本概念RDD：弹性分布式数据集。数据存放在各个节点上。spark对RDD进行操作。算子：各种操作/行动。spark中的函数创建变换缓存行动spark架构分析application：用户编写的spakr程序，包含驱动程序和要运行的代码driver驱动程序：main创建sparkcontent，程序结束后负责

2017-03-23 16:58:32 3449

原创函数式编程概述

概述函数式编程是一种编程模型，他将计算机运算看做是数学中函数的计算，并且避免了状态以及变量的概念。函数式编程的特点是简介，把控制权让渡给语言。变量的不变性高并发 sclaa，lisp，haskell等多核并行程序设计就这样被推到了前线，而命令式编程天生的缺陷却使并行编程模型变得非常复杂，无论是信号量，还是锁的概念，都使程序员不堪其重。函数是函数式编程的第一型。在面向对象编程中，

2017-03-21 21:12:49 315

原创 spark综述

spark综述一个大数据处理框架spark是一个开源分布式计算框架，有着丰富的数据操作方法。不只有mr模型使用scala语言。同时支持python，java，R。可以运行在多个平台上spark特别适合机器学习，RDD特性，高容错通用性强，可以处理四大组件spark四大组件和核心功能：spark core spakrcontext：一切的对象都是他产生的存储体系：内存不足的时候才会

2017-03-21 16:00:45 835

将登太行雪满山