As a layman-CSDN博客

原创 java - 方法

方法public static void 方法名称() { 方法体;}调用格式：方法名称();注意事项：方法定义的先后顺序无所谓；方法定义必须是挨着的，不能在一个方法的内部定义另一个方法方法定义之后，自己不会执行，如果希望执行，一定要进行方法的调用方法的定义格式方法好比一个工厂，钢铁工厂：原料：铁矿石，煤炭产出物：钢铁建材参数：原料就是进入方法的数据...

2020-02-24 15:22:37 220

原创 java -方法入门流程

方法入门方法：将一个功能抽取出来，把代码单独定义在一个大括号中，形成一个单独的功能当我们需要这个功能的时候，就可以去调用，这样既实现了代码的复用性，也解决了代码的冗余问题定义：修饰符返回值类型方法名 (参数) { 代码... return;}方法名称的命名规则和变量名一样，使用小驼峰方法体：也就是大括号中的，可以包含多条语句注意事项：1. 方法定义的先后顺序无所谓...

2020-02-22 17:48:11 236

原创 java入门基础

java 学习笔记jvm jre jdk 三者之间的关系java安装环境变量配置java程序开发的三个步骤：编写 -》编译 -》运行HelloWorldpublic class HelloWorld { public static void main(String[] args){ System.out.println("hello world"); }}使用记...

2020-02-21 20:00:40 265

原创《推荐系统实践》读书笔记第二章

第二章利用用户行为数据利用用户行为数据啤酒和尿布的例子购买A商品的用户都购买B商品协同过滤基于用户行为分析的推荐算法是个性化推荐系统的重要算法，学术界一般将这种类型的算法称为协同过滤算法。顾名思义，协同过滤就是指用户可以齐心协力，通过不断地和网站互动，使自己的推荐列表能够不断过滤掉自己不感兴趣的物品，从而越来越满足自己的需求显示反馈隐式反馈用户行为在个性化推荐系统中一般...

2020-02-01 10:58:16 393

原创《推荐系统实践》读书笔记第一章

《推荐系统实践》读书笔记前言推荐系统算法有很多，可以按照数据分成协同过滤、内容过滤、社会化过滤，也可以按照算法分成基于邻域的算法、基于图的算法、基于矩阵分解或者概率模型的算法。第一章好的推荐系统什么是推荐系统在这个时代，无论是信息消费者还是信息生产者都遇到了很大的挑战：作为信息消费者，如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情；作为信息生产者，如何让自己生产的信...

2020-01-31 23:24:03 242

原创逻辑回归优化正则化

逻辑回归的优化有无截距对于逻辑回归分类，就是找到z那条直线，不通过原点有截距的直线与通过原点的直线相比，有截距更能将数据分类的彻底。部分测试数据0 1:1.0140641394573489 2:1.00534917943009061 1:2.012709390641638 2:2.0019071172152390 1:1.0052568352996578 2:1.016289421...

2020-01-29 22:17:44 1032

原创数学知识复习

数学知识复习Log对数如果ax=Na^x =Nax=N（a>0且a ≠1）则x叫做以a为底N为对数，记做：x=logaNx=log_aNx=logaNa叫做对数的底，N叫做真数通常我们把以10为底的对数叫做常用对数，lgN表示通过我们把以e为底的对数叫做自然对数，lnN表示基础：负数和0没有对数loga1=0log_a1=0loga1=0logaa=1log_aa=...

2020-01-28 14:58:31 210

原创道路预测

道路预测每条道路的拥堵情况不仅和当前道路前一个时间点拥堵情况有关系，还和与这条道路临近的其他道路的拥堵情况有关。甚至还和昨天当前时间点当前道路是否拥堵有关联。我们可以根据这个规律，构建训练集，预测一条道路拥堵情况。设现在要训练一个模型：使用某条道路最近三分钟拥堵的情况，预测该条道路下一分钟的拥堵情况。如何构建训练集？步骤：1.计算道路每分钟经过的车辆数和速度总和，可以得到道路实时拥堵情况...

2020-01-28 12:07:37 536

傅里叶变换傅里叶原理：任何连续测量的时序信号，都可以表示为不同频率的正弦波信号的无限叠加。时域分析：对一个信号来说，信号强度随时间的变化的规律就是时域特性，例如一个信号的时域波形可以表达信号随着时间的变化。频域分析：对一个信号来说，在对其进行分析时，分析信号和频率有关的部分，而不是和时间相关的部分，和时域相对。也就是信号是由哪些单一频率的的信号合成的就是频域特性。频域中有一个重要的规则是正弦...

2020-01-28 10:32:46 399

原创 Kmeans 聚类算法

K-means聚类算法机器学习中有两类的大问题，一个是分类，一个是聚类。分类是监督学习，原始数据有标签，可以根据原始数据建立模型，确定新来的数据属于哪一类。聚类是一种无监督学习，聚类是指事先没有“标签”，在数据中发现数据对象之间的关系，将数据进行分组，一个分组也叫做“一个簇”，组内的相似性越大，组间的差别越大，则聚类效果越好，也就是簇内对象有较高的相似度，簇之间的对象相似度比较低，则聚类效果越...

2020-01-25 23:33:33 4947

原创距离测度

欧氏距离测度（EuclideanDistanceMeasure）也称欧几里得距离，在一个N维度的空间里，求两个点的距离，这个距离肯定是一个大于等于零的数字，那么这个距离需要用两个点在各自维度上的坐标相减，平方后加和再开方。一维，二维，三维的欧式距离计算方法：一维：二维：三维：可以转为平方欧氏距离测度（SquaredEuclideanDistanceMeasure）就是上面的欧...

2020-01-25 17:45:51 2504

原创贝叶斯分类算法

贝叶斯分类算法朴素贝叶斯（Naive Bayes ,NB）算法是基于贝叶斯定理与特征条件独立假设的分类方法，该算法是有监督的学习算法，解决的是分类问题，是将一个未知样本分到几个预先已知类别的过程。朴素贝叶斯的思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率，也就是根据先前事件的有关数据估计未来某个事件发生的概率。举例：一个学校内有60%的学生是男生，40%的学生是女生。根据统计，...

2020-01-24 15:21:03 6589

原创 Kafka

kafka：高吞吐的分布式消息系统

2020-01-02 12:40:59 136

原创 SparkStreaming

storm和 SparkStreaming的区别Storm 是纯实时处理数据, SparkStreaming 微批处理数据，可以通过控制间隔时间做到实时处理.sparkStreaming 相对于storm来说，吞吐量大storm擅长处理简单的汇总型业务，sparkStreaming擅长处理复杂业务，storm相对于sparkStreaming来说轻量级，SparkStreaming中可以使用...

2019-12-31 15:34:29 242

原创 spark UDF,UDAF

UDF: user defined function

2019-12-31 10:27:16 98

原创 spark SQL

Shark，SparkSQLHive是Shark的前身，Shark是SparkSQL的前身相对于Shark，SparkSQL有什么优势呢？– SparkSQL产生的根本原因，其完全脱离了Hive的限制– SparkSQL支持查询原生的RDD，这点就极为关键了。RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础– 能够在Scala中写SQL语句。支持简单的S...

2019-12-27 17:27:30 260

原创 spark的shuffle

什么是 spark shufflereduceByKey的含义reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value，然后生成一个新的RDD，元素类型是<key,value>对的形式，这样每一个key对应一个聚合起来的value问题：每一个key对应的value不一定都是在一个partition中，也不太可能在同一个节点上，因为RDD是分...

2019-12-27 14:33:34 176

原创 Spark 累加器

Spark累加器val rdd = sc.textFile...var i=0val rdd2 = rdd1.map(one=>{ i+=1 one}rdd2.collect()println(*i=*+1)

2019-12-26 12:08:29 205

原创 spark

Spark什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写...

2019-12-24 17:23:59 188

原创 Storm

stormstorm 是个实时的，分布式以及具备高容错的计算框架storm进程常驻内存storm数据不经过磁盘，在内存中处理官网架构：Nimbus 主节点Supervisor 从节点Worker 从节点上工作进程###编程模型：spout + boltDAG·有向无环图对于Storm实时计算逻辑的封装即，由一系列通过数据流相互关联的Spout、Bolt...

2019-12-14 12:44:41 97

原创 Hbase

hbase简介hbase 是非关系型数据库hadoop database 是一个高可用，高性能，面向列的kv键值对，可伸缩，实时读写的分布式数据库利用hadoop hdfs 作为其文件存储系统，系统hadoop mapreduce 来处理hbase中海量数据，利用zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 nosql数据库）与传统数据...

2019-12-12 14:43:39 132

原创 hive(2)

hive 参数hive 参数，变量hive当中的参数，变量，都是以命名空间开头的通过 ${}方式进行引用，其中system,env 下的变量必须以前缀开头hive参数hive 参数设置方式1 修改配置文件 ${HIVE_HOME}/conf/hive-site.xml2 启动 hive cli 时，通过 --hiveconf key=vlaue的方式进行设置例如：hiv...

2019-12-11 12:41:28 304

原创 hive 实现 wc

实现hive 中的 word count我们的原始数据hello world hihi hell hadoophive hbase sparkhello hi将数据上传到 hdfs 中 /usr/ 目录下hdfs dfs -put wc /usr/hive中创建外部表读取上面数据create external table wc(line string) locati...

2019-12-10 16:47:46 207

原创 Python 进行 hadoop MapReduce操作

单词统计 WordCount制作一个mapReduce操作需要一个map.py 和 reduce.pymap.pyimport sysfor line in sys.stdin: line_words = line.strip().split(' ') for word in line_words: print '%s\t1'%(word.strip())reduce.py...

2019-12-10 13:56:08 256

原创数据分析与挖掘 - 多因子探索分析

多因子探索分析（多因子与复合分析）假设检验与方差检验假设检验建立原假设H0（包含等号）， H0的反命题为 H1，也叫备择假设选择检验统计量根据显著性水平（一般为0.05），确定拒绝域计算p值或样本统计值，做出判断正太性检验2.23是通过将上面7组数据代入假设检验量的式子得到后的值的均值。因为得到了2.23.可以看出其已经超过了 0.05所在的1.96σ\sigma...

2019-12-09 15:15:43 566

原创数据分析与挖掘 - 单属性分析

单属性分析异常值分析：离散异常值离散属性定义范围以外的所有值都是异常值如空值可以舍弃，或者另外标记出来。和正常值进行区分连续异常值上下界之间的就是正常值，以外的就是异常值K值不同，边界不同，K为1.5时，中等异常。K=3时，非常异常可以对异常值舍弃，或者用边界值代替异常值常识异常值在限定知识与常识范围外的所有值均为异常值对比分析绝对数和相对数，时间，空间，理论维度...

2019-12-09 14:01:11 456

原创数据分析基础

数据分析概述数据分析的含义与目标统计分析方法提取有用信息总结与概括数据分析概述：数据获取数据仓库将所有业务数据汇总处理，构成数据仓库（DW）全部事实记录部分维度与数据的整理（数据集市DM）数据库 vs 仓库数据库面向业务存储（高并发，快速读写，数据精简），仓库面向主题存储（主题：较高层次上对分析对象数据的一个完整并且一致的描述，例如：购买主图，谁，时间，...

2019-12-09 11:38:16 453 4

转载机器学习 -- 集成学习

集成学习：不同的算法对同一问题进行分析。然后进行投票处理。少数服从多数模拟集成学习import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsX,y= datasets.make_moons(n_samples=500, noise=0.3,random_state=42)plt.s...

2019-12-07 15:51:28 168

原创决策树信息熵条件熵基尼系数信息增益信息增益率 CART 随机森林

决策树：

2019-12-07 13:27:02 2184

转载机器学习 -- SVM

SVM 支撑向量机support Vector Machine1逻辑回归：但是当决策边界不唯一时,定义一个概率函数，求损失函数。然后求出决策边界我们希望的决策边界是距离红色，蓝色最近的点都尽可能的远，而且还能很好的分别红色和蓝色两种类别的数据点hard svm假设我们的数据是线性可分的，用 hard svmsvm求得的是 margin 最大化margin=2dsvm...

2019-12-02 18:28:05 277

原创分类算法的评价：混淆矩阵，ROC曲线，AUC面积

分类准确度的问题一个癌症预测系统，输入体检信息，可以判断是否有癌症：预测准确度：99.9%如果某种癌症的产生的概率只有0.1%我们的系统预测所有人都是健康的，即可达到99.9%的准确率、如果某种癌症的产生的概率只有0.01%我们的系统预测所有人都是健康的，即可达到99.99%的准确率、对于极度偏斜（Skewed Data）的数据，只使用分类准确度是远远不够的。例如上面的例子使用混...

2019-11-29 12:27:56 735

原创逻辑回归

逻辑回归 Logistic Regression逻辑回归：解决分类问题回归问题怎么解决分类问题？将样本的特征和样本发生的概率联系起来，概率是一个数y^=f(x)\hat{y} = f(x)y^=f(x)p^=f(x)\hat{p} = f(x)p^=f(x)逻辑回归既可以看做是回归问题，也可以看做是分类问题，通常作为分类算法用，只可以解决二分类问题。绘制 σ\sigma...

2019-11-28 14:11:02 277

原创多项式回归，模型泛化，学习曲线，偏差方差权衡，模型正则化，岭回归

多项式回归还是在线性回归的基础上进行，是对数据进行升维，然后进行线性回归处理import numpy as npimport matplotlib.pyplot as pltx = np.random.uniform(-3,3,size=100)X = x.reshape(-1,1)X.shapey = 0.5 * x**2 +x +2 +np.random.normal(0,...

2019-11-26 23:53:30 384

转载机器学习 -- 主成分分析

主成分分析Principal Component Analysis PCA一个非监督的机器学习算法主要用于数据的降维通过降维，可以发现更便于人类理解的特征其他应用，可视化，去噪原理：进行降维，保留特征1进行降维，保留特征2上面哪种方案更好？可以看出保留特征1 的点与点之间的间距更大，拥有更好的可区分度。这种方案比较好还可以有更好的方案吗？将点映射到这条直线上这种...

2019-11-26 16:12:25 312

原创梯度下降法

强烈推荐链接这篇文章，通俗易懂https://www.jianshu.com/p/c7e642877b0e梯度下降法不是一个机器学习算法是一种基于搜索的最优化方法作用：最小化一个损失函数梯度上升法：最大化一个效用函数梯度下降法η\etaη称为学习率（learning rate）η\etaη的取值影响获得最优解的速度η\etaη取值不合适，甚至得不到最优解η\etaη...

2019-11-24 17:49:25 202

原创线性回归，回归算法评估，多元线性回归

线性回归解决回归问题思想简单，实现容易许多强大的非线性模型的基础结果具由很好的可解释性蕴含机器学习中的很多重要思想例如房屋价格（输出标记）和面积（样本特征）之间的关系简单线性回归样本特征只有一个，称为简单线性回归其关系为 y = ax+b假设我们找到3了最佳拟合的直线方程，y =ax+b则对每个样本点 xi 根据我们的直线方程，预测值为 y^i\hat{y}^...

2019-11-23 21:42:53 503

原创 KNN，数据归一化

KNN - K近邻算法K-Nearest Neighbors特点思想极度简单应用数学知识少效果好（缺点？）可以解释机器学习算法使用过程中的很多问题更完整的刻画机器学习应用的流程K近邻算法取一个k值，假设k=3，根据一个点A的位置，计算距离这个点最近的3（k）个点的的类型。来进行投票产生A的类型计算距离：KNN的过程import numpy as npfrom ...

2019-11-21 22:41:19 2239

原创 pip安装豆瓣源的库

豆瓣源pip install <库名> -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

2019-11-21 14:32:51 731

原创 numpy

创建np.arrayIn [2]: import numpy as npIn [3]: np.__version__Out[3]: '1.17.0'In [4]: arr = np.array([i for i in range(10)])In [6]: arrOut[6]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])In [7]: arr[3...

2019-11-21 14:11:05 211

空空如也

空空如也