翔燕-CSDN博客

原创分布式计算-day1

1. 简介分布式计算分两个阶段：1.将大的任务切分成很多小的任务，然后让集群中的每个节点来对这些小的任务来进行计算；2.小任务运算的结果进行汇总分布式存储：怎么存储，涉及到数据传输的效率问题。数据的处理：存储与运算—存储：HDFS，计算：MapReduce2.HDFS存储效率—分散存储存储就是把数据均匀的分散到存储的集群中，如 100g数据，集群100节点按1g切分，则每个节点1g；100g数据，90节点，1g切分，10个节点2g，80个节点1g；100g数据，90节点，512M切分，20个节

2021-05-06 21:38:17 184 1

原创 TypeError: int() argument must be a string, a bytes-like object or a number, not 'tuple'

1. 问题描述将博客https://blog.csdn.net/ShadowN1ght/article/details/78571187的代码运行与不同训练集时报以下错误：“if int(img.getpixel((w, h))) < 190:**if int(img.getpixel((w, h))) < 190:TypeError: int() argument must...

2020-04-20 10:42:33 2739

原创 NLP评估指标----BLEU--bilingual evaluation understudy

1. 介绍计算两个句子相似度，使用的方式是共现词频率，用来衡量两句话的一致程度。主要用于评估翻译的好坏思想：认为机器翻译结果越接近专业人工翻译，模型越准确blue越高，认为模型越好bleu的优点：方便、快速、结果有参考价值bleu的缺点：不考虑语法上的准确性；测评精度会受常用词的干扰；短译句的测评精度有时会较高；没有考虑同义词或相似表达的情况。2. 应用bleu考虑1，2，3，4...

2019-12-31 11:07:19 2337

原创面试之模型评估---（3）

1、评价指标有哪些？准确率（Accuracy）：正确分类样本占样本总数的比值，对与偏科问题时候不适用精确率（Precision）：被正确预测出来的正类占预测正类的比值召回率（Recall）：被正确预测出来的正类占样本实际正类的比值F1 Score ：F1Score=2PRP+RF_1 Score = \frac{2PR}{P+R}F1Score=P+R2PRROC曲线：横轴是假阳性...

2019-09-20 20:40:20 627

原创面试之降维---（2）

1.为什么要进行降维？在机器学习中，数据通常需要被表示成向量形式以输入模型进行训练。对向维向量进行处理和分析时，会极大地消耗系统资源，甚至产生维度灾难。因此，进行降维，即用一个低维度的向量表示原始高维度的特征就显得尤为重要。2.降维的方法有哪些？常见的降维方法有主成分分析（PCA）、线性判别分析（LDA）、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影等。（1）PCAPCA属于...

2019-09-20 17:18:38 384

原创面试之特征工程---（1）

文章来源于《百面机器学习》1.为什么需要对数值类的特征做归一化处理？回答此问题要从特征归一化是啥，常用的有哪些，有什么用，局限性来说，下面分别说明啥是特征归一化？-----就是将特征统一到一个大致相同的区间类常用的方法：1）线性函数归一化将训练集中数值特征通过线性变换，缩放到0-1的范围，具体方法是Xnorm=X−XminXmax−XminX_{norm}=\frac{X-X_{mi...

2019-09-20 10:17:42 335

原创第11章--条件随机场（CRF）---（11）

1.概述给入一组输入随机变量的条件下另一组输出随机变量的条件概率分布特点：假设输出随机变量构成隐马尔可夫随机场线性链条件随机场——应用与标注问题，学习方法是极大似然估计或正则化的极大似然估计条件随机场可以应用于不同的测试问题2.概率无向图模型（1）相关定义图：由结点及连接结点的边组成的集合无向图：指边没有方向的图概率图模型：指由图表示的概率分布无向图表示的随机变量之间存在...

2019-09-16 17:36:30 191

原创第6章--逻辑斯蒂回归与最大熵模型---(6)

1.逻辑斯谛回归模型概述属于对数线性模型采用对数似然函数极大化为优化目标模型学习一般采用极大似然估计,或正则化的极大似然估计通常采用梯度下降和拟牛顿法学习参数学习方法有改进的迭代尺度法、梯度下降法、拟牛顿法模型在输入很大和很小的时候出现梯度趋于0 的情况可以形式化为无约束最优化问题（1）逻辑斯谛分布分布函数属于逻辑斯谛函数分布函数是S型曲线，关于点（μ,12）（\mu,\...

2019-09-16 11:39:05 139

原创第4章--朴素贝叶斯（naive Bayes）---（4）

1．概述是典型的生成学习方法是基于贝叶斯理论和特征条件独立假设的分类方法训练时：通过学习先验概率分布P(Y=ck)P(Y=c_k)P(Y=ck) 和条件概率分布P(X=x∣Y=ck)P(X=x|Y=c_k)P(X=x∣Y=ck)，得到联合概率分布P(X,Y)＝P(Y)P(X∣Y)P(X,Y)＝P(Y)P(X|Y)P(X,Y)＝P(Y)P(X∣Y)分类时：使用学习到的模型对输入xxx计...

2019-09-15 11:53:18 167

原创第7章--支持向量机（SVM）---（7）

1.概述是一种二分类模型；基本模型是在特征空间熵的间隔最大的线性分类器；学习策略是，间隔最大化，正则化的合页损失最小化；是求解凸二次规划的最优化算法；包含：线性可分支持向量机（硬间隔支持向量机）、线性支持向量机（软间隔支持向量机）、非线性支持向量机（使用核技术及软间隔最大化）2.线性可分支持向量机构建它的条件是训练数据线性可分。其学习策略是最大间隔法。线性可分支持向量机的最...

2019-09-11 17:40:39 286

原创第10章--隐马尔可夫模型（HMM）---（10）

1.模型概述（1）模型定义隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态的序列，再由各个状态随机生成一个观测而产生观测序列的过程。（2）相关概念状态序列：隐藏的马尔可夫链随机生成的状态序列。观测序列：每一个状态生成一个随机的观测序列。是一个生成模型，表示状态序列和观测序列的联合分布，但是状态序列是隐藏的，不可观测的。可以用于标注，这时状态对应着...

2019-09-10 18:01:50 388

原创吴恩达机器学习--神经网络Ⅰ（5）

1 为什么要用神经网络实际问题往往有很多特征，成千的特征会带来两个问题：一是过拟合，二是消耗大量计算资源。模型复杂度为O(n2，n3)或者更高。在计算机视觉中，一张图片对于计算机来说就是一堆数字矩阵，对图片处理时有成千上万的特征，对于这类问题使用logistic回归是没法解决的，这个时候就要用到神经网络(Neural Network)。2 神经网络...

2019-09-09 17:35:26 1072 2

原创吴恩达机器学习---逻辑回归（3）

1 应用在分类问题中，你要预测的变量

2019-09-09 17:34:55 526

原创吴恩达机器学习--机器学习经验方法总结（7）

1. 问题引入当测试假设函数发现有很大的误差，一般的改进方法为：使用更多的训练样例减少特征数增加特征数增加多项式特征减小λ 的值增加λ 的值但并不是所有的方法都有用，需要分析知道哪里出了问题。2. 模型评估为了能有效地评估我们的模型，先要将数据集分成训练集(training set)（占原数据的70%），和测试集(test set)（占原数据的30%）。在数据集分割时,...

2019-09-09 17:34:32 3552

原创吴恩达机器学习—降维（11）

1. 概述希望有足够多的特征（知识）来保准学习模型的训练效果，但高维的特征也有几个如下不好的地方：学习性能下降，知识越多，吸收知识（输入），并且精通知识（学习）的速度就越慢；过多的特征难于分辨，很难第一时间认识某个特征代表的意义特征冗余特征降维的一般手段就是将高维特征投影到低维空间。降维的作用：数据压缩和数据可视化。例子：2D---->1D 3D------>2D...

2019-09-09 17:34:11 202

原创吴恩达机器学习—推荐系统（13）

1. 基于内容的推荐系统（1）推荐系统的应用很广泛：1）电子商务：根据客户购买和浏览商品推荐相关商品2）电影和视频推荐：根据视频浏览记录，喜好推荐3）音乐电台的推荐4）网页及新闻：推荐根据网页浏览记录，推荐相关新闻和网页5）社交网络：推荐好友，信息流的会话推荐6）广告推荐等（2）电影推荐举例电影资讯网站，用户对于电影的打分（1 - 5 分），代表用户没有评价过该电影，数据，对于每...

2019-09-09 17:33:54 150

原创吴恩达机器学习—聚类（10）

1. 无监督学习在机器学习中，无监督学习可以被简单理解为不为训练集提供对应的类别标识。无监督学习（Unsupervised Learning）下的训练集：(x(1)),(x(2)),(x(3))2. 聚类在监督学习中，把对样本进行分类的过程称之为分类（Classification），而在无监督学习中，将物体被划分到不同集合的过程称之为聚类（Clustering）。在聚类中，把物体所在的集...

2019-09-09 17:33:24 254

原创吴恩达机器学习--正则化（4）

1 过拟合（1）回归中的过拟合第一个模型是欠拟合，不能很好地适应训练集；第三个模型用四次方进行拟合，过于强调拟合原始数据，而丢失了预测新数据的能力。而中间的模型似乎最合适。（2）分类问题中的过拟合

2019-09-09 17:33:09 187

原创吴恩达机器学习—异常检测（12）

1. 异常检测定义和使用给定正常的数据集

2019-09-09 17:32:25 187

原创吴恩达机器学习——机器学习系统设计（8）

1. 误差分析（1）构建一个学习算法的推荐方法从一个简单的能快速实现的算法开始，实现该算法并用交叉验证集数据测试这个算法绘制学习曲线，决定是增加更多数据，或者添加更多特征，还是其他选择进行误差分析：人工检查交叉验证集中我们算法中产生预测误差的实例，看看这些实例是否有某种系统化的趋势（2）误差分析作用误差分析并不一定能判断应该采取怎样的行动。但通过尝试不同的模型并比较后，能用数值来判...

2019-09-09 17:32:11 4299

原创吴恩达机器学习---多变量线性回归(2)

1）多变量线性回归的假设函数，损失函数，以及梯度下降和正规方程的使用。2）学习率的选择。3）梯度下降的时候的特征处理方法的介绍。4）采用正规方程求解的时候，关于矩阵不可逆情况的原因和处理介绍。

2019-09-09 17:31:40 145

原创吴恩达机器学习——支持向量机SVM（9）

1. 代价函数其中：C=1λC=\frac{1}{λ}C=λ1；cost0=−log(1−11+e−z)==−log(1−11+e−θTx)cost_0 = -log(1- \frac{1}{1+e^{-z}})== -log(1- \frac{1}{1+e^{-θ^Tx}})cost0=−log(1−1+e−z1)==−log(1−1+e−θTx1); cost1=−log(111+...

2019-09-09 17:30:59 4693

原创吴恩达机器学习—大规模机器学习（14）

1. 大型数据集的学习在低方差的模型情况下增加数据集的规模可以帮助获得更好的结果。当数据集很大，是个多达100 万条记录的训练集时的应对方法。如果采用之前学习的批量梯度下降，每一次梯度下降迭代，都需要计算训练集的误差的平方和，计算代价非常大。面对大规模训练集时，首先应该做的事是：绘制学习曲线来帮助判断去检查这么大规模的训练集是否真的必要。必须要大规模的数据时候，批量梯度下降方法不再适应，需要使...

2019-09-09 17:30:43 109

原创第五章--决策树---（5）

1.决策树（1）决策树模型是一种描述对实例进行分类的树形结构。由结点（结点：内部结点（表示一个特征或者属性）和叶结点（表示一个分类））和有向边组成。决策树可以转换成一个if-then规则的集合。决策树表示给定特征条件下类的条件概率分布。决策树学习旨在构建一个与训练数据拟合很好，并且复杂度小的决策树。从可能的决策树中直接选取最优决策树是NP完全问题。现实中采用启发式方法学习次优的决策...

2019-09-09 17:29:27 275

原创随机森林（Random Forest)

1. 什么是随机森林？定义：随机森林是指利用多棵决策树对样本数据进行训练、分类并预测的一种方法，它在对数据进行分类的同时，还可以给出各个变量（基因）的重要性评分，评估各个变量在分类中所起的作用。2.应用随机森林主要是应用于回归和分类这两种场景，又侧重于分类对于分类问题，按多棵树分类器投票决定最终分类结果而对于回归问题，则由多棵树预测值的均值决定最终预测结果3. 随机森林的构建首...

2019-09-09 16:25:11 6672

原创第二章--感知机---（2）

1.模型简介感知机是根据输入实例的特征向量xxx对其进行二类分类的线性分类模型算法是基于随机梯度下降法的对损失函数的最优化算法，有原始形式和对偶形式。算法简单且易于实现。原始形式中，首先任意选取一个超平面，然后用梯度下降法不断极小化目标函数。在这个过程中一次随机选取一个误分类点使其梯度下降。感知机学习算法是误分类驱动，采用随机梯度下降。当训练数据集线性可分时，感知机学习算法是收敛的。且...

2019-09-03 11:18:33 112

原创第一章--统计学习方法概论---（1）

1. 统计学习方法（1）监督学习特点：有标签训练集必须由带标签的样本组成使用时数据集分为：训练集、验证集和测试集能通过代价函数直观判断学习方法的优劣监督学习的算法模型有：线性回归，逻辑回归，支持向量机、神经网络等。使用场景：用于分类、标注和回归问题，在自然语言处理、信息检索、文本数据挖掘应用广泛。（2）非监督学习特点：没有标签；只有要分析的数据集的本身一组数据，没有训...

2019-09-02 23:19:15 176

原创 TensorFlow安装--Windows10/Mac+anaconda+python3.7.3 ——（1）

1 安装要求TensorFlow 安装的前提是系统安装了 Python 2.5 或更高版本为了安装 TensorFlow，首先确保你已经安装了 Anaconda2

2019-08-30 20:04:08 242

原创吴恩达机器学习—应用实例：图片文字识别（15）

1. 问题描述和流程图有一张图片，要求识别图片中的所有字符工作流程是：1）文本检测（将图片扫描一遍）：获得包含了文本的文本框2）字符分割：从文本框中分割出各个字符3）字符分类（识别）：字符分割中得到的只是一个个字符图形，在字符分类阶段，才能真正知道该字符类别。步骤：1.文字侦测（Text detection）——将图片上的文字与其他环境对象分离开来2.字符切分（Character...

2019-08-30 20:03:30 643

原创 BP神经网络隐藏层单元数的选择--（1）

1. 参考文献1-08年，沈花玉等1.1 简述隐含层单元的数目与问题的要求、输入、输出单元的数目都有直接关系，数目太少，所获取的信息太少，出现欠拟合。数目太多，增加训练时间，容易出现过拟合，泛化能力差。1.2 确定方法在以前确定的方法是，参照下面三个公式，分别计算最佳隐含层单元数，然后综合比较选出最优，这种方式的缺点是验证次数多，计算周期太长参考公式：文献中介绍的方法是：通过三种方...

2019-08-26 22:16:15 10017

原创吴恩达机器学习——一元线性回归(1)

1.课程部分1.1 基本概念（1）训练集—由训练样例(training example)组成的集合就是训练集(training set)，其中(x，y)是一个训练样例，(x(i)，y(i))是第i个训练样例。（2）假设函数—用学习算法对训练集数据训练，可以得到假设函数(Hypothesis Function)，单变量线性回归的假设函数为：h_θ (x)=θ_0+θ_1 x, 为了方便h_θ ...

2019-08-26 22:12:55 347

qq_36217665的博客