5 nudt_oys

尚未进行身份认证

An AC a day,keeps WA away~

等级
TA的排名 1w+

[深度之眼机器学习训练营第四期]机器学习系统设计

工作流程这节课以垃圾邮件分类为例,介绍了机器学习系统的整个设计和实现流程。给定电子邮件数据集,我们可以为每个邮件构造一个向量。每个向量包含10000到50000个元素,每个元素代表一个单词,这些元素都是数据集中出现频率最高的单词。如果在电子邮件中找到一个单词,则将箱梁中相应的元素设为1,否则设为0。一旦我们准备好所有的向量,就可以进行模型训练,然后使用它来判断电子邮件是否为垃圾邮件。为了提高分...

2020-02-11 19:13:47

[深度之眼机器学习训练营第四期]关于机器学习应用的一些建议

机器学习算法评估模型评估在整个机器学习任务的流程中,我们需要在数据集上训练机器学习模型,找到一个比较“好”的假设。但是,有些假设在已知数据集上表现很好,在新数据上的性能却很差,错误率比较高,这也就是我们常说的“过拟合”。那么,我们如何解决这种类型的问题呢?一般来说,评价机器学习模型的性能,主要看模型在未知数据上的表现。因此,当我们拿到一个数据集以后,不能马上进行模型的训练,而是需要把数据集分...

2020-02-10 20:19:35

[深度之眼机器学习训练营第四期]神经网络之参数学习

损失函数LLL表示神经网络模型的层数sls_{l}sl​表示每一层神经元的数量KKK输出层神经元的数量J(Θ)=−1n∑i=1n∑k=1K[yk(i)log⁡((hΘ(x(i)))k)+(1−yk(i))log⁡(1−(hΘ(x(i)))k)]+λ2n∑l=1L−1∑i=1sl∑j=1sl+1(Θj,i(l))2\begin{gathered} J(\Theta) = - \frac...

2020-02-06 22:02:48

[深度之眼机器学习训练营第四期]神经网络之模型表示

为什么要用神经网络?为了获得非线性假设空间,我们引入神经网络模型。之前文章提到,对于分类问题,对数几率回归结合多项式特征可以得到非线性决策边界;而将多项式特则与线性回归结合也可以拟合非线性函数。既然我们已经可以得到非线性建设空间,为什么还要引入神经网络模型呢?为了回答这个问题,假设我们的训练集有ddd个特征,一次项O(d)O(d)O(d),二次项O(d2)O(d^2)O(d2),d次项O(dd)...

2020-01-28 16:23:34

[深度之眼机器学习训练营第四期]过拟合与正则化

基本概念机器学习模型面临的两个主要问题是欠拟合与过拟合。欠拟合,即模型具有较高的偏差,说明模型没有从数据中学到什么,如下左图所示。而过拟合,即模型具有较高的方差,意味着模型的经验误差低而泛化误差高,对新数据的泛化能力差,如下右图所示。通常,欠拟合是由于模型过于简单或使用数据集的特征较少导致的。相反,过拟合则是模型过于复杂或特征过多引起的。欠拟合的问题比较容易解决,而过拟合的问题则有些棘手。一...

2020-01-17 22:29:35

[深度之眼机器学习训练营第四期]对数几率回归

J(θ)=1m∑i=1mCost(hθ(x(i)),y(i))Cost(hθ(x),y)={−log⁡(hθ(x))  if y = 1−log⁡(1−hθ(x))  if y = 0J(\theta) = \dfrac{1}{m} \sum_{i=1}^m \mathrm{Cost}(h_\theta(x^{(i)}),y^{(i)}...

2020-01-17 19:55:11

[深度之眼机器学习训练营第四期]线性回归

基本概念首先看一下基本的概念与符号。x(i)x^{(i)}x(i)表示输入变量,也就是特征,y(i)y^{(i)}y(i)表示输出变量,也被称为标签或目标。二者组成的元组(x(i),y(i))(x^{(i)},y^{(i)})(x(i),y(i))就表示一个训练样本,而nnn个这样的训练样本就组成了训练集,即{(x(i),y(i));i=1,⋯ ,n}\{(x^{(i)} , y^{(i)} )...

2020-01-10 12:17:10

AdaBoost算法原理及实现

AdaBoost算法输入:训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)}T={(x1,y1),(x2,y2),…,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\},其中xi∈X⊆Rnxi∈X⊆Rnx_i\in \mathcal{X} \subseteq \mathbb{R}^n,yi∈{−1,+1}yi∈{−1,+1}y_...

2018-07-14 17:57:42

K-Means算法及Python实现

聚类是一种无监督学习,它将相似的对象划分到同一个簇中。通过这样的划分,每个簇可能对应一些潜在的类别。例如,西瓜可以被划分为“深色瓜”、“浅色瓜”、“有籽瓜”和“无籽瓜”等,这些概念对于聚类算法而言事先是未知的。基于不同的学习策略,人们设计出很多类型的聚类算法,下面我们主要介绍K-Means聚类算法并使用Python实现它。相似度计算前面提到,聚类算法视图将相似的对象归为同一簇,不相似的...

2018-06-17 16:54:33

Logistic Regression原理及Python实现

1. 问题引入相信大家都接触过分类问题,尤其是二元分类。例如现在有一些患者(训练集)的身体情况以及是否患有心脏病的数据,要求我们根据这些数据来预测其他患者(测试集)是否患有心脏病。这是比较简单的一个二元分类问题,使用线性分类器或许会取得不错的效果。但在实际生活中,我们感兴趣的往往不是其他患者是否会犯病,而是他犯心脏病的概率是多少。很直观的想法是收集患者犯病的概率,然后利用回归模型进行概率预测。但是我

2018-01-03 21:12:05

《机器学习基石》课程笔记(4)

Learning is Impossible?考虑如下二元分类的例子:给出5条数据,设计一个算法找出一个g∈Hg \in H并且所有的g(xn)=yng(\mathbf{x}_n) = y_n,并且说明gg和理想的那个ff是否近似。 既然输入xn\mathbf{x}_n有3个维度,那么输入一共只有8种情况,而输出有2种情况,一共有28=2562^8 = 256种输入输出组合。我们可以找到一些h∈H

2017-12-20 11:11:11

Kaggle入门之泰坦尼克号生还率预测

这是Kaggle上的一道入门题目,旨在让我们了解机器学习的大致过程。题目链接:Titanic: Machine Learning from Disaster题目大意:当年泰坦尼克号的沉没造成了很多人的死亡,救生艇不足是造成如此多人死亡的主要原因。尽管能否活下来要看运气,但是有些群体的存活概率比其他人更高。现在给出一些乘客的信息,包括他最后是否生还。根据这些信息,我们要对其他乘客是否生还进行预测。

2017-12-17 16:33:20

NumPy基础:数组和矢量计算

NumPy(Numerical Python的简称)是高性能科学计算和数据分析的基础包。它的部分功能如下: - ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 - 用于对整组数据进行快速运算的标准数学函数(无需编写循环) - 用于读写磁盘数据的工具以及用于操作内存映射文件的工具 - 线性代数、随机数生成以及傅里叶变换功能 - 用于集成由C、C++、F

2017-12-11 17:56:13

CCF CSP 2014年12月第2题 Z字型扫描(模拟水题)

问题描述试题编号:201412-2试题名称:Z字形扫描时间限制:2.0s内存限制:256.0MB问题描述:问题描述  在图像编码的算法中,需要将一个给定的方形矩阵进行Z字形扫描(Zigzag Scan)。给定一个n×n的矩阵,Z字形扫描的过程如下图所示:  对

2017-12-02 10:51:17

CCF CSP 2016年12月第2题 工资计算 (模拟 || 打表)

问题描述试题编号:201612-2试题名称:工资计算时间限制:1.0s内存限制:256.0MB问题描述:问题描述  小明的公司每个月给小明发工资,而小明拿到的工资为交完个人所得税之后的工资。假设他一个月的税前工资(扣除五险一金后、未扣税前的工资)为S元,则他应交的个人

2017-11-14 20:56:19

CCF CSP 2015年12月第3题 画图 (模拟+DFS或BFS)

问题描述试题编号:201512-3试题名称:画图时间限制:1.0s内存限制:256.0MB问题描述:问题描述  用 ASCII 字符来画图是一件有趣的事情,并形成了一门被称为 ASCII Art 的艺术。例如,下图是用 ASCII 字符画出来的 CSPRO 字样。

2017-11-11 18:44:13

CCF CSP 2016年04月第4题 游戏 (BFS)

问题描述试题编号:201604-4试题名称:游戏时间限制:1.0s内存限制:256.0MB问题描述:问题描述  小明在玩一个电脑游戏,游戏在一个n×m的方格图上进行,小明控制的角色开始的时候站在第一行第一列,目标是前往第n行第m列。  方格图上有一些方格是始终安全

2017-11-08 22:09:24

LeetCode 399 Evaluate Division(BFS)

Equations are given in the format A / B = k, where A and B are variables represented as strings, and k is a real number (floating point number). Given some queries, return the answers. If the answ

2017-11-07 17:43:31

《机器学习基石》课程笔记(2)

Perceptron Hypothesis Set 对于银行是否发送信用卡的问题,把每位顾客的年龄、年收入等特征看成一个向量x=(x1,x2,...xd)\mathbf{x} = (x_1,x_2,...x_d),计算顾客每个特征与权重的乘积之和,如果结果大于某个阈值(threshold),那么就发送信用卡,否则不发送信用卡。 根据以上的信息,我们就可以得到一个线性形式的hh,它属于假设集合

2017-11-05 20:30:20

《机器学习基石》课程笔记(3)

Learning with Different Output Space YY输出空间实际应用二元分类Y={−1,+1}Y = \{ -1, +1 \}信用卡分发或不分发、识别垃圾邮件和非垃圾邮件、病人有病或没病、广告是否盈利、答案是否正确多元分类Y={1,2,3,...,K}Y = \{ 1, 2, 3,..., K\}手写字体分类、图片识别、垃圾邮件更详细的分类回归Y=RY =

2017-11-04 15:50:41

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。