zhaosarsa-CSDN博客

原创【Cute】流水线代码理解

上述代码是slice-k模式的乘法，gA的shape是（MMA_M, MMA_K，num_tile_k），gB的shape是（MMA_N，MMA_K，num_tile_k），最后输出的tCrC为在寄存器上的MMA_M,MMA_N，slice-k就是在warp上循环num_tile_k进行计算。tile块间的pipeline，这个操作的思想就是在计算当前tile块时，提前预取下一个（或者多个，看stage数量，需要成倍的smem空间）tile块的数据。，但没找到单元测试的入口，可以看一下代码。

2024-03-21 23:29:57 641

原创【Cute】MMA抽象代码理解

阅读本文前建议先读上面reed大神的数篇文章，文本逻辑主要是针对具体的代码，记录一下自己学习过程中的理解与注释。

2024-03-17 19:33:00 736

原创【OpenAI Triton】理解矩阵乘法中的super-grouping

最近做推理加速，会涉及一些底层算子的工作，老早就听说triton写算子比较方便，最近正好有一些应用场景，就根据官方文档和大佬们的见解记录一下自己的所学所得；

2024-03-06 22:35:51 710

原创【大模型推理】浅谈推理过程中流行的加速技术

很久没有做博客了，最近打算慢慢拾起来，去年内部做的分享，在这里记录一下。适合推理加速入门，欢迎大家交流。由于我做这个分享之前不是这个方向的，所以有些内容可能略显小白，哈哈哈哈哈～

2024-03-05 00:17:01 235

转载【机器学习】主题模型

主题模型（LDA）(一)–通俗理解与简单应用主题模型（LDA）(二)-公式推导主题模型-LDA浅析（简短清楚）通俗理解LDA主题模型（超详细）数学之美（上一篇的参考文章）plsa和LDA的区别–七月在线...

2018-11-01 21:34:42 720

转载【机器学习】数据挖掘算法——关联规则（三），FP-growth算法

前言上一篇文章介绍了用来挖掘发现强关联规则的Apriori算法。同时也知道了Apriori算法在实现过程中由于需要频繁的扫描数据集导致效率较低。 FP-growth算法基于Apriori构建，但采用了高级的数据结构减少扫描次数，大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫描，而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁，因此FP-gr...

2018-10-28 15:23:16 1363

原创【机器学习】数据挖掘算法——关联规则（二），挖掘过程，Aprioir算法

关联规则挖掘的原理和过程从关联规则（一）的分析中可知，关联规则挖掘是从事务集合中挖掘出这样的关联规则：它的支持度和置信度大于最低阈值（minsup,minconf），这个阈值是由用户指定的。根据support=(X,Y).count/T.countsupport=(X,Y).count/T.countsupport=(X,Y).count/T.countconfidence=(X,Y).co...

2018-10-27 19:24:53 3828

原创【机器学习】数据挖掘算法——关联规则（一），相关概念，评价指标

综述：数据挖掘是指以某种方式分析数据源，从中发现一些潜在的有用的信息，所以数据挖掘又称作知识发现，而关联规则挖掘则是数据挖掘中的一个很重要的课题，顾名思义，它是从数据背后发现事物之间可能存在的关联或者联系。关联规则的目的在于在一个数据集中找出项之间的关系，也称之为购物蓝分析 (market basket analysis)。例如，购买鞋的顾客，有10%的可能也会买袜子，60%的买面包的顾客，也...

2018-10-27 11:23:43 10285 1

原创【推荐算法入门】推荐系统之推荐算法概述

1. 什么是推荐算法推荐算法最早在1992年就提出来了，但是火起来实际上是最近这些年的事情，因为互联网的爆发，有了更大的数据量可以供我们使用，推荐算法才有了很大的用武之地。最开始，所以我们在网上找资料，都是进yahoo，然后分门别类的点进去，找到你想要的东西，这是一个人工过程，到后来，我们用google，直接搜索自己需要的内容，这些都可以比较精准的找到你想要的东西，但是，如果我自己都不知道...

2018-09-23 17:23:28 30610

转载【机器学习】主元分析（PCA）以及与SVD的区别联系

参考文章：如何理解主元分析（PCA）？主元分析的目的是降低数据的维度。主元分析也就是PCA，主要用于数据降维。1 什么是降维？比如说有如下的房价数据：这种一维数据可以直接放在实数轴上：不过数据还需要处理下，假设房价样本用表示，那么均值为：然后平移到以均值为原点：以为原点的意思是，以为0，那么上述表格的数字就需要修改下：这个过程称为“中心化”。...

2018-09-02 17:00:22 1431

转载【线性代数】通俗的理解奇异值以及与特征值的区别，还有奇异值分解及其应用

奇异值分解，就是把矩阵分成多个“分力”。奇异值的大小，就是各个“分力”的大小。之前在介绍矩阵特征值与特征向量的时候，也是以运动作为类比。一、通俗理解奇异值1、翻绳对于翻绳的这个花型而言，是由四只手完成的：我们可以认为这个花型是由两个方向的力合成的：容易想象，如果其中一个力（相比另外一个力而言）比较小的话，那么绳子的形状基本上由大的那个力来决定：2、奇异值...

2018-09-02 00:02:08 56574 27

原创【线性代数】理解矩阵变换及行列式的本质

参考：行列式的本质是什么？这篇文章的结构是：线性变换的几何直观实现线性变换的矩阵行列式一、线性变换的几何直观线性变换的几何直观有三个要点：变换前是直线的，变换后依然是直线直线比例保持不变变换前是原点的，变换后依然是原点比如说旋转：比如说推移：这两个叠加也是线性变换：二、实现线性变换的...

2018-09-01 13:22:31 15168 2

原创【数学基础】矩阵的特征向量、特征值及其含义

在线代课上，老师会教我们怎么求矩阵的特征值与特征向量。但是并不会讲特征值与特征向量到底有着什么样的几何意义或者物理意义，或许讲了但也比较模糊。矩阵的特征值与特征向量在各种机器学习算法与应用场景中都有出现，每次出现都有着其独特的意义。在这里也只是简述一二。一、方阵的特征值与特征向量1、特征值与特征向量的定义：定义1:设是阶方阵，若数和维非零列向量，使得成立，则称是方阵的一个特征值，为方阵...

2018-08-31 11:37:08 93552 9

转载【数学基础】线性方程组解情况整理

一、非齐次线性方程组，无解，多解，唯一解非齐次线性方程组，就是方程组的等式右边不为0的方程组，系数加上方程等式右边的矩阵，叫做增广矩阵。【例1】求解下列线性方程组化简后的有效方程组个数小于未知数个数，有多个解。第一步，先列出增广矩阵：第二步，用高斯消元法化简，化简成阶梯矩阵先把第2行换到第1行第2行减第1行的2倍，第3行减第1行的3倍，得到第3行减...

2018-08-29 12:15:03 82038 2

原创【机器学习】偏差-方差分解Bias-variance Decomposition

偏差-方差分解(Bias-Variance Decomposition)偏差-方差分解(Bias-Variance Decomposition)是统计学派看待模型复杂度的观点。Bias-variance分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模，它可以把一种学习算法的期望误差分解为三个非负项的和，即样本真实噪音noise、bias和 variance。noise 样本真实...

2018-08-28 11:52:16 18407 3

原创【机器学习】LR的分布式（并行化）实现

逻辑回归（Logistic Regression，简称LR）是机器学习中十分常用的一种分类算法，在互联网领域得到了广泛的应用，无论是在广告系统中进行CTR预估，推荐系统中的预估转换率，反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中，由于受到单机处理能力和效率的限制，在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进...

2018-08-27 23:19:02 11000 2

转载【机器学习】朴素贝叶斯(Naive Bayes)

在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数,要么是条件分布。但是朴素贝叶斯却是生成方法，也就是直接找出特征输出Y和特征X的联合分布,然后用得出。朴素贝叶斯很直观，计算量也不大，在很多领域有广泛的应用，这里我们就对朴素贝叶斯算...

2018-08-26 17:17:58 592

原创【机器学习】贝叶斯整理

简述朴素贝叶斯算法原理和工作流程事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A。所以有：对于给出的待分类项，求解在此项出现的条件下各个目标类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。工作原理：假设现在有样本这个待分类项（并认为x中的特征独立）。再假设现在有分类目标那么就是最终的分类类别。而因为x对于每个分类目标来说...

2018-08-25 21:26:41 3440 2

原创【机器学习】集成学习知识点总结二

GBDT原理概述GBDT是集成学习Boosting的一种。算法流程详见集成学习之梯度提升树GBDT。Gradient boosting的主要思想是，每一次建立单个学习器时，是在之前建立的模型的损失函数的梯度下降方向。损失函数越大，说明模型越容易出错，如果我们的模型能够让损失函数持续的下降，则说明我们的模型在不断改进，而最好的方式就是让损失函数在其梯度的方向上下降。GBDT的核心就在于，...

2018-08-23 19:53:33 1055 1

原创【机器学习】集成学习知识点总结一

集成学习算法概述严格意义上来说，集成学习算法不算是一种机器学习算法，而更像是一种优化手段或策略，它通常是结合多个简单的弱机器学习算法，去做更可靠的决策。有人把它称为机器学习中的“屠龙刀”，非常万能且有效。集成模型是一种能在各种机器学习任务上提高准确率的强有力技术，能够很好地提升算法的性能。集成方法是由多个较弱的模型集成组成，一般弱分类器可以是决策树，SVM，KNN等构成。其中的模型可以单独...

2018-08-21 22:00:41 1183

原创【机器学习】决策树知识点小结

决策树原理简述决策树是一类常见的机器学习方法，它是基于树的结构进行决策的。每次做决策时选择最优划分属性，一般而言，随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一个类别，即节点的“纯度”(purity)越来越高。决策树学习算法包含特征选择、决策树的生成与剪枝过程。决策树的学习算法通常是递归地选择最优特征，并用最优特征对数据集进行分割。开始时，构建根节点，选择最优特征...

2018-08-20 13:22:03 5453

原创【机器学习】支持向量机面试知识点小结

之前写了几篇原理性的文章，先列一个目录好了。【数学基础】拉格朗日乘子法【数学基础】KKT条件【数学基础】拉格朗日对偶【机器学习】SVM线性可分【机器学习】SVM基本线性可分与多分类【机器学习】SVM核方法【机器学习】SVM之Hinge Loss，从LR到SVM，SVM核函数进一步理解【机器学习】SVM之回归模型写的还算详细，原理与推导具体可以参照以上。不过还差了...

2018-08-19 18:10:42 4390

转载【机器学习】逻辑回归特征的离散化与交叉

以下为综合转载。连续特征离散化有些特征虽然也是数值型的，但是该特征的取值相加相减是没有实际意义的，那么该数值型特征也要看成离散特征，采用离散化的技术。连续特征离散化主要分为有监督方法与无监督方法。无监督方法：无监督方法都具有的问题就是都需要人为规定划分区间这个参数，常用的方法有分箱法和直观划分。分箱法又分为等宽分箱法和等频分箱法，其实从名字就能看出算法的做法了，前者指定定长...

2018-08-19 14:18:09 3263

转载【机器学习】逻辑回归小结

之前对于LR的介绍已经不少了，有从LR的极大似然概率模型开始推导的，从极大似然开始推导可以得到我们常用的损失函数形式，接下来就可以利用梯度下降方法。也从最大熵模型推导了满足二项分布的LR模型Hypothesis函数来源，以及满足多项式分布的Softmax回归模型。接下来对LR模型做一个总结。（参照面经等，以后可能会有补充……）如何凸显你是一个对逻辑回归已经非常了解的人呢。那就是用一句话概...

2018-08-17 22:03:58 1214

转载【机器学习】LR与最大熵模型的关系

逻辑回归与最大熵模型MaxEnt的关系?逻辑回归跟最大熵模型到底有啥区别呢？简单粗暴的回答是：逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况，也就是当逻辑回归类别扩展到多类别时，就是最大熵模型。在进行下面推导之前，先上几个数学符号定义，假定输入是一个n维空间的实数向量:表示输入数据，其中。其中表示第条记录。同时使用来表示记录中的某个特征，或者对应...

2018-08-17 19:56:11 4156 1

原创【机器学习】逻辑斯蒂回归（Logistic Regression）详解

引言LR回归，虽然这个算法从名字上来看，是回归算法，但其实际上是一个分类算法，学术界也叫它logit regression, maximum-entropy classification (MaxEnt)或者是the log-linear classifier。在机器学习算法中，有几十种分类器，LR回归是其中最常用的一个。logit和logistic模型的区别:二者的根本区别在于广义...

2018-08-16 18:45:31 34126 1

转载【机器学习】坐标下降法（Coordinate descent）

coordinate-wise minimization(坐标朝向最小)coordinate-wise minimization介绍的是坐标下降法的理论依据。问题的描述：给定一个可微的凸函数，如果在某一点，使得在每一个坐标轴上都是最小值，那么是不是一个全局的最小值。形式化的描述为：是不是对于所有的都有这里的代表第个标准基向量。答案为成立。这是因为：但是问题来...

2018-08-16 13:18:38 17550 3

转载【机器学习】次梯度（subgradient）方法

次梯度方法(subgradient method)是传统的梯度下降方法的拓展，用来处理不可导的凸函数。它的优势是比传统方法处理问题范围大，劣势是算法收敛速度慢。但是，由于它对不可导函数有很好的处理方法，所以学习它还是很有必要的。次导数设f:I→R是一个实变量凸函数，定义在实数轴上的开区间内。这种函数不一定是处处可导的，例如最经典的例子就是，在处不可导。但是，从下图的可以看出，对于定义域...

2018-08-15 16:08:01 55119 14

原创【机器学习】Lasso回归（L1正则，MAP+拉普拉斯先验）

前言目前这个方法还没有一个正规的中文名，如果从lasso这个单词讲的话，叫套索。那么套索是啥呢，就是套马脖子的东西，见下图：就是拿这个东西把动物脖子套住，不要它随便跑。lasso 回归就是这个意思，就是让回归系数不要太大，以免造成过度拟合（overfitting）。所以呢，lasso regression是个啥呢，就是一个回归，并且回归系数不要太大。具体的实现方式是加了一个L1正...

2018-08-14 20:37:20 5620

原创【数学基础】L2范数之解救矩阵病态

在之前的两篇文章岭回归以及L1正则化与L2正则化详解中都有提到L2范数。但对于L2范数在优化计算角度上都跳过了。故在这里新开一篇详细介绍一下，为什么L2范数可以解救病态矩阵，以及优化计算。病态系统现在有线性系统：，解方程很容易得到解为：。如果在样本采集时存在一个微小的误差，比如，将 A 矩阵的系数 400 改变成 401：则得到一个截然不同的解：。当解集 x 对...

2018-08-14 00:06:07 8591 1

原创【机器学习】岭回归（L2正则在干嘛！）

在之前我们有介绍过贝叶斯线性回归，贝叶斯线性回归利用了最大后验估计（MAP）加上权重的高斯分布先验推导出带有L2正则项的线性回归。其实这就是岭回归，即岭回归=MAP+高斯先验。推导就参见贝叶斯线性回归了，其实两者就是一模一样的东西，不过贝叶斯线性回归更侧重于推导这个过程，因为用了MAP方法，而提到岭回归我们就会更去研究强调其L2正则项的一些特性与作用。直接给出岭回归的推导结果...

2018-08-13 20:49:52 4588 2

原创【机器学习】L1正则化与L2正则化详解及解决过拟合的方法

在详细介绍L1与L2之前，先讲讲正则化的应用场景。正则化方法：防止过拟合，提高泛化能力所谓过拟合（over-fitting）其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。造成过拟合的本质原因是模型学习的太过精密，导致连训练集中的样本噪声也一丝不差的训练进入了模型。所谓欠拟合（under-fitting），与过拟...

2018-08-13 17:29:56 13569 3

原创【机器学习】最大熵模型（Maximum Entropy Model）

最大熵模型（Maximum Entropy Model，以下简称MaxEnt），MaxEnt 是概率模型学习中一个准则，其思想为：在学习概率模型时，所有可能的模型中熵最大的模型是最好的模型；若概率模型需要满足一些约束，则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出，对一个随机事件的概率分布进行预测时，预测应当满足全部已知的约束，而对未知的情况不要做任何主观假设。在这种情...

2018-08-08 19:52:59 7021

原创【机器学习】贝叶斯线性回归（最大后验估计+高斯先验）

引言如果要将极大似然估计应用到线性回归模型中，模型的复杂度会被两个因素所控制：基函数的数目（的维数）和样本的数目。尽管为对数极大似然估计加上一个正则项（或者是参数的先验分布），在一定程度上可以限制模型的复杂度，防止过拟合，但基函数的选择对模型的性能仍然起着决定性的作用。上面说了那么大一段，就是想说明一个问题：由于极大似然估计总是会使得模型过于的复杂以至于产生过拟合的现象，所以单纯的使用极大...

2018-08-07 23:48:20 40578 2

原创【数学基础】参数估计之贝叶斯估计

从统计推断讲起统计推断是根据样本信息对总体分布或总体的特征数进行推断，事实上，这经典学派对统计推断的规定，这里的统计推断使用到两种信息：总体信息和样本信息；而贝叶斯学派认为，除了上述两种信息以外，统计推断还应该使用第三种信息：先验信息。下面我们先把是那种信息加以说明。总体信息：总体信息即总体分布或总体所属分布族提供的信息。譬如，若已知“总体是正态分布”等等样本信息：即所抽取的样本的所有...

2018-08-07 16:50:35 52400 1

原创【数学基础】参数估计之最大后验估计（Maximum A Posteriori，MAP）

前言，MLE与MAP的联系在前一篇文章参数估计之极大似然估计中提到过频率学派和贝叶斯学派的区别。如下图在极大似然估计（MLE）中，我们求参数，通过使得似然函数最大，此时为一个待估参数，其本身是确定的，即使目前未知。MLE求的是怎样的参数可以让事件集发生的概率最大。通过不断改变固定的参数去寻找一个极大值。在最大后验估计（MAP）中，引用贝叶斯学派的思想，将参数看成一个随机变量...

2018-08-07 12:46:53 19746 2

原创【数学基础】参数估计之极大似然估计

背景先来看看几个小例子：猎人师傅和徒弟一同去打猎，遇到一只兔子，师傅和徒弟同时放枪，兔子被击中一枪，那么是师傅打中的，还是徒弟打中的？一个袋子中总共有黑白两种颜色100个球，其中一种颜色90个，随机取出一个球，发现是黑球。那么是黑色球90个？还是白色球90个？看着两个小故事，不知道有没有发现什么规律...由于师傅的枪法一般都高于徒弟，因此我们猜测兔子是被师傅打中的。随机抽取一个球，是...

2018-08-07 00:05:20 14815 2

转载【数学基础】概率论——p(x|\theta)和p(x;\theta)的区别

代表条件概率时，此时作为一个随机变量。当不代表条件概率时于等价，此时不是一个随机变量，而是一个待估参数（是固定的，只是当前未知）。两者都表示在给定参数时的概率。以下为转载求解最大似然估计时发现有两种表示方法 from:Gregor Heinrich - Parameter estimation for text analysis 有上述两种方法表示的原因 ...

2018-08-06 23:06:05 2796

原创【机器学习】线性回归之概率解释及局部加权线性回归

Probabilistic interpretation我们应该想这样一个问题：当我们讨论回归问题时，我们为什么要最小化平方损失函数？在CS229的课程中，吴恩达教授给我们做了详细的概率解释。现总结如下：对单个样本来说：其中为预测误差，我们假定样本的误差属于独立同分布。根据中心极限定理：多个随机变量的和符合正态分布；因为误差的随机性，符合均值为0，方差为的正态分布...

2018-08-06 20:21:39 753

转载【机器学习】线性回归之Normal Equation（矩阵求导与线性代数视角）

Normal Equation之前我们用梯度下降来求解线性回归问题的最优参数，除此之外我们还可以用正规方程法（Normal Equation）来求解其最优参数。Normal Equation方法的推导有两种方式矩阵求导（matrix derivative）其中其中X的行表示样本，列表示特征：令导数等于零：因此：关于矩阵求导的公式可以参见：常用的向量矩...

2018-08-06 14:59:33 13107 11

空空如也

空空如也