三七、-CSDN博客

原创 BatchNorm 和 LayerNorm的差异

对于神经网络中，layer=Batchnorm(inputs, axis=[a,b,c])和layer=BatchnoLayerNormrm(inputs, axis=[a,b,c])而言，batchnorm的均值和方差维度等于[a,b,c]，而Layernorm会对输入中[a,b,c]这部分计算得到一个方差标量。正则化的核心当然是参数矩阵归一化，即均值和方差的计算。不同norm结构的区别正是计算均值和方差的方式。假设输入inputs完整维度未[x,y,a,b,c]。

2023-06-16 17:22:54 214

原创 AUC的计算、物理意义，

ROC曲线与坐标轴围城的面积。ROC曲线由不同阈值下，TPR（Y轴）与FPR（X轴）两个指标绘制成的。证明思路为根据AUC定义，使用积分求ROC曲线下面积，对积分进行展开即可。

2022-07-09 00:36:01 622 1

原创 Linux DNS配置

在CentOS 7下，手工设置 /etc/resolv.conf 里的DNS，过了一会，发现被系统重新覆盖或者清除了。和CentOS 6下的设置DNS方法不同，有几种方式： 1、使用全新的命令行工具 nmcli 来设置显示当前网络连接： nmcli connection showNAME UUID TYPE DEVICEeno1 5fb06bd0-0bb0-7ffb-45f1-d6edd65f3e03 802-3-

2022-01-12 19:56:21 372

原创 Linux杀死占用显存的僵尸进程

ps x |grep python |grep ? |awk '{print $1}'|xargs kill

2021-12-21 19:04:10 2749

原创 deepin20.3 的问题

deepin显示器无法唤醒解决方法发现系统无法唤醒是因为和nvida驱动有冲突，当直接使用nvidia驱动的显卡作为显示器输入信号源就会出现这个问题。但如果小伙伴又需要使用NVIDIA的显卡运行深度学习程序，可以参考这个办法。安装deepin系统时不要安装NVIDIA驱动安装好系统后，到NVIDIA官网下载官方驱动，关掉图形界面后，运行驱动安装程序，最后一个自动配置xserver-config选择No, 其他全部yes，安装程序会自动禁用deepin的默认驱动。安装好后，讲显示器输入源换到板载显卡

2021-12-09 13:20:23 1495

原创神经网络异常调试方法

训练模型时遇到这种情况，大多数为模型参数值过大，导致值溢出。具体原因可能为学习率过大模型结构设计不合理，数据传递缺少归一化，导致模型参数值不断变大。可以通过加入合理的输入归一化，以及权重衰减来完成。调试方法将出现异常后的模型权重保存下来。以pytorch为例，使用torch.save(model.state_dict(), path)打印模型所有参数矩阵的标准统计量model = ModelTransformer()model.load_state_dict(torch.load(..

2021-11-21 10:37:22 2500 4

原创强化学习笔记

文章目录一、基本框架二、算法分类2.1 按效果划分三、工具资源3.1强化学习算法库3.2强化学习环境库四、基于表格学习的算法算法描述4.1 sarsa(state-action-reward-state'-action')4.1 Q-learing五、DQN5.1 经验回放5.2 固定Q目标六、策略梯度方法与DQN对比6.1 策略梯度公式推导入门课程网址：https://aistudio.baidu.com/aistudio/education/lessonvideo/981570一、基本框架Envi

2021-11-14 19:23:38 2741

原创推荐系统学习笔记

一、传统模型演进史1. 协同过滤(CF)利用user-item交互矩阵（m x n维，一般用户数m远大于商品数n），生成user向量和item向量。UserCF通过当前用户topk相似用户对待预测商品的评分加权平均得到，具有社交性、适合热点追踪。需要维护m2m^2m2级别的用户相似度矩阵。用户的购买历史数据大多稀疏，因此用户相似度计算不可靠。ItemCF:通过当前用户最喜爱topk的商品，搜索其他相似商品，生成推荐列表。具有明显的兴趣类别特征。2. 矩阵分解(MF)业

2021-11-02 19:27:45 234

原创 docker使用笔记

文章目录一、关键词二、阿里云容器镜像服务三、食用姿势3.0 镜像构建3.1 使镜像在后台保持运行3.2 运行容器后，直接执行复杂的命令一、关键词镜像服务、镜像、容器二、阿里云容器镜像服务免费服务，相当于一个远程镜像仓库（类似git仓库），可以方便的在不同机器上同步镜像。命名空间：发布者的用户名仓库名称：一般与docker镜像名称一致，一个仓库只保存一个镜像tag(可以有不同的版本)新建仓库后，会有同步方法的命令提示。三、食用姿势3.0 镜像构建DockerFile这种方式，每一条

2021-06-27 21:14:17 68

原创动态规划学习笔记

视频地址:https://www.bilibili.com/video/BV1xb411e7ww?from=search&seid=104750769818529595751. 动态规划题目类型求最大最小值计数：有多少种方式（走到右下角？选出k个数和为sum??）求存在性（谁获胜？能不能选出k个数和为sum?）分类二坐标型序列型划分型区间型背包型最长序列型博弈型综合型2. dp组成部分一：确定状态状态是dp的定海神针，用一个数组记录，需要知道每个数组元素dp[i

2021-05-13 10:14:06 109

原创操作系统终端输入大小限制

问题描述使用c++写算法题时，测试用例是一个长字符串（上万字符）, 但运行结果显示字符串读入的长度远远小于输入长度。并且不同操作系统下面显示出了不同的bug：macos: 输入字符串长度只有1000+，超过这个长度成都就会卡在cin那行代码。ubuntu18.04: 程序不报错，读入字符串长度为4095，超过这个长度的字符都被’\000’替代。windows: 读入字符串长度4094，并报段错误。解决操作系统的终端对输入流大小有限制，通常为1kb-4kb，也就解释了上面的bug出现原因

2021-04-12 10:35:34 1179 4

原创知识图谱构建流程与技术简记

文章目录一、模式定义1.1 实体类别和概念分级1.2 关系和属性二、信息抽取1.1 命名实体识别1.2 关系抽取1.3 属性抽取1.4 实体链接三、图谱补全四、功能图谱的嵌入与结合事件图谱一、模式定义模式也就是知识图谱的本体，是整个项目的骨架，直接决定知识图谱的应用范围。这个阶段，需要根据知识图谱的应用场景，确定图谱的领域，进一步定义知识图谱的实体类别（概念）、概念分级、关系类别、属性类别等一系列数据规范。1.1 实体类别和概念分级一个实体的类别，也称作实体的上位词，每个上位词就是一个概念。

2021-03-27 20:54:32 763

原创决策树模型(ID3、C4.5、CART)与集成学习(bagging、boosting)

文章目录一、决策树1.0 属性选择评价指标相关概念1.1 ID3算法（多叉树）1.2 C4.5算法（多叉树）1.3 CART算法（二叉树）二、集成学习2.1 Bagging2.1.1 随机森林2.2 Boosting2.2.1 xgBoost2.2.2 adaBoost一、决策树1.0 属性选择评价指标相关概念熵：信息熵：信息熵增益：信息熵增益比：基尼指数：1.1 ID3算法（多叉树）属性选择：信息增益用途：多分类任务1.2 C4.5算法（多叉树）属性选择：信息增益比用途

2021-03-20 18:19:41 389

原创【笔记】二分查找和快速排序

二分查找关键点判断逻辑只有if - elseif条件中只能是单纯的<或>，不能有等号因为if中是单纯的大于或小于，对应的边界收缩就是mid+1或mid-1else中对应的边界收缩至mid跳出循环后左边界为搜索结果查找target最右边的位置。 int search(vector<int>& nums, int target) { if(nums.empty()) return -1; int l = 0, r = (

2021-03-16 22:20:36 94

原创 WEB开发跨域问题

相关资料：https://www.imooc.com/article/291931主要方法:前端请求头设置 Origin字段后端返回头设置 Access-Control-Allow-Origin字段

2021-03-15 11:24:29 73

原创高级数据结构：并查集、单调栈、单调队列

文章目录一、并查集1.1 适用问题类型1.2 基本api1.3 实现代码及原理1.4 练习题目1.5 推荐学习资料二、单调栈2.1 适用问题类型2.2 实现原理及代码2.4 练习题目三、单调队列3.1 适用问题类型3.2 基本api3.3 实现代码及原理3.4 练习题目一、并查集1.1 适用问题类型并查集可用于求图中是否存在环(这个当然也可以用拓扑排序)、图连通相关问题。1.2 基本api个人习惯将并查集抽象为一个类使用。并查集的基本操作与名称来由相关，及并操作和查操作，根据题目需求，可能会出现

2021-03-06 15:52:23 270

原创 C++语法糖

语法记录

2021-02-01 11:28:55 578

原创平衡搜索树：概念区分

关键词：二叉查找树(BST)、红黑树、平衡二叉树(AVL)、B树、B+树，BST这个很好区分，红黑树、AVL树都属于BSTAVL树在计算机科学中，AVL(named after inventors Adelson-Velsky and Landis)树是最先发明的自平衡二叉查找树。在AVL树中任何节点的两个子树的高度最大差别为1，所以它也被称为高度平衡树。增加和删除可能需要通过一次或多次树旋转来重新平衡这个树。红黑树红黑树是一种平衡二叉查找树的变体，它的左右子树高差有可能大于 1，所以

2021-02-01 10:40:43 101

原创 Ubuntu系统安装NVIDIA驱动最简单的方式

sudo ubuntu-drivers autoinstall

2020-10-27 09:41:14 258

原创常见深度学习优化算法比较

一、变量说明一下算法均为针对小批量梯度下降的算法，对于每个batch, 计算各个模型参数值为xtx_txt，参数梯度值为gtg_tgt，ttt为更新的步数。学习率为名称小批量随机梯度下降动量法AdaGradRMSPropAdaDeltaAdam维护变量xt−1x_{t-1}xt−1 gtg_tgt...

2020-07-27 23:14:14 533

原创 dijkstra堆优化代码详解

阅读堆优化代码之前，首先要弄懂dijkstra的基础思路，建议b站找个视频看下图解过程，二十分钟足矣。以上虽然是求概率最大路径，和通常求最短路劲相反，但思路相同。struct Node { double p; // 该结点到源点的当前最大概率 int node_id; bool operator < (const Node &b) const { return p < b.p; } //使用重载小于运算，从而利用优先队列模板};

2020-07-24 15:24:52 428

原创优化、参数估计与机器学习的关系

优化问题，首先有一个优化目标，然后是有计算公式/函数/模型。机器学习中的优化目标就是损失函数。这之后，优化可以简单的理解为最小化/最大化我们的目标，一般是通过更新函数或模型中的参数来实现优化过程。...

2020-07-15 22:44:14 860

原创 python函数参数*args, **kwargs其实很好区分

可变参数args，kwargs只是默认变量名称，翻译一下就是列表参数和字典参数(key-word args)，关键之处是这里的*和**，这两个都是可变参数。在函数定义时使用可变参数Python函数定义中的参数声明一般有三种方式：# 1. 显示参数（瞎编的）def func1(name, age): pass# 调用方式：func1('Lily', 12)func1(name='Lily', age=12)... 2. 列表参数 def func2(*args):

2020-06-21 12:10:44 380 1

原创 cs224n学习笔记L8:机器翻译(MT)、Seq2Seq、Attention

文章目录一、机器翻译1.1 基于规则1.2 基于概率(statistical)统计（SMT）1.2.1 P(x|y)的学习1.3 神经网络机器翻译(NMT)1.3.1 seq2seq结构1.3.2 seq2seq模型训练1.3.3 贪心解码1.3.4 穷举(exhaustive)搜索解码1.3.5 启发式搜索方法：Beam Search1.3.6 NMT优势与缺点1.3.7 模型验证1.3.8 N...

2020-06-18 20:49:23 384

原创 AI换脸踩坑记录：Faceshifter

论文地址：Implementation of https://arxiv.org/abs/1912.13457参考大佬复现代码：https://github.com/taotaonice/FaceShifterhttps://github.com/Heonozis/FaceShifter-pytorch由于论文原文没有给出代码，代码1应该算是原创。我在上面的基础上将原来模型处理256x256像素的图像改为128x128。amp混合精度训练暂且不说NVIDIA官方出这个包安装的坑，混合精度训练

2020-06-07 15:35:40 4679 19

原创 git定期清理提交历史避免仓库爆炸

git同步二进制文件会导致本地和远程仓库大小成倍增长，进而导致自动同步失败。使用如下脚本来控制仓库大小。注意，清理操作会造成所有提交历史log完全删除，不可恢复，建议提前备份（只针对.git文件夹，不会影响工作区文件）# # 每次推送检查仓库.git文件夹大小，需要定期在远程仓库gcsizes=(`du -d0 .git`)if [ ${sizes[0]} -gt 800000 ]then# 注意，此操作会造成所有提交历史log完全删除，不可恢复，建议提前备份 git checkout --o

2020-05-23 23:14:32 814

原创 linux创建定时服务service

一、创建执行服务脚本示例如下，三个文件：backup.servicebackup.timerrun_backup.sh文件内容分别为backup.service[Unit]Description=leanote backup.After=network.target [Service]User=changhongheWorkingDirectory=/home/changhonghe/github/leanoteBackup # 此处替换运行目录ExecStart=/usr

2020-05-23 21:30:27 427

原创舒适的vscode配置文件

{ // 编辑器基本设置 "editor.multiCursorModifier": "ctrlCmd", "editor.formatOnPaste": false, "terminal.integrated.inheritEnv": false, "editor.fontSize": 16, "terminal.integrated.fontSi...

2020-04-22 23:51:09 1020 1

原创命名实体识别LSTM+CRF的前向计算推导

文章目录1. log linear model1.2 逻辑回归1.1 CRF与逻辑回归的区别2. NER中的LSTM+CRF2.1 CRF的特征定义2.2 参数估计2.3 全局正则项的计算优化参考文献在用LSTM+CRF做命名实体识别任务时，由于pytorch框架的crf需要自己实现，网上的很多教程都跳过了一些关键部分导致自己难以理解。本文用来记录自己的相关理解，仅针对线性链式的CRF。欢迎指正...

2020-03-28 17:50:19 1029

原创 cs224n学习笔记L7: 梯度消失和高级RNN

文章目录一、梯度消失及爆炸1.1 RNN中的梯度消失（推导）1.2 梯度消失会带来的问题1.3 梯度爆炸带来的问题及解决办法二、更复杂的RNN2.1 Long Short-Term Memory(LSTM)2.1.1 LSTM的结构2.1.2 LSTM前向传播2.1.3 LSTM为什么解决了梯度消失的问题2.1.4 LSTM的发展历程2.1.5 Bidirectional RNNs2.1.6 mu...

2020-02-29 10:54:42 419

原创 cs224n学习笔记L6: Language models and RNNs

文章目录一、语言模型1.1 什么是语言模型（LM）1.2 n-gram语言模型1.2.1 n-gram数学原理1.2.2 n-gram缺点1.3 为什么要研究语言建模1.4 LM理解二、神经网络语言模型2.1 基于窗口的语言模型2.2 RNN2.3 RNN优缺点2.4 如何训练RNN模型2.5 RNN反向传播2.5.1 基本计算公式及其推导2.5.2 时间序上的反向传播2.5.3 RNN-LM文本...

2020-02-27 17:01:09 399

原创 cs224n学习笔记L5: Dpendency Parsing

文章目录课程安排一、语法结构1.1 CFGs(上下文无关文法)1.2 依赖结构表示句子中的词语其他词的依赖关系1.3 为什么要解析句子的结构1.4 依赖解析1.5 标注数据项目：universal dependencies treebanks1.6 Greedy transition-based parsing1.7 神经网络依赖解析器1.8 分布表示课程安排语法结构：一致性和依赖依赖语法...

2020-02-25 11:04:55 351

原创 cs224n学习笔记L4: Backpropagation and computation graphs

文章目录课堂安排一、反向传播·续1.1 ∂s∂W\frac{\partial s}{\partial W}∂W∂s的计算推导1.2 梯度推导温馨提示1.3 输入x的偏导课堂安排简单网络的梯度计算以及一些小提示计算图和反向传播需要掌握的知识a. 防止过拟合的规则 b. 向量化 c. 非线性 d. 初始化 e. 优化器 f.学习率一、反向传播·续1.1 ∂s∂W\frac{\par...

2020-02-24 20:27:20 313

原创 cs224n学习笔记L3:Neural Networks

文章目录

2020-02-21 22:21:10 414

原创边缘计算综述

文章目录优势发展边缘计算模型训练模型推断现状及展望边缘计算(Endge computing)，同边缘智能(Edge intelligence，EI),指将人工智能算法从传统的云计算中心转移到网络边缘的终端设备。本文搬运自【Edge Intelligence: Paving the Last Mile of ArtificialIntelligence with Edge Computing（Zh...

2020-02-17 15:15:10 2496

原创 cs224n学习笔记L2:word vectors and word senses

文章目录一、课堂计划二、词向量计算方法2.1 回顾word2vec计算2.2 word2vec中计算方法详解2.3 高频词(the)引起的问题三、优化基础3.1 梯度下降3.2 随机(stochastic)梯度下降（SGD）四、word vector优化过程4.1 SGD引起的稀疏数据4.2 两种词向量建模方案4.3 训练效率提升方案统计共现(co-occurence)词对一、课堂计划完成...

2020-02-17 14:58:05 562

原创 cs224n学习笔记L1:自然语言处理简介

一、课堂内容课程介绍人类语言及词义word2vec介绍word2vec目标函数梯度优化方法基础词向量概览二、课程介绍主要介绍cs224n的教学团队时间安排、课堂资源等。2.1 课堂资源课程网页(课件资源)：http://cs224n.stanford.edu、http://www.staford.edu/class/cs224n2.2 教学目标理解现代深度学习方法...

2020-02-12 11:49:08 477

原创 keras:LSTM部分参数解析

源码注释如下：即该参数为True的时候将返回整个序列的输出，否则只返回最后一个输出。以文本任务，假设LSTM有10个单元，那么返回参数为True时将返回这10个单元各自的隐藏状态（这里的隐藏状态为一个向量），适用于序列标注任务。否则只返回最后一个单元的隐藏状态，适用于序列分类任务。...

2020-01-09 11:54:24 1944

原创 Python高级编程技巧

坑坑坑mutiproccesssing多进程不能共享主进程的全局变量、甚至常量。如果需要共享常量、最简单的办法是传参。如果是要使用共享变量，只能使用mutiproccesssing.Manager()下面的工具了。python全局变量不能在函数内被修改，除非再用global关键字声明。含中文的话，文件头声明# coding:utf-8pythonic链式比较points[3][0]......

2019-11-13 10:03:17 823

原创《推荐系统与深度学习》阅读简记

1.推荐系统的基础算法1.1 基于内容的推荐根据用户喜好和item的特征来推荐，需要考虑item的特征提取1.2 基于协同的算法（collaborative filtering）1.2.1 基于物品的协同(ItemCF)协同，即假定用户会偏好购买相似的物品。以下方法计算物品相似度：基于共同喜欢用户列表使用购买次数N计算物品i与j的相关度：wij=∣Ni∩Nj∣∣Ni∗Nj∣w_{i...

2019-09-23 21:41:52 482

word2vec.pdf

空空如也