4 twilight0402

尚未进行身份认证

我要认证

程序员

等级
TA的排名 2w+

2020-10-04

pagerank是将众多网页看成一个有向图,每个页面就是有向图中的节点。计算每个节点的出度和入度。如果一个网站被大量其他的网页引用,那么他就会有更高的pr分数。原理对于所有与节点i相连的节点,用他们的pr值除以他们的出度(一个节点可以给多个节点投票,但是投票的权重会被平摊)计算转移矩阵。第一列表示A的所有出度 (A->A, A->B, A->C, A->D) ,第一行表示A的所有入度 (A->A, B->A, C->A, D->A) 。M=[0012

2020-10-04 17:03:31

Docker中数据卷(Volume)的使用

数据卷有两种形式,一种是容器中的某个目录,它可以被别的容器引用,只要有一个容器引用了这个数据卷,数据就不会被删除;另一种数据卷是将容器中的数据卷和宿主机的目录进行挂载。数据卷可以在多个容器之间共享,修改数据卷不会影响镜像。创建数据卷docker run -itd --name data1 -v /opt/data ubuntu:18.04 : 创建一个带有数据卷的容器,数据卷的位置是/opt/data,目录不存在会自动创建,该容器的数据卷可以被其他容器引用(容器有读写权限)docker run -i

2020-08-01 00:05:25

关于Dockfile的写法

Dockerfile是用来自定义构建镜像的文件。Dockerfile:FROM nginxRUN echo '这是一个本地构建的nginx镜像' > /usr/share/nginx/html/index.htmlFEOM : 指定基于哪个镜像进行自定义RUN : 运行指令, 两种形式RUN 命令RUN ["test.php", "dev", "offline"] 等价于 test.php dev offlinedocker 在每一行上新建一层,为了避免过多的层,用 &am

2020-07-31 21:25:15

Docker 常用命令整理

容器docker run ubuntu:18.04 echo hello docker表示用18.04的ubuntu镜像新建一个容器,用这个容器来执行echo命令docker run -i -t ubuntu [bash] 表示一个运行一个最新的ubuntu容器,并且进入到这个容器的bash中(不加i虽然可以进入bash,但是不可交互)。退出容器用exit或 ctrl+D(退出时会关闭&不删除容器)docker run -i -t -d ubuntu 容器后台运行,运行时的输出不会出现在宿主

2020-07-31 21:24:30

Transformer 结构分析

self-attetion1. 输入X=EmbeddingLookup(X)+PositionalEncodingX.shape==(batch_size,seq_len,embedding_dim)X = EmbeddingLookup(X) + PositionalEncoding \\X.shape == (batch\_size, seq\_len, embedding\_dim)X=EmbeddingLookup(X)+PositionalEncodingX.shape==(batch

2020-07-31 21:23:48

关于 Positional Encoding的理解

encodingSinusoidal Position EncodingPE(pos,2i)=sin⁡(pos100002idmodel)PE(pos,2i+1)=cos⁡(pos100002idmodel)\begin{aligned}P E_{(p o s, 2 i)} &=\sin \left(\frac{p o s}{10000^{\frac{2 i}{d_{\text {model}}}}}\right) \\P E_{(p o s, 2 i+1)} &=\cos \le

2020-07-31 21:23:07

Dropout原理分析

工作流程dropout用于解决过拟合,通过在每个batch中删除某些节点(cell)进行训练,从而提高模型训练的效果。通过随机化一个伯努利分布,然后于输入y进行乘法,将对应位置的cell置零。然后y再去做下一层的前向传播。rj(l)∼Bernoulli⁡(p)y~(l)=r(l)∗y(l)zi(l+1)=wi(l+1)y~l+bi(l+1)yi(l+1)=f(zi(l+1))\begin{aligned}r_{j}^{(l)} & \sim \operatorname{Bernoulli

2020-07-31 21:21:55

Linux---配置新服务器的常见操作(CentOS7)

修改 Centos7为字符界面Centos7取消了之前的 inittab文件的作用,改用命令实现,systemctl get-default : 获得默认启动方式systemctl set-default multi-user.target : 设置字符界面启动方式(level3)systemctl set-default graphical.target : 设置图形化启动方式(level5)修改主机名Centos7 中 :hostnamectl set-hostname xxxCe

2020-07-31 09:44:53

深度学习优化器对比--BGD/SGD/MBGD/MSGD/NAG/Adagrad/Adam

指数加权平均 (exponentially weighted averges)先说一下指数加权平均, 公式如下:vt=βvt−1+(1−β)θtv_{t}=\beta v_{t-1}+(1-\beta) \theta_{t}vt​=βvt−1​+(1−β)θt​θt\theta_tθt​ 是第t天的观测值vtv_tvt​ 是用来替代θt\theta_tθt​的估计值,也就是加权平均值β\betaβ 超参数设 β=0.9\beta = 0.9β=0.9 , 那么公式可以化简为:v100

2020-07-27 01:03:03

RDF/RDFS/OWL

RDF(Resource Description Framework 资源描述框架)知识总是以三元组形式出现: (subject, predicate, object) 即(主,谓,宾)资源和属性用URI来定义(http://demo.com/KG)属性值可以一个值,或者一个资源(URI)可用命名空间替代uri来简化<RDF> <Description about="https://www.runoob.com//rdf"> <author>J

2020-07-27 01:02:05

编辑距离(Minimum Edit Distance)

编辑距离(Minimum Edit Distance,MED),也叫 Levenshtein Distance。他的含义是计算字符串a转换为字符串b的最少单字符编辑次数。编辑操作有:插入、删除、替换(都是对a进行的变换)。用lev(i, j) 表示 a的前i个单词和 b的前j个单词的最短编辑距离(即从后往前)。可以分为以下几种情况:i == 0 或 j == 0lev(i,j)=max(i,j)lev(i, j) = max(i, j)lev(i,j)=max(i,j)i,j 不为0, 且

2020-07-27 01:01:00

词云(WordCloud)

WordCloud的参数:font_path:可用于指定字体路径width:词云的宽度,默认为 400;height:词云的⾼度,默认为 200;mask:蒙版,可⽤于定制词云的形状;min_font_size:最⼩字号,默认为 4;max_font_size:最⼤字号,默认为词云的⾼度;max_words:词的最⼤数量,默认为 200;stopwords:将被忽略的停⽤词,若不指定则使⽤默认停⽤词词库;background_color:背景颜⾊,默认为 black;mode:默

2020-07-27 01:00:12

Pandas常用方法

数据处理很多需要用到pandas,有两个基本类型:Series表示一维数据,DataFrame表示多维。以下是一些常用方法的整理:pandas.Series创建 Seriespandas.Series( data, index, dtype, copy)namevaluedata数据采取各种形式,如:ndarray,list,dict, constants(常量)...

2019-11-03 17:40:03

PCA降维的原理及实现

PCA可以将数据从原来的向量空间映射到新的空间中。由于每次选择的都是方差最大的方向,所以往往经过前几个维度的划分后,之后的数据排列都非常紧密了, 我们可以舍弃这些维度从而实现降维原理内积两个向量的乘积满足:ab=∣a∣⋅∣b∣⋅cos(θ)ab= |a|\cdot |b|\cdot cos(\theta)ab=∣a∣⋅∣b∣⋅cos(θ).如果∣b∣=1|b|=1∣b∣=1的话,ab=∣a...

2019-11-03 17:32:10

案例1-Digit-Recognizer

搬运来的步骤一. 数据分析下载并加载数据总体预览数据:了解每列数据的含义,数据的格式等数据初步分析,使用统计学与绘图: 由于特征没有特殊的含义,不需要过多的细致分析二. 特征工程1.根据业务,常识,以及第二步的数据分析构造特征工程.2.将特征转换为模型可以辨别的类型(如处理缺失值,处理文本进行等)三. 模型选择1.根据目标函数确定学习类型,是无监督学习还是监督学习,是分类问...

2019-11-03 17:31:36

sklearn中的SVM

SVM真的是很复杂的算法,原本以为原理看懂了实现就会很简单,然而事实并不是这样sklearn中对于支持向量机提供了很多模型:LinearSVC, LinearSVR, NuSVC, NuSVR, SVC, SVR参数SVC用于分类,用libsvm实现,参数如下:C : 惩罚项,默认为1.0,C越大容错空间越小;C越小,容错空间越大kernel : 核函数的类型,可选参数为:“l...

2019-11-03 17:31:05

支持向量机公式整理(SVM)

支持向量机可以分为三类:线性可分的情况 ==> 硬间隔最大化 ==> 硬间隔SVM近似线性可分的情况 ==> 软间隔最大化 ==> 线性支持向量机线性不可分的情况 ==> 核技巧/软间隔最大化 ==> 非线性SVM硬间隔向量机(hard margin svm)任务:寻找一条与所有支持向量距离最远的决策边界,这条决策边界就是0=wTX+b0 = ...

2019-11-03 17:29:01

numpy备忘(2)

x.ravel() 和 x.flatten() : 将多为数组降维到1维.ravel()返回元素的引用(对象不一样,但是元素是引用),flatten()返回新的元素。np.meshgrid(x, y) : 返回两个矩阵(X,Y),由这两个矩阵可以将xy定义的空间中的所有点描述出来。所有的点就是网格中的一个个焦点。# 每次刷新一行的感觉axis = [-2, 2, -2, 2]x0, x1 ...

2019-11-03 17:28:21

多项式回归 & pipeline & 学习曲线 & 交叉验证

多项式回归就是数据的分布不满足线性关系,而是二次曲线或者更高维度的曲线。此时只能使用多项式回归来拟合曲线。比如如下数据,使用线性函数来拟合就明显不合适了。接下来要做的就是升维,上面的真实函数是:$ y = 0.5x^2 + 2x + 5。而样本数据的形式是(x,y),以这种方式只能训练出。而样本数据的形式是(x, y),以这种方式只能训练出。而样本数据的形式是(x,y),以这种方式只能训练出...

2019-11-03 17:27:46

L1、L2-正则化

出现过拟合时,使用正则化可以将模型的拟合程度降低一点点,使曲线变得缓和。L1正则化(LASSO)正则项是所有参数的绝对值的和。正则化不包含theta0,因为他只是偏置,而不影响曲线的摆动幅度。J(θ)=MSE⁡(y,y^)+α∑i=1n∣θi∣J(\theta)=\operatorname{MSE}(y, \hat{y})+\alpha \sum_{i=1}^{n}\left|\theta...

2019-11-03 17:26:37

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享小兵
    分享小兵
    成功上传3个资源即可获取