5 _大太阳_

尚未进行身份认证

暂无相关简介

等级
TA的排名 1w+

论文笔记(NLP)——Sentiment Classification using Document Embeddings trained with Cosine Similarity

1. AbstractDocument embedding将每个文档映射到连续向量空间中一个密集的低维的向量。本文提出了使用余弦相似度(cosine similarity)代替点积(dot product)来训练document embedding。数据集:IMDB实验表明:与dot product相比,使用cosine similarity可以提高准确性;将naive bayes的n-grams袋的feature combination加权使用可以达到97.42%的准确率。2. Intro

2020-05-22 16:09:45

论文笔记(NLP)——Convolutional Neural Networks for Sentence Classification

摘要本篇论文报告了一系列用预训练词向量上训练的CNN进行句子级分类任务的实验。展示了有少量参数调整和静态向量的简单的CNN在多个基准上达到了很好的效果。通过微调学习特定任务的向量能够进一步提高性能。另外本篇论文对结构进行简单的修改以允许使用特定任务和静态向量。本文讨论的CNN提高了7个任务中的4个技术,包括情感分析和问题分类。...

2020-05-22 10:53:21

LeetCode——最长公共子序列

题目描述给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列的长度。一个字符串的 子序列 是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(也可以不删除任何字符)后组成的新字符串。例如,“ace” 是 “abcde” 的子序列,但 “aec” 不是 “abcde” 的子序列。两个字符串的「公共子序列」是这两个字符串所共同拥有的子序列。...

2020-05-04 19:49:10

LeetCode——电话号码的字母组合

题目描述给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。示例:输入:“23”输出:[“ad”, “ae”, “af”, “bd”, “be”, “bf”, “cd”, “ce”, “cf”].题解:深度优先搜索def DFS(idx, lst, tmp, res): if id...

2020-05-04 19:16:30

LeetCode——最接近的三数之和

给定一个包括 n 个整数的数组 nums 和 一个目标值 target。找出 nums 中的三个整数,使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。例如,给定数组 nums = [-1,2,1,-4], 和 target = 1.与 target 最接近的三个数的和为 2. (-1 + 2 + 1 = 2).题解:1,与上一题思路相似2,双指针法c...

2020-04-30 16:39:17

LeetCode——三数之和

题目描述给你一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?请你找出所有满足条件且不重复的三元组。注意:答案中不可以包含重复的三元组。示例:给定数组 nums = [-1, 0, 1, 2, -1, -4],满足要求的三元组集合为:[[-1, 0, 1],[-1, -1, 2]]题解:1,排序2,双...

2020-04-24 10:09:35

LeetCode——罗马数字转整数

题目描述罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。字符 数值I 1V 5X 10L 50C 100D 500M 1000例如, 罗马数字 2 写做 II ,即为两个并列的...

2020-04-24 09:08:41

机器学习——交叉验证

交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。 那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。比如在我日常项目里面,...

2020-04-23 10:18:11

LeetCode—— 整数转罗马数字

罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。字符 数值I 1V 5X 10L 50C 100D 500M 1000例如, 罗马数字 2 写做 II ,即为两个并列的 1。12...

2020-04-23 09:44:53

机器学习——最小二乘法

最小二乘法是用来做函数拟合或者求函数极值的方法。最小二乘法的原理目标函数=∑(观测值−理论值)2目标函数=\sum(观测值-理论值)^2目标函数=∑(观测值−理论值)2观测值就是我们的多组样本,理论值就是我们的假设拟合函数,目标函数就是机器学习中的损失函数,我们的目标就是得到使目标函数最小时的拟合函数的模型。代数法求解对参数θiθ_iθi​分别求偏导,令偏导数为0,求解方程组。矩阵法求...

2020-04-22 15:14:32

机器学习——梯度下降(Gradient Descent)

梯度下降算法调优算法的步长。步长的实际取值取决于数据样本,可以夺取一些值,从大到小,分别运行算法,看迭代效果。如果损失函数在变小,说明取值有效,否则就要增大步长。步长太大,会导致迭代过快,甚至会错过最优解;步长太小,迭代速度太慢,很长时间算法都不能结束,所以算法的步长需要多次运行后才能取一个较为优的值。算法参数的初始值选择。初始值不同,获取的最小值也有可能不同,因此梯度下降求得的只是...

2020-04-22 14:43:57

LeetCode——盛最多水的容器

给你 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。说明:你不能倾斜容器,且 n 的值至少为 2。图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下,容器能够容纳水(表示为蓝色...

2020-04-22 10:53:25

机器学习——凸优化

在很多机器学习算法中,都会遇到最优化问题。因为我们机器学习算法,就是要在模型空间中找到这样一个模型,使得这个模型在一定范围内具有最优的性能表现。很多最优化问题都是在目标函数是凸函数或者凹函数的基础上进行的。原因很简单,凸函数的局部极小值就是其全局最小值,凹函数的局部极大值就是其全局最大值。因此,只要我们依据一个策略,一步步地逼近这个极值,最终肯定能够到达全局最值附近。凸函数与凹函数判断...

2020-04-18 20:34:14

LeetCode——正则表达式匹配

题目描述:给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配。‘.’ 匹配任意单个字符‘*’ 匹配零个或多个前面的那一个元素所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。说明:s 可能为空,且只包含从 a-z 的小写字母。p 可能为空,且只包含从 a-z 的小写字母,以及字符 . 和 *。示例 1:输入:s = “aa”...

2020-04-18 20:09:09

LeetCode——字符串转换整数(int)

题目描述:请你来实现一个 atoi 函数,使其能将字符串转换成整数。首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为止。接下来的转化规则如下:如果第一个非空字符为正或者负号时,则将该符号与之后面尽可能多的连续数字字符组合起来,形成一个有符号整数。假如第一个非空字符是数字,则直接将其与之后连续的数字字符组合起来,形成一个整数。该字符串在有效的整数部分之后也可能会...

2020-04-17 08:47:11

LeetCode——Z字形变换

题目描述:将一个给定字符串根据给定的行数,以从上往下、从左到右进行 Z 字形排列。比如输入字符串为 "LEETCODEISHIRING" 行数为 3 时,排列如下:L C I RE T O E S I I GE D H N之后,你的输出需要从左往右逐行读取,产生出一个新的字符串,比如:"LCIRETOESIIGEDHN"。请你实现这个将字符串进行指定行数变换...

2020-04-16 09:45:51

激活函数

什么是激活函数神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(又称激励函数)。为什么要用激活函数如果不用激励函数,在这种情况下每一层节点的输入都是上层输出的线性函数,很容易验证,无论神经...

2020-04-14 17:07:55

机器学习——L1与L2正则化

正则化机器学习中几乎都可以看到损失函数后边会添加一个额外项,常用的额外项一般有两种,L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看成是损失函数的惩罚项,「惩罚」是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型叫做Lasso回归,使用L2正则化的模型叫做Ridge(岭)回归。1) L1正则化:L1正则化是指权重向量www中各个元素的...

2020-04-11 16:05:43

机器学习——XGBoost

什么是XGBoost全称:eXtreme Gradient Boosting基础:GBDT所属:boosting迭代型、树类算法。适用范围:分类、回归优点:速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。缺点:算法参数过多,调参负责,对原理不清楚的很难使用好XGBoost。不适合处理超高维特征数据。XGBoost原理XGBoost 所应用的算法就是GBDT...

2020-04-11 12:04:47

机器学习——集成学习

集成学习概述集成学习本身不是一个机器学习算法,而是通过构建并结合多个机器学习器完成学习任务。集成学习可以用于分类问题集成、回归问题集成、特征选取集成、异常点检测集成等等。对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,达到“博采众长”的效果。集成学习有两个主要的问题需要解决:1)如何得到若干个个体学习器2)如何选择一种结合策略将个体学习器...

2020-04-10 16:38:37

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取