自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 收藏
  • 关注

原创 李宏毅 - 课程笔记及作业解答 - 汇总 -- 更新中

1. 机器学习课程 ML课程笔记:章节简介1 - Introduction & next step机器学习介绍 & 机器学习下一步2 - Regression + Demo回归 & 示例代码3 - Bias & Variance偏差和方差4 - Gradient Descent梯度下降方法5 - Cla...

2019-07-31 09:06:00 979 1

原创 精读《C++ primer》学习笔记(第四至六章)

第四章:重要知识点:4.1 基础函数调用是一种特殊的运算符,它对运算对象的数量没有限制。重载运算符时可以定义运算对象的类型,返回值类型,但运算对象的个数,运算符的优先级,结合律无法改变。当一个对象被用作左值时,使用的是对象在内存中的位置,当用作右值时,使用的是对象的值。左值有时可以当做右值使用,但右值不能当做左值使用。decltype()函数中,如果表达式的求值结果是左值,则函数得到一个引用类型。以下由于求值顺序问题造成的结果未定义错误:int i = 0;cout << i

2022-03-05 10:03:34 295

原创 精读《C++ primer》学习笔记(第一至三章)

第一章:重要知识点:类型:一种类型不仅定义了数据元素的内容,还定义了这类数据上可以进行的运算;所以说类定义,实际上就是定义了一种数据类型;>>和<<运算符返回其左侧的运算对象:std::cin >> v1 >> v2; 和以下代码执行结果一样:std:cin >> v1; std:cin >> v2; 良好的行注释风格:注释内的每一行都以一个星号开头,从而指出整个范围都是多行注释的一部分;#include&

2022-03-05 10:01:18 320

原创 【Python】中国有哪些同名的省市县?

这道题适合写个脚本来解。首先从百度地图API下载一份行政区划数据。开发资源 | 百度地图API SDK然后做一个简单的数据统计就可以啦~行政区划同一级同名的:import pandas as pddf = pd.read_csv("行政区划乡镇清单202003.csv")dic = {}prov = list(df['NAME_PROV'])city = list(d...

2021-01-24 21:48:00 525

原创 【笔记】Java函数式编程

Lambda表达式Lambda表达式由三个部分组成:第一部分为一个括号内用逗号分隔的参数列表,参数即函数式接口里面方法的参数;第二部分为一个箭头符号:->;第三部分为方法体,可以是表达式和代码块。可选的类型声明:你不用去声明参数的类型。编译器可以从参数的值来推断它是什么类型。可选的参数周围的括号:你可以不用在括号内声明单个参数。但是对于很多参数的情况,括号是必需的。可选的大括号...

2021-01-16 23:58:00 424

原创 【leetcode】腾讯精选练习 50 题(更新中)

2. 两数相加https://leetcode-cn.com/problems/add-two-numbers/给你两个非空 的链表,表示两个非负的整数。它们每位数字都是按照逆序的方式存储的,并且每个节点只能存储一位数字。请你将两个数相加,并以相同形式返回一个表示和的链表。你可以假设除了数字 0 之外,这两个数都不会以 0开头。题目思路总共三个数需要相加,l1取的...

2021-01-11 23:32:00 210

原创 【笔记】Vim

6种基本模式普通模式:用的编辑器命令,比如移动光标,删除文本等等。dd删除当前行,dj删除当前行和下一行。2dd(重复dd两次),和dj效果一样。按 a(append/追加)键或者 i(insert/插入)键进入插入模式。插入模式:按 ESC 键回到普通模式。可视模式:这个模式与普通模式比较相似。但是移动命令会扩大高亮的文本区域。高亮区域可以是字符、行或者是一块文本。当...

2021-01-04 10:32:00 117

原创 【笔记】Java基础教程学习(更新中)

Java基础语法Hello World 代码public class HelloWorld{ public static void main(String[] args){ System.out.println("HelloWorld!"); }}常量定义(编码规范要求为大写):final 数据类型 常量名 = 值;如 final doubl...

2021-01-03 20:54:00 114

原创 【面试题】Java核心技术三十六讲(更新中)

Java面试者存在的问题应聘初级、中级的Java工程师,要求扎实的Java和计算机科学基础,掌握主流框架的使用。应聘高级Java工程师或技术专家,需要对Java IO/NIO,并发,虚拟机等,要掌握底层源码,并对分布式,安全,性能等领域有进一步的要求。Java面试者通常存在的问题:“知其然不知其所以然”。虽然面试者做了多年技术,开发了很多业务应用,但似乎并未思考过种种技术选择背后...

2021-01-03 14:26:00 236

原创 【笔记】MySQL基础及高级特性(更新中)

介绍MySQL属于Oracle公司,是关系型数据库(基于集合代数方法来处理数据)。基础操作安装(Ubuntu)# 服务端sudo apt-get install mysql-server# 客户端sudo apt-get install mysql-client启动# 打开mysql服务sudo service mysql start# 验证是否安装并启动成功su...

2021-01-02 22:00:00 96

原创 【读书笔记】Effective Java(更新中)

创建和销毁对象何时以及如何创建对象?何时以及如何避免创建对象?如何确保它们能够适时地销毁?如何管理对象销毁之前必须进行的各种清理动作?第1条:考虑用静态工厂方法代替构造器...

2021-01-01 20:19:00 100

原创 【笔记】正则表达式

正则表达式本文主要是通过grep, sed等命令在linux环境下使用正则表达式。特殊符号[:alnum:]代表英文大小写字母及数字[:alpha:]代表英文大小写字母[:blank:]代表空格和 tab 键[:cntrl:]键盘上的控制按键,如 CR,LF,TAB,DEL[:digit:]代表数字[:graph:]代表空白字符以外的其他[:lower:]小写字母[:...

2021-01-01 11:10:00 165 1

原创 【读书笔记】自然语言处理综论笔记汇总

目录自然语言处理综论笔记 - 统计剖析自然语言处理综论笔记 - HMM&ME自然语言处理综论笔记 - 词性标注自然语言处理综论笔记 - 语言和复杂性自然语言处理综论笔记 - N-gram...

2020-12-31 11:41:00 273

原创 【sklearn】学习笔记汇总

目录sklearn - 感知机sklearn - xgboostsklearn - 特征选择与降维sklearn - 词袋模型/TF-IDF模型sklearn - 朴素贝叶斯sklearn - 决策树

2020-12-31 11:39:00 103

原创 【学习笔记】23种设计模式与7大设计原则(更新中)

大图镇楼设计模式的七大原则设计模式是一种经验复用。其中最重要的经验是解耦。以下这些原则需要自己构想出案例来解释,否则需要重新学习。开闭原则OCP(Open-Closed Principle)在软件实体(如类、函数)中,对扩展开放,对修改关闭。核心在于面向抽象编程。里式替换原则LSP(Liskov Substitution Principle)继承必须确保超类所拥有的性质在...

2020-12-30 00:06:00 124

原创 【读书笔记】Thinking in Java(更新中)

第一章 对象导论面向机器的编程语言:比如C,需要建立从问题空间到解空间的映射,需要掌握所谓的编程方法,这导致程序很难编写。对求解问题建模的语言:比如LISP,限定性太强,超出特定领域,则力不从心。面向对象的语言:比如Java,通用性强,不限于任何特定的问题。对象:具有状态,行为和标识。即拥有内部数据,方法,和唯一的地址。设计目的:因为可以自定义类,所以程序员可以灵活地定义类来适应问...

2020-12-28 21:58:00 122

原创 【学习笔记】Java面试准备讲座笔记

介绍本文内容是基于cyc2018在牛客网上的讲座做的笔记整理。cyc2018毕业于交大,硕士,最后拿到了字节的ssp。GitHub:https://github.com/CyC2018/CS-Notes学习规划复习方法:结合面经看书,并通过面试及时查漏补缺面试一线大厂需要重点准备:数据结构与算法、计算机网络、操作系统面试小公司需要重点准备:语言和框架(去了就直接干活)简...

2020-12-27 21:46:00 134

原创 【leetcode】链表相关题目思路总结(更新中)

简单题206. 反转链表剑指 Offer 24. 反转链表https://leetcode-cn.com/problems/reverse-linked-list/https://leetcode-cn.com/problems/fan-zhuan-lian-biao-lcof/submissions/题目描述:反转链表。解题思路:借助几个临时指针。一个prev,一个cur...

2020-12-15 23:40:00 148

原创 【leetcode】栈、队列相关题目思路总结(更新中)

简单题面试题03.02 栈的最小值剑指offer30 包含min函数的栈155. 最小栈https://leetcode-cn.com/problems/min-stack/https://leetcode-cn.com/problems/min-stack-lcci/https://leetcode-cn.com/problems/bao-han-minhan-shu-de-z...

2020-12-10 01:53:00 498

原创 【C++】一些常用的STL库等

stack#include <stack>std::stack<int> S;S.push(1); // 入栈S.size(); // 栈大小S.empty(); // 判空S.top(); // 获取栈顶元素S.pop(); // 出栈queue#include <queue>std::queue<int> Q;...

2020-12-05 00:58:00 112

原创 【词性标注】采用隐马尔可夫模型(使用了3-gram和Good-Turing平滑方法),准确率93%...

博客内容有空了再补充。先贴代码。数据地址:链接: https://pan.baidu.com/s/1-RbHi5xxBwJDG1gqAYUReQ 密码: rkup完整代码如下:import argparseimport timeparser = argparse.ArgumentParser()parser.add_argument('--train', help='in...

2020-12-01 11:54:00 460

原创 【笔记】bash脚本

Bash介绍:Bash(GNU Bourne-Again Shell)是一个为 GNU 计划编写的 Unix shell,它是许多 Linux 平台默认使用的 shell。解释性语言,脚本语言,胶水语言(可以通过将系统调用、公共程序、工具和编译过的二进制程序”粘合“在一起来建立应用)。Shell 脚本对于管理系统任务和其它的重复工作的例程来说,表现的非常好,根本不需要那些华而不实的...

2020-11-24 12:27:00 173

原创 【leetcode】周赛记录

目录:1. 2020年9月13日 -- 周赛2. 2020年10月31日 -- 双周赛3. 2020年11月1日 -- 周赛4. 2020年11月8日 -- 周赛5. 2020年11月28日 -- 双周赛2020年9月13日 -- 周赛做对了两道题。1582. 二进制矩阵中的特殊位置 -- 简单题目链接:https://leetcode-cn.com/problems/spec...

2020-11-08 21:35:00 246

原创 【剑指offer】leetcode刷题 -- Python3实现 -- 共75题(更新中)

目录:1. 剑指 Offer 03. 数组中重复的数字 -- 简单2. 剑指 Offer 04. 二维数组中的查找 -- 简单3. 剑指 Offer 05. 替换空格 -- 简单4. 剑指 Offer 06. 从尾到头打印链表 -- 简单5. 剑指 Offer 07. 重建二叉树 -- 中等6. 剑指 Offer 09. 用两个栈实现队列 -- 简单7. 剑指 Offer 10- I....

2020-10-26 23:39:00 254

原创 【论文翻译】Deep Speech 2(百度, 2015) : End-to-End Speech Recognition in English and Mandarin...

论文地址百度的 DeepSpeech2 是语音识别业界非常知名的一个开源项目。本博客主要对论文内容进行翻译,开源代码会单独再写一篇进行讲解。这篇论文发表于2015年,作者人数非常多,来自于百度硅谷AI实验室语音技术组。论文下载地址:https://arxiv.org/pdf/1512.02595.pdf (28页)http://proceedings.mlr.press/v48/...

2020-08-25 13:25:00 777

原创 【笔记】机器学习 - 李宏毅 - 18 - Auto Encoder

自动编码器encoder和decoder没办法单独训练,但接在一起就可以做无监督学习。中间压缩了维度的隐藏层叫做bottleneck layer(像颈部一样比较细),两边的权重通常互为转置(可以减少参数量,但不是必须这样的)。中间的维度肯定是要小于input的,是需要做一下压缩的,不然网络直接把input复制过来,输出output,就得到正确结果了,这样的网络是没有用的。也可以...

2020-08-23 22:49:00 140 1

原创 【笔记】机器学习 - 李宏毅 - 16 - Word Embedding

从one-hot到word embedding词表示最直觉的做法是1-of-N Encoding, 向量维度和词表大小一样,每个词在其中某一维为1,其他维为0。这种表示法无法体现出词之间的关系。word class方法是将意思相似或者同种属性的词归为一类,但这种划分太粗糙了,而且需要很多人工设计。word embedding也是一种降维操作,不过是通过无监督的方法从文本中学出来的。...

2020-08-22 20:10:00 183

原创 【annoy】高维空间求近似最近邻

在介绍腾讯词向量时,用到了annoy,这里对annoy的用法详细做一下介绍。GitHub地址:https://github.com/spotify/annoyAnnoy是Erik Bernhardsson在Hack Week期间花了几个下午写的(github原话),全称Approximate Nearest Neighbors Oh Yeah(这个Oh Yeah真是亮瞎眼)。这个包的...

2020-08-21 15:58:00 662

原创 【tf安装版本】linux安装tensorflow,和cuda, cudnn版本对应关系

官网网址:https://tensorflow.google.cn/install/source#linux查看Ubuntu版本:cat /etc/issuecuda版本查看:nvcc -V 或 cat /usr/local/cuda/version.txtcudnn版本查看:cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJO...

2020-08-21 15:26:00 140

原创 【pip】国内镜像地址

镜像地址(1)阿里云 http://mirrors.aliyun.com/pypi/simple/(2)豆瓣 http://pypi.douban.com/simple/(3)清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/(4)中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/...

2020-08-21 11:34:00 80

原创 【linux】文件压缩分包与批量解压

将文件test分包压缩成10M 的文件:tar czf - test | split -b 10m - test.tar.gz后台运行:nohup tar czf - test | split -b 10m - test.tar.gz &批量解压缩:cat test.tar.gz* | tar -xzv...

2020-08-21 10:45:00 188

原创 【腾讯词向量】腾讯中文预训练词向量

腾讯词向量介绍腾讯词向量主页:https://ai.tencent.com/ailab/nlp/zh/embedding.html词向量下载地址:https://ai.tencent.com/ailab/nlp/zh/data/Tencent_AILab_ChineseEmbedding.tar.gz腾讯词向量(Tencent AI Lab Embedding Corpus for...

2020-08-20 21:42:00 3145

原创 【模型部署】使用Flask部署算法模型

Flask介绍Flask是一个非常轻量级的Python Web框架。使用Flask可以很容易地部署算法服务,通过HTTP方式对外提供API响应接口。以敏感词检测算法为例。 如果要部署其他算法,代码对应做一些修改既可。部署代码from flask import Flask, requestfrom sensitive_word_detect import SensitiveWor...

2020-08-20 15:09:00 1093

原创 【debug】python在import Flask的时候报错cannot import name 'dump_age'

python在import Flask的时候报错cannot import name 'dump_age'原因:werkzeug版本不兼容。解决方法:pip uninstall werkzeugpip install -U werkzeug

2020-08-20 11:18:00 161

原创 【敏感词检测】用DFA构建字典树完成敏感词检测任务

任务概述敏感词检测是各类平台对用户发布内容(UGC)进行审核的必做任务。对于文本内容做敏感词检测,最简单直接的方法就是规则匹配。构建一个敏感词词表,然后与文本内容进行匹配,如发现有敏感词,则提交报告给人工审核或者直接加以屏蔽。当然也可以用机器学习的方法来做,不过需要收集及标注大量数据,有条件的话也可以加以实现。任务难点及解决策略1)对抗检测的场景:比如同音替换、字形替换、隐喻暗...

2020-08-19 17:53:00 1232

原创 【小技巧】python print方法重写

print方法的参数print方法的参数:(在python3的命令行执行help(print)就可以看到)print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)将 value 打印到一个输出流,默认的输出流为 sys.stdout。可选参数有:file: 使用一个文件对象作为输出目标,默认值为当前输...

2020-08-19 16:57:00 1567

原创 【知识总结】预训练语言模型BERT的发展由来

语言模型语言模型是根据语言客观事实对语言进行抽象数学建模。可以描述为一串单词序列的概率分布:通过极大化L可以衡量一段文本是否更像是自然语言(根据文本出现的概率):函数P的核心在于,可以根据上文预测后面单词的概率(也可以引入下文联合预测)。其中一种很常用的语言模型就是神经网络语言模型。神经网络语言模型NNLM:给定上文的单词,利用神经网络来预测当前位置的单词。即最大化:...

2020-08-19 14:43:00 442

原创 【linux】没有root权限如何通过apt安装软件

没有root权限如何通过apt安装deb软件一般来说使用apt安装软件,必须要有root权限,因为apt安装时需要写 /usr/bin,/usr/lib,/usr/share等目录,而这些目录只有root用户(或有sudo权限)才有写入权限的。所以要另辟蹊径,换种安装方式。1. 首先下载包apt-get download your-package-name2. 安装到本地dp...

2020-08-11 16:38:00 2940 2

原创 【笔记】DLHLP - 李宏毅 - 5 - 语音识别 - Part 4 HMM

Hidden Markov Model (HMM)以前语音识别用的是统计模型,而现在,深度学习的方法有很多思想也还是借鉴的HMM。X是输入语音序列,Y是输出文字,我们的目标是穷举所有可能的Y,找到一个\(Y*\)使得\(P(Y|X)\)最大化。这个过程叫作解码。根据贝叶斯定律,我们可以把它变成\(\frac{P(X|Y)P(Y)}{P(X)}\)。由于P(X)与我们的解码任务是无...

2020-07-08 17:08:00 320

原创 【笔记】DLHLP - 李宏毅 - 4 - 语音识别 - Part 3 CTC, RNN-T and more

Connectionist Temporal Classification (CTC)CTC可以用于线上实时地语音识别,编码器用的是单向的RNN,解码是用MLP来预测文字分布。编码器将语音输入\(x^i\)编码成\(h^i\),MLP再对它乘上一个权重,接上Softmax,得到词表V大小的概率分布。但有时候当前的语音输入可能并不能对应实际的文本token,所以预测要额外多一个为空的...

2020-07-08 15:28:00 393 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除