自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(143)
  • 收藏
  • 关注

原创 自编码/自回归/seq2seq 真的理解了吗?

宏观来讲,当今的天下,可以说是transformer的天下,今天下三分,分别是 自编码(Autoencoder),自回归(Autoregressive),和怎么理解呢?encoder(左派)自编码代表:bertseq2seq代表:bart自回归代表:gpt上面那个图大家看了可能就会首先有个宏观的了解,接下来,会稍微细节简单说一下,之后相关的文章也会跟进。

2024-03-25 23:45:15 821 1

原创 强化学习开篇-那些问123

智能体基于当前状态,采取动作,环境给出反馈也就是奖励,再去更新当前的状态。

2023-06-08 01:28:54 414

原创 排序指标解读-GAUC

AUC和GAUC其实是同一类物种,只不过GAUC是个更细心,会考虑到每一个人的更细心的物种,而AUC是更有全局观,以整体为主的物种。

2023-03-21 00:54:36 384

原创 第一问-追本溯源求解平方根?

从平方根求解开始打开深度的大门

2023-03-12 17:02:50 155

原创 排序-指标解读-roc/auc

带大家搞清推荐系统中排序的常用评估指标的前世今生哦!

2022-11-27 22:12:20 438

原创 第一章、part03-动态内存分配

动态内存分配存在的意义就是更高效的利用内存空间,简单来说,用多少给多少,而不是提前开辟很大的内存空间,但不用那么多,类似数组。动态分配出一片大小为N * sizeof(T)字节的内存空间,并且将该内存空间的起始地址赋值给P,示例如下。动态分配出一片大小为sizeof(T)字节的内存空间,并且将该内存空间的起始地址赋值给P,如下。万物皆有轮回,有new来创建,对应的就有delete来释放。用new创建的内存空间,一定要用delete来释放掉!T 是任意的类型名, P 是T * 的指针。他们的返回值都是T*

2022-09-14 02:06:43 475 1

原创 第一章、part02-const关键字

常量指针的出现就是为了防止被不小心修改

2022-09-13 00:23:00 130

原创 第一章、part01-引用

类型名 & 引用名 = 变量名;上面这个写法就定义了一个变量名的引用。举个例子:int x = 0;此时 y 引用了x, y的类型是int &变量的引用就等价于这个变量,简单来说,y就是x的别名。举个代码例子,如下一目了然。

2022-09-11 21:00:41 722 1

原创 闲谈-记录最近感想的123

本篇博客会陆续更新,记录一些个人成长路上的想法

2022-07-31 15:20:17 143

原创 内容id生成器

1、背景首先个人理解,赋予一个背景,比如推荐系统中抖音里面,每天都有很多的作者去上传很多的视频,量级可能非常大,并且之前的视频也会累积,那么如何区分不同的视频内容呢,就是id了,类似于我们的身份证件,但是如何做到唯一标识呢?2、实现框架这个就会用到传说中的---雪花算法。雪花算法(Snowflake)是twitter公司内部分布式项目采用的ID生成算法,开源后广受国内大厂的好评,在该算法影响下各大公司相继开发出各具特色的分布式生成器。名字很高大上哈,其实很简单,看下面这张图片,就是雪

2022-03-26 17:18:39 993 2

原创 第二十一篇:伦理/道德Ethics

什么是伦理/道德?我们应该如何生活——苏格拉底• 正确的做法是什么?• 为什么?

2021-06-20 23:01:49 6990 4

原创 第二十篇:Summarisation摘要

摘要• 从文本中提取最重要的信息以生成缩短或删节的版本• 例子 ‣ 文档大纲 ‣ 科学文章摘要 ‣ 新闻标题 ‣ 搜索结果片段

2021-06-20 19:31:14 137 4

原创 第十九篇:主题建模Topic Modelling

理解文本• 英文维基百科:600 万篇文章• Twitter:每天 5 亿条推文• 纽约时报:1500 万篇文章• arXiv:100 万篇文章• 如果我们想了解有关这些文档集的一些信息,我们可以做什么?

2021-06-20 17:54:31 2154 2

原创 第十八篇:Question Answering问答系统

介绍• 定义:问答(“QA”)是自动确定自然语言问题答案的任务• 主要关注“事实”问题

2021-06-20 15:13:04 578

原创 第十七篇:信息抽取Information Extraction

信息抽取

2021-06-19 23:27:39 359 6

原创 第十六篇:机器翻译

介绍• 机器翻译 (MT) 是将文本从一种源语言翻译成另一种目标语言的任务为什么?

2021-06-19 18:47:47 324

原创 第十五篇:依存语法Dependency Grammar

上下文无关语法(回顾)• CFG 假设有一个选区树来标识句子中的短语‣ 基于这些短语可以互换(例如,将一个 NP 换成另一个 NP)并保持语法性的想法

2021-06-19 17:42:34 2387 2

原创 第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar

解析中的歧义• 上下文无关文法为语言分配层次结构 ‣ 公式化为生成语言中的所有字符串 ‣ 预测给定字符串的结构

2021-06-19 15:28:00 595

原创 第十三篇:上下文无关语法 Context-Free Grammar

回顾• 中心嵌入

2021-06-19 14:32:16 1618

原创 第十二篇:形式语言理论与有限状态自动机

我们到目前已经介绍了什么?• 处理单词序列的方法: ‣ N-gram 语言模型 ‣ 隐马尔可夫模型 ‣ 循环神经网络• 这些模型没有任何基本的语言学

2021-06-19 11:11:39 448

原创 第十一篇:Discourse 话语/论述

话语• 我们学到的大多数任务/模型都在单词或句子级别运行: ‣ 词性标注 ‣ 语言模型‣ 词法/分布语义• 但 NLP 经常处理文档• 话语:了解文档中句子之间的相互关系

2021-06-19 10:00:15 674

原创 第十篇:上下文表示

词向量/嵌入• 每种词类型都有一种表示 ‣ Word2Vec• 无论单词的上下文如何,始终使用相同的表示• 无法捕捉词的多种含义• 上下文表示 = 基于上下文的单词表示• 预训练的上下文表示非常适合下游应用程序!...

2021-06-18 23:54:00 599 1

原创 第八篇:CAP理论

CAP定理分布式数据库的局限性可以用所谓的 CAP 定理来描述一致性:每个节点在任何给定实例上总是看到相同的数据(即严格一致性)

2021-06-17 18:52:13 157

原创 第九篇:分布式语义

词法数据库(上一篇提到)- 问题• 手动构建 ‣ 昂贵的 ‣ 人工标注可能存在偏差和噪声• 语言是动态的 ‣ 生词:俚语、术语等。‣ 新感官• Internet 为我们提供了大量文本。 我们可以用它来获得词义吗?...

2021-06-15 23:43:47 1093 8

原创 第八篇:词汇语义

情感分析• 词袋,kNN 分类器。 训练数据: ‣ “This is a good movie.” → ☺ ‣ “This is a great movie.” → ☺‣ “This is a terrible film.” → ☹• “This is a wonderful film.” → ?• 两个问题:‣ 模型不知道“电影”和“电影”是同义词。 由于“film”仅出现在负面示例中,因此模型了解到它是一个负面词。‣ “精彩”不在词汇表中(OOV – 词汇外)。...

2021-06-15 17:11:52 480 3

原创 第七篇:循环神经网络

循环神经网络 (RNN)• RNN 允许表示任意大小的输入• 核心思想:通过应用递推公式一次处理一个输入序列• 使用状态向量来表示先前已处理过的上下文

2021-06-15 12:26:18 328 2

原创 第六篇:Feedforward Networks 前向网络

深度学习• 机器学习的一个分支• 重新命名神经网络• 神经网络:历史上受到大脑计算方式的启发 ‣ 由称为神经元的计算单元组成• 为什么深? 许多层在现代深度学习模型中链接在一起...

2021-06-14 21:48:42 1678 6

原创 第七篇:并发-恢复机制

复习ACID 属性❖ A tomicity:Xact 中的所有动作都发生,或者不发生。❖ 一致性:如果每个 Xact 是一致的,并且 DB 开始一致,则它最终一致。❖ 隔离:一个 Xact 的执行与其他 Xact 的执行隔离。❖ 持久性:如果 Xact 提交,其效果将持续存在。...

2021-06-14 16:52:06 945 2

原创 第六篇:并发-粒度锁

并发事务 – 冲突和性能问题多个并发运行的事务可能会导致冲突- 我们仍然尽量允许并发运行以获得更好的性能,同时尽可能避免冲突

2021-06-14 09:38:28 280

原创 第五篇:并发控制-隔离

• 多个并发事务可能会出现问题• 需要并发控制 - 独享共享资源,处理并发问题

2021-06-13 21:46:08 207

原创 第四篇:并发

并发控制• 解决冲突• 保持数据库一致性并发控制的不同方式

2021-06-13 12:25:07 114 2

原创 第三篇:事务

数据库事务事务 - 数据库中的工作单元- 交易中可以包含任意数量和类型的操作- 要么整体发生要么不发生- 事务最好有四个属性,通常称为 ACID 属性

2021-06-12 17:45:25 321 1

原创 第二篇:故障容忍

故障容忍使系统能够在其某些组件发生故障时继续正常运行的属性。从统计的角度出发P(A) = probability of an event A is happening in a certain period.

2021-06-12 11:13:44 437 2

原创 第一篇:开篇介绍篇

数据库系统的作用安全可靠的数据存储 能够非常有效地检索和处理数据。

2021-06-11 16:40:39 278 12

原创 第六篇:协调和协定之组通信

组通信向进程子集发送和传递消息组成员身份对发件人透明一次发送操作,无需向所有组成员发送单独的消息

2021-06-09 15:26:45 366

原创 第五篇:协调和协定之选举算法

选举选择独特的流程来扮演领导者的角色,承担特殊的任务例如基于服务器的互斥算法需要选举一个服务器进程 伯克利算法基础任何进程都可以要求选举一个进程一次最多可以进行一次选举选举的结果不取决于哪个进程发起的当选的进程是唯一的允许多个进程同时调用一次选举所有这些进程在一起只能产生一个领导者进程具有唯一标识符在任何时间点,一个进程是参与者,意味着它参与了选举算法的某些运行 非参与者,意味着它目前没有参与任何选举领导者具有最大标识符的进程被选中标识符可以是任何东...

2021-06-09 10:57:33 240

原创 第四篇:协调和协定之故障检测和互斥算法

目标对于分布式系统中的一组进程(即使存在故障)协调他们的行动以实现共同目标§ 就价值观达成一致

2021-06-08 18:13:09 630

原创 第三篇:时间和全局状态(三)

全局状态目标确定分布式系统中某个特定属性在执行时是否为真如何做?

2021-06-08 12:04:00 277 3

原创 第二篇:时间和全局状态(二)

逻辑时间和时钟1、事件顺序如果 a 在 b 被定义为时间之前发生,那么系统必须包含真实时钟§ 即使系统包含真实时钟,同步也是不完美的

2021-06-03 15:27:44 215

原创 第一篇:时间和全局状态

介绍首先时间很重要,在以下三个方面:审计 认证 一致性

2021-06-02 23:51:30 404

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除