wendaJ-CSDN博客

原创 Transformer位置表示(Position Encoding)

如果我们学习过position 在0～200之间的表示，我们需要表示更长，一种是我们每隔0.5就做一个表示，这样表示能力扩展到 0～400了，这样还是保持学习范围之内，但是问题是表示更加拥挤，当处理范围进一步增大时，相邻差异则更小，这样位置表示的作用就减弱了。如果我们学习过position 在0～200之间的表示，那么对于200～299的长度，可以直接扩展，甚至 200～999的位置表示，也可以直接外推。进制在表示相对位置时和绝对位置表示是一样的效果，如「我们知道10的相邻数据是9和11」

2024-02-19 20:57:18 285

原创对比是否有Context，在解码阶段消除大模型幻觉

3分钟了解降低大模型幻觉技术

2024-02-19 17:42:32 172

原创对比不同Layer输出，在解码阶段消除大模型幻觉

3分钟了解降低大模型幻觉技术

2024-02-19 17:38:47 349

原创快速了解PCA

5分钟了解PCA

2024-02-18 09:42:26 250

原创大模型计算量纲

大模型参数计算、显存占用、计算量分析

2024-02-17 18:08:04 708

原创大模型- 检索增强七宗罪

标题：Seven Failure Points When Engineering a Retrieval Augmented Generation System这篇论文介绍了如何设计一个检索增强生成系统（RAG），作者通过对三个不同领域的案例研究，总结了七个失败点并提出了相关建议。此外，作者还指出了验证RAG系统只能在运行期间完成以及其鲁棒性随时间推移而不断发展的两个关键要点。最后，作者列出了关于RAG系统的研究方向，以供软件工程社区参考。

2024-02-17 16:12:53 1036

原创开年炸裂-Sora/Gemini

最新人工智能消息谷歌的新模型支持多达 1M的Token，可以分析长达一小时的视频1M Token可能意味着分析700,000 个单词、 30,000 行代码或11 小时的音频、总结、改写和引用内容。Comment：google公司有夸大的传统，所以真实效果需要上手体验才知道；OpenAI 推出了，一个出色的文本转视频模型。但目前仍受到限制：Sora 创造了令人印象深刻的文本到视频结果，但风险意味着谨慎推出。时长、连贯性效果上都有突破，冲击最大的当然还是视频创意领域。

2024-02-17 16:01:12 361

原创学习卡片-随机梯度下降

什么是Stochastic gradient descent随机梯度下降（Stochastic gradient descent）是一种为机器学习算法寻找最优参数配置的方法。它是一种迭代的方法，对机器学习网络参数进行小的调整，以减少网络的错误。误差函数（Error Function）很少像典型的抛物线那样简单。大多数情况下，它们有很多波峰和波谷。随机梯度下降的目标是找到全局的最小值。怎么运行随机梯度下降通过在每个训练点之后调整网络的参数来试图找到全局最小值。该方..

2022-04-11 08:55:28 1170 1

原创学习卡片- Active Learning

什么是Active Learning主动学习(Active Learning)是半监督机器学习的一种形式，算法可以选择它想要学习的数据。使用这种方法，程序可以主动查询权威来源，无论是程序员还是标记数据集，以学习对给定问题的正确预测。目标：这种迭代学习方法的目标是加快学习过程，特别是如果您没有大型标记数据集来练习传统的监督学习方法。领域：主动学习最流行的应用之一是标签密集型自然语言处理领域。这种方法可以产生与监督学习相似的结果，但只需要一小部分人工的参与。如何在实...

2022-04-10 09:47:58 229

原创学习卡片- Early Stopping

什么是Early StoppingEarly Stopping 是在防止模型过度拟合数据时用于参考机器学习的术语，确定在数据集上训练多长时间，来平衡模型的准确性和泛化程度？如果我们让一个复杂的模型在给定的数据集上训练足够长的时间，它最终可以准确地学习训练集中的数据。但在eval集合中，模型表现不佳，存在（过度拟合）。相反，如果模型只训练了几个 epoch，即使模型可以很好地泛化(训练集和eval集合表现接近)，但不会有理想的准确度（欠拟合）。Early Stopping条件...

2022-04-09 17:40:34 901

原创 AI应该为产业化带来些变化

1、你来自哪里？来CSDN想收获什么？已经工作十几年了，作为一个互联网老兵，大小厂都呆过，做过两年的Java开发，后面是接近10年的算法工程师工作，这里差不多是5年左右的计算广告方向，4年左右的对话机器人方向。除了项目管理，自身一线的编程、算法能力一直没有拉下，而且基本每天保持前沿论文的阅读习惯。来这里自然不是主要来学习基础的技能，而是看看能不能找找创作的灵感，顺便发些主题看能不能找到对社会有价值且大家比较认可的方向，能建立兴趣组并且长期的坚持迭代这样最好。特别是AI理论及模型的发展自身遇到了瓶颈，

2022-04-05 23:21:11 627 5

原创有趣的动物emoji

Emoji🐀🐹🐰🐇🐿🦔🐏🐑🐐🐪🐫🦙🦒🐘🦏🦓🦌🐮🐂🐃🐄🐅🐆🦉🦜🐊🐢🦎🐍🦕🦖🐳🐋🐬🐟🐠🐡🦈🐙🐚🐌🦋🐛🐜🐝🐞🦗🕷🦂🦟🦠🌱🌲🌳🌴🌵🌾🌿Python字符nature = np.array( [ u"\U0001F400",

2022-04-05 16:42:15 1641

原创用户增长全局最优化和评估

说完用户增长整体框架，个体的因果推断预测，接下来是根据个体的预估，求解全局最优解，得到最优决策。1. 干预场景干预变量(比如淘宝的业务场景)：push - 整体约束：下行条数、点击率约束；个体周期频控优惠券 - 约束：核销成本；发放限制红点/气泡 - 约束：区域展示次数；个体周期频控2. 全局最优决策 [wiki] [kkt]3. 求解-分组背包问题这个线性松弛后的问题我们称为 LMCKP。LMCKP 的求解是很容易的，常见的算法有贪婪算法（复杂度O(Nlog⁡(.

2022-04-04 20:29:40 523

原创用户增长因果推断方法

论文：https://arxiv.org/pdf/2002.02770.pdf因果推断的方法包括7个：重新加权方法（Re-weighting methods）; 分层方法（Stratification methods）; 匹配方式（ Matching methods）; 基于树的方法（Tree-based methods）; 基于表示的方法（Representation based methods）; 多任务方法（Multi-task methods）; Meta-learning

2022-04-03 20:48:09 1436

原创用户增长因果推断概念

概念和区别相关性（correlation）：两变量在表现上呈现一定的关系，如：夏天用电量很高，夏天冰激凌卖的很好，用电量和冰激凌的销量呈现相关性，但没有因果关系因果性（causality）：两变量存在原因和结果的关系，如：夏天温度上升导致冰激凌卖的很好，这是因果性因果性模型因果关系挖掘（causal discovery）：研究变量间是否存在因果性，以及谁是因谁是果因果推断（causal inference）：定量地研究原因与结果的变化关系目标对于因果推断，我们的目标是根据观察数据

2022-04-02 23:11:31 1426

原创用户增长算法视角概述

增长背景用户增长是产品/业务初期核心关注指标，一方面需要打磨好自己的产品，提升产品能力：提升用户留存提升用户的口碑传播另一方面，还需要利用用户增长的体系思路，利用专业的手段，提升拉新速度，降低流失，加速用户增长的节，主要的指标有三个：拉新促活防流失不同时期的业务关注的指标有所侧重点，比如前期关注拉新，稳定期关注促活和防流失等。需要完成这些指标，常用的抓手：端外 - 优质内容触达，如：文案，权益等；渠道：如短信，互联网广告等端内：push/入口引导/banner...

2022-04-02 18:09:54 1237

翻译 AI改善生物多样性-强化模型

背景有超过 100 万种物种面临灭绝，这凸显了保护物种多样性政策的迫切性。这里提出了一个基于强化学习的空间保护优先级的框架，该框架始终优于使用模拟和经验数据的当前最先进软件。通过人工智能对保护区进行优先排序(CAPTAIN-Conservation Area Prioritization Through Artificial Intelligence) ，量化了区域和生物多样性保护的成本和收益，然后进行权衡，允许探索多生物、多样性等指标在有限的预算下，该模型比随机或简单的选择区域（例如

2022-04-02 18:00:40 177

翻译 AI改善生物多样性-1

背景有超过 100 万种物种面临灭绝，这凸显了保护物种多样性政策的迫切性。这里提出了一个基于强化学习的空间保护优先级的框架，该框架始终优于使用模拟和经验数据的当前最先进软件。通过人工智能对保护区进行优先排序(CAPTAIN-Conservation Area Prioritization Through Artificial Intelligence) ，量化了区域和生物多样性保护的成本和收益，然后进行权衡，允许探索多生物、多样性等指标在有限的预算下，该模型比随机或简单的选择区域（例如

2022-03-30 00:25:55 299

翻译 Google-生成式做信息检索

摘要本文介绍用单个 Transformer 利用Seq2Seq的结构完成信息检索，所有关于语料库的信息都被编码在模型的参数中。本文还引入可微搜索索引 (DSI-Differentiable Search Index)，学习text- text模型的新范式，将字符串查询直接映射到相关文档；换句话说，DSI 模型直接回答查询，仅使用其参数，大大简化整个检索过程。这里其实比较重要的是文档及id的定义和表示，以及模型和语料库大小之间的相互作用。实验表明，给定适当的设计选择，DSI 明显优于强基线，例如双

2022-03-30 00:18:35 728

翻译 AI发现万有引力

背景以前物理学家发现物理定律的时候，里面涉及到很大的常数，变量的组合方式，都是他们人肉搜索，不断重试得到的；如果使用机器学习，可以通过不断的拟合，自动发现一些物理规律和方程；里面涉及到的假设：N个物体可以用Graph来表示，物体是平移[translational] 和旋转[rotational] 的不变的；其他的常量都不需要，比如星体的质量等。解决方法第一步：用GNN来拟合系统内的天体运行轨迹天体系统可以表示为(V，E)，V表示节点，代表天体；E代表两个天体之间的相互

2022-03-30 00:11:12 200

原创 M1 安装tensorflow

tensorflow m1 mac

2022-03-29 18:55:41 856

原创 Word Vector的综述

历史词向量大致经过3个时期：最早在做检索系统，或者推荐系统时候，需要计算query和文档，或者user和文档之间的相关性，涉及到相关性，很直观的利用到了向量的欧式距离活着余弦距离。所以这个时期的向量化主要是基于整体数据的矩阵分解，使用的是整体数据的global信息。词向量的是一个主题回归的过程，相同主题的词的向量彼此就比较接近。分布式语义的表示，使用机器学习的方式，然后选择合适的学习

2018-01-14 21:36:51 6443

原创 QA（三）：复杂attention机制(coattention及bi-attention)

DCN-动态共同attention网络两种模型都是类似的，不像前一篇文章介绍的soft attention机制，只是考虑query到context的attention这里两篇论文都会考虑 query 到 context 和 context到query的attention 然后得到的attention回和原始的encoder向量进行作用，得到修正后的query和context的修正矩阵然后这些修

2017-12-17 16:04:02 18755

原创瀑布流排序中的position偏置消除的实验

前言瀑布流排序中，用户首先看到的是前面的商品，排在前面的商品有天然的优势，用户的点击率会偏高，我们观察cpc广告的某个场景的ctr随位置的统计衰减图：图1: 图中横坐标是排序位置，纵坐标为该位置一天的ctr大家都有个共识，实际商品表现出来的ctr和商品实际的点击质量是有偏差的，这里的偏差有很大的因素是有展现的位置引起的如何消除位置偏置不同的场景要求不一样，实验分两个场景进行bid* ctr

2017-12-15 13:42:23 4065 3

翻译 QA(二)：利用Attention机制，带着问题阅读

MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER摘要本文介绍一种结合 math-LSTM 和Pointer Net利用end-end的来解决QA问题的方式模型最主要的还是 match-LSTM：有两个句子，一个是前提，另外一个是假设，match-LSTM序列化的经过假设的每一个词，然后预测前提是否继承自假设。简单的说：带着问题去阅读原

2017-12-05 21:04:32 2501

原创 Image captioning(三)-WITH ATTENTION

摘要背景我们已经介绍了，现在我们上篇文章的基础上面引入比较流行的Attention机制说下本篇文章的贡献：image captioning中使用同一种框架引入两种atttention机制。可以洞察模型观察的点在哪里where, 以及观察的是什么what代码我只会演示第二种attention 机制模型image encoder 第一层还是卷积层来处理图像信息，但是

2017-12-01 18:07:50 2253 2

原创 Image captioning(二)- CNN + ATTENTION

技术上来说往粗了讲，大家听到的是：RNN，CNN，ATTENTION，Embedding 比较有名的名词。往细了讲：卷积，max/min/avg pooling, self-attention, gated-weight，sigmod weight，softmax weight等这些具体的技术细节可能在你构建graph的时候都会或多或少的使用，万变不离其宗，熟悉使用这些东西，后面在遇到各种

2017-12-01 17:56:24 2782

原创 Image captioning-数据格式

规划：整体内容是四块：首先是训练和评估数据，我们选择的是微软COCO图片数据数据，后面简单会介绍数据的格式，处理方式整体topic的主线是沿着show and tell的发展介绍各种attention以及其他encoder机制的加成evaluation方式及探讨应用说明代码使用tensorflow，最好升级到1.4，历史版本有很多算子是不支持GPU运算的。有些基础

2017-12-01 17:47:59 2199 1

翻译 QA： Dynamic Memory Networks for Natural Language Processing

摘要我们提出一种动态内存网络(DMN)的方式，来解决，输入多个描述句子和问题来生成答案的这种场景。简介Question answering (QA)：根据上下文(文本，图片等)，结合问题(question), 来生成答案 dynamic memory network (DMN)：它是一种网络结构，处理的是(context_input-querstion-answer)这样的三元组。 inputs

2017-12-01 14:57:49 597

翻译 Attention Is All You Need

一种只基于attention机制的机器翻译

2017-11-25 14:55:04 3651

原创 tangent

这是一个python写的，可以自动求导的库。

2017-11-25 14:40:55 1409

翻译 Training RNNs as Fast as CNNs

摘要RNN的并行性比较差，主要因为它在计算state的时候不能并行，比如要计算输出h(t),它必须依赖于前一步的输出h(t-1)，这个是并行化的瓶颈。在这篇论文提出一种可选择的RNN结构，它的递归单元可以和卷积层一样快，是cud优化的LSTM的5-10倍。

2017-11-25 14:38:29 580 1

翻译 Dynamic Routing Between Capsules

这个是最近比较火的Hinton关于对之前深度神经网络的质疑性论文, 大家都知道Hinton在深度学习领域的地位，那么他为什么对dnn提出质疑，甚至于最近他的演讲论文的title 是 “What is wrong with convolutional neural nets？”。我们来看下具体是什么情况。

2017-11-25 13:33:31 852

翻译梯度下降综述

原始论文 https://arxiv.org/pdf/1609.04747.pdf前言梯度下降算法现在变的越来越流行，但是对于使用者来说，它的优化过程变的越来越黑盒。本文我们介绍下不通梯度下降算法的习性，使得我们能够更好的使用它们。本人每次复习这篇论文，或多或少都有一些收获，基础学习扎实了，后面的使用才会得心应手。简介梯度下降算法，不管在机器学习，还是在神经网络中，都是很常见的优化算法。所以不通的

2017-11-25 12:50:38 1237

chazhongxinbitc的博客