Gene_INNOCENT-CSDN博客

原创【访客必读 - 指引页】一文囊括主页内所有优质博客

本人现为一名「机器学习」方向的研究生，本科专业为 CS，期间主要参与 ACM 竞赛，因此主页内的博客一共分为如下四类：机器学习、ACM 各类算法详细解析 + 题型讲解、CS 课程笔记（主要是各类 MOOC 课程的笔记，外加一些课设总结、ACM 各类算法题解，上述链接指引到具体的博客专栏中，由于算法题解涵盖面太大，因此只有分散的博客专栏，各位可以在左边的分类专栏中找到。接下来列举一下各分类的具体指引页面。

2020-08-16 11:21:03 10022 10

原创 AAAI24 - Model Reuse Tutorial

该篇 Tutorial 主要对 Model Reuse 当下的进展进行了整理和总结。

2024-04-15 21:26:16 789

原创 IJCAI23 - Continual Learning Tutorial

本篇 Tutorial 主要介绍了 CL 中的一些基本概念以及一些过往的方法。

2024-03-07 16:52:44 867 1

原创 ICML23 - Synthetic Data for Model Selection

本文关注的问题为：是否可以使用合成数据（Synthetic Data）用于模型选择？即不再划分验证集，而是将所有标记数据作为训练集，使用训练集生成的合成数据来挑选模型。本文中关注的「模型选择」，是指根据训练集训练得到的多个模型（不同网络架构，不同超参等）的选择。首先给出包含 insight 的理论；随后用大量的实验说明：使用合成数据挑选模型是有效的。

2024-03-01 19:42:59 859

原创 ICML23 - Fundamental Tradeoffs in Learning with Prior Information

本文关注的问题为：为快速学习一项给定的任务，需要多少先验知识？具体来说，本文聚焦于「对于一个给定的问题，先验信息的准确性与学习性能之间的权衡关系 ()」。

2024-02-28 14:33:06 901

原创机器学习数据集整理：图像、表格

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

2023-11-24 22:02:29 886

原创 Python 实用代码段汇总（持续更新）

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

2023-10-19 10:57:48 174

原创 docker 命令记录

docker 命令记录

2023-10-18 11:38:59 187

原创选择性集成 - MDEP (PPSN-22): Multi-objective Evolutionary Ensemble Pruning Guided by Margin Distribution

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。选择性集成，即集成剪枝（Ensemble Pruning），即从一堆基学习器（base learners）中选择一个子集，希望泛化性能（Generalization Performance）越好的同时，子集大小越小。先前的研究通常使用验证集上的误差（Validation Error）来估计泛化性能，但最近的理论研究显示间隔分布（Margin Distribution）对泛化性能也很重要。

2023-09-19 19:00:54 469

原创 ICML21 - CLIP: Learning Transferable Visual Models From Natural Language Supervision

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。CLIP (Contrastive Language-Image Pre-training) 方法，使用大规模数据 (4 亿图像文本对) + 大模型 (Vit Large)，得到了性能超强的预训练模型。通过将文本作为监督信号，得到了图像下异构输出空间的各类任务的统一预训练模型。OpenAI 使用 4 亿对「文字-图像」通过对比学习，得到预训练模型。

2023-09-17 18:13:09 143

原创 Github 仓库代码合并 + 历史记录保留

先前将一个项目划分成了多个模块，每个模块一个仓库，单独开发。现在需要将多个项目合并成一个项目，并保留历史提交记录。

2023-09-15 15:33:21 510

原创 ICML23 论文：Explore and Exploit the Diverse Knowledge in Model Zoo for Domain Generalization

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。近年来预训练模型库兴起，如何有效利用模型库中的信息，获取对下游任务有效的模型，成为重要的研究方向；先前的研究主要关注于如何识别模型库中最有效的模型，因此未充分利用模型库中多样的归纳偏好；

2023-09-05 22:52:52 149

原创大型语言模型 (LLM) 的两条发展路线：Finetune v.s. Prompt

在大型语言模型的研究中，研究者对其有两种不同的期待，也可以理解为是两种不同的路线，具体来说：- 期待一：成为专才，解决某类特定任务（翻译、获取摘要）- 期待二：成为通才，给定指令（Prompt），即可完成对应任务 - 最早的该方向研究，认为所有 NLP 任务都可以变成问答任务，由此统一所有任务

2023-04-14 19:38:53 1905 4

原创研究的艺术 (The craft of research) 读书笔记

对于研究者而言，写作是一件很重要的事，好的写作不仅能让更多人愿意读，获得更大影响力，还能帮助作者更深入地进行思考，其重要性已不言而喻。研究的艺术 (The craft of research) 是一本关于「论文写作」的经典教材，但其中涉及的写作原则非常广泛，对各个领域的写作均有帮助。

2023-04-10 12:54:46 605

原创生成式 AI 分析：大模型 + 大量数据的神奇效果

下图是模型性能（Loss for next token prediction）与「参数量」和「数据集大小」之间的关系，可以看出随着「参数量」和「数据集大小」不断变大，模型性能不断增强，仿佛不会遇到瓶颈。

2023-04-02 21:34:54 4943 1

原创生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen

生成器的内部框架如下所示：- 第一部分：Text Encoder，输出 Text，返回对应的 Embedding（向量）；- 第二部分：Generation Model，输入为 Text 的 Embedding 与一个随机生成的 Embedding（用于后续的 Diffusion 过程），返回中间产物（可以是图片的压缩版本，也可以是 Latent Representation）；- 第三部分：Decoder，输入为图片的压缩版本，返回最终的图片。

2023-04-02 18:41:26 2618

原创 ChatGPT 各类 Prompt 整理

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

2023-03-29 14:23:14 11583 1

原创机器学习领域中各学派划分（符号主义、频率主义、贝叶斯主义、连接主义）

在机器学习领域中，算法数量可谓是数不胜数，若只关注每个算法本身，将各个算法独立地进行看待，则将眼花缭乱，难以把握算法背后的核心思想。事实上，虽然机器学习领域中算法数量十分庞大，但其背后的核心思想，即隐藏的世界观认知是有限的。因此在学习机器学习的过程中，我们首先需要了解该领域中各学派之间的关系，随后在学习算法时分析其涉及了哪些流派的思想，并在之后自己设计算法时，将这些思想有机地结合起来。

2023-03-22 23:29:17 2239

原创对比学习 (Contrastive Learning) 发展历程 - 综述

本文为「对比学习论文综述」的笔记，其中将对比学习分为了以下四个发展阶段：- 百花齐放- CV 双雄- 不用负样本- Transformer

2023-03-18 21:32:12 2173

原创二进制哈希码快速搜索：Multi-Index Hashing

哈希方法通常包含两个部分：- 【编码】将元素通过「data-dependent」或「data-independent」的方式映射为二进制，并通过比较二进制码的汉明距离 (hamming distance) 来搜索相似元素；- 【搜索】由于二进制码往往比较长（例如 64, 128, 256 bits），采用直接映射的方式，通常找不到任何元素，因此通常考虑找汉明距离小于 $r$ 的元素，即二进制编码最多只有 $r$ 个位置不同。

2023-03-11 22:26:48 260

原创随机多臂赌博机 (Stochastic Multi-armed Bandits)：置信上界算法 (Upper Confidence Bound)

本篇文章介绍一种针对「Stochastic Multi-armed Bandits (MAB)」问题的算法，即「Upper Bound Confidence (UCB)」，其通过估计摇臂的奖励区间，实现了探索与利用之间的平衡。

2023-03-09 15:25:41 394

原创演化算法：乌鸦搜索算法 (Crow Search Algorithm)

在机器学习中，我们所要优化的问题很多时候难以求导，因此通常会采用一些演化算法（又称零阶优化 / 黑盒优化）来近似求解。这些演化算法通常是根据一些生物的行为置顶，有如下分类。

2023-03-07 23:21:03 2366

原创层次聚类：BIRCH 聚类、Lance–Williams equation、BETULA 聚类

层次聚类：BIRCH 聚类、Lance–Williams equation、BETULA 聚类

2023-03-07 15:02:57 251

原创软聚类算法：模糊聚类 (Fuzzy Clustering)

我们之前听说的大部分聚类算法均为硬聚类，即要求每个数据点只能属于一个特定的簇。不同于硬聚类，软聚类放松了限制，即允许数据点可以同时属于多个簇。本文所要介绍的模糊聚类即为一种常见的软聚类算法。

2023-03-06 15:13:46 2476

原创 k-Medoids 聚类系列算法：PAM, CLARA, CLARANS, Trimed, BanditPAM

k-Means 作为一种经典聚类算法，相信大家都比较熟悉，其将簇中所有的点的均值作为簇中心，整个过程采用欧式空间中的距离度量。不同于 k-Means，k-Medoids 将距簇中所有点距离之和最小的点作为簇中心

2023-03-04 21:27:45 676

原创变分推断 (Variational Inference) 解析

变分推断。在贝叶斯方法中，针对含有隐变量的学习和推理，通常有两类方式，其一是马尔可夫链蒙特卡罗法 (MCMC)，其通过采样来近似估计后验概率分布；其二是变分推断，通过解析的方法近似计算后验概率分布。

2023-03-01 21:13:56 1116

原创 O(1) 的离散概率分布采样方法 - Alias Method

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

2023-02-27 15:14:31 216

原创哈希函数的学习算法整理

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。转为二进制编码：可以先降维成实数，再转为二进制，也可以直接学习一个二进制编码；学习哈希映射函数：基于二进制编码设计或学习哈希方式，使得相似元素靠近，不相似元素远离。数据无关的方法 (Data-Independent Methods)特点：哈希函数与训练集无关，通常为随机投影或手动构造。

2023-02-23 21:17:50 536

原创最大化内积搜索相关研究 (Maximum Inner Product Search, MIPS)

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。MIPS 问题即在一个向量集合SS中，找到一个与查询向量qqq内积最大的向量zzzzarg⁡max⁡x∈SxTqzx∈SargmaxxTq这是一个非常困难的问题，本文罗列了部分与其相关的资料。

2023-02-22 15:14:24 782

原创推荐系统中的协同过滤算法

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。协同过滤是一种推荐算法，其通常建模为mmm个用户，nnn个物品，只有部分用户和部分物品之间有评分数据，其它评分是空白的，此时就要求我们用已有的部分稀疏数据来预测空白的部分，找到评分最高的物品推荐给用户。基于用户 (user-based)：考虑用户之间的相似度，基于相似用户的喜好，预测目标用户对相应物品的评分（可能带给用户惊喜）；

2023-02-21 22:17:43 617

原创优质 CS 读博 (PhD) 经验贴汇总

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

2023-02-17 20:38:00 848 1

原创过于神奇的 ChatGPT

神奇的 ChatGPT

2022-12-09 19:10:19 315

原创推荐系统召回层算法

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。筛选部分即召回层，其依据用户信息，从千百万量级的候选物品中筛选出几百个物品的同时，需要保证召回率；排序部分即排序层，即对筛选出的物品进行排序，该过程需保证准确率。通过逻辑筛选，例如依据用户兴趣标签、注册信息筛选，以及筛选出最近流行、朋友喜欢，以及各类热门、冷门视频协同过滤 + 快速近邻搜索算法Embedding + 快速近邻搜索算法。

2022-10-26 15:54:19 508

原创论文：Detecting and Correcting for Label Shift with Black Box Predictors（BBSE）

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。首先从一个流感的例子讲起，医院在八月根据当月数据训练了模型fff，假设其特征x\bm{x}x为「有无咳嗽」，预测标签yyy为「有无得流感」。后续几个月模型fff运转良好，但到第二年二月时，医院发现fff预测为「得流感」的人数大幅增加，此时我们知道这与「冬季是流感高发期」有关。但一个问题随即出现了，用八月数据训出的fff。

2022-10-05 22:59:01 769