白水baishui-CSDN博客

原创从细节过渡到实例一天学会Pytorch

文章目录1. 初识PyTorch1.1. 张量1.2 Numpy操作2 自动微分2.1 张量的自动微分2.2 梯度3 神经网络3.1 定义网络3.2 损失函数3.3 更新权重4 训练一个分类器4.1 读取CIFAR10数据，做标准化4.2 建立网络4.3 定义损失函数和优化器4.4 训练网络4.5 使用模型预测4.6 存取模型1. 初识PyTorch1.1. 张量（1）导入pytorch包import torch（2）创建一个5x3的空张量tensor = torch.empty(5, 3)

2020-12-28 23:31:37 2712 7

原创一文入门推荐系统——推荐系统实践读书笔记

1. 推荐系统1.1. 什么是推荐系统1.2. 推荐系统评测1.2.1. 实验方法1.2.2. 评判指标1.2.3. 评判维度2. 数据来源2.1. 用户行为数据2.2. 用户标签数据2.3. 上下文信息2.3.1. 时间上下文信息2.3.2. 地点上下文信息2.4. 社交网络数据3. 通用推荐模型3.1. 协同过滤推荐3.1.1. 基于邻域的模型3.1.2. 隐语义模型3.1.3. 基于图的模型3.2. 基于内容的推荐3.3. 基于关联规则的推荐3.4. 基于知识的

2020-12-20 12:54:25 26489 112

原创软件工程导论—软件测试

1. 软件测试基础2. 单元测试3. 集成测试4. 确认测试5. 白盒测试技术6. 黑盒测试技术7. 调试8. 软件可靠性

2020-05-13 21:26:49 36389 79

原创 C++ 中的 cout.setf() 函数

代码cout.setf(ios_base::fixed, ios_base::floatfield)怎么解释？C++中通过cout来实现格式输出，就类似于C语言中通过printf()来实现格式输出。cout.setf()的作用是通过设置格式标志来控制输出形式，其中ios_base::fixed表示：用正常的记数方法显示浮点数(与科学计数法相对应)；ios_base::floatfield表示小

2018-01-23 21:50:07 48968 20

原创 linux系统当matplotlib显示中文时出现“findfont”错误怎么办？

此时再使用matplotlib输出中文，就不会报“findfont”错误了。然后将自己的字体文件拷贝到该目录中，例如。

2024-04-10 14:48:10 197

原创如何利用plotly和geopandas根据美国邮政编码（Zip-Code）绘制美国地图

可以在efrainmaps（https://www.efrainmaps.es/english-version/free-downloads/united-states/）下载。我希望根据Zip-code计算出用户所在的州，然后在地图上显示每个州的用户数量。

2023-07-21 11:41:09 2959

原创 python实现将给定列表划分为元素和大致相等的两个子列表

假设现有列表`[300,150,75,38,19,9,5,2]`，我想把它划分为两个子列表，并要求两个列表的元素和大致相等，应该如何做？如果我仅仅只是想将一个列表前后切分成元素和大致相等的两个子列表，并且保持元素顺序不变化，应该怎么做呢？实际上只需要一些小小的改动就可以了。可以看到，子列表的顺序和在原列表中是一样的。在写这篇博客之前，我已经浏览了。

2023-04-18 17:11:48 1088 3

原创 20分钟，使用Amazon SageMaker快速搭建属于自己的AIGC应用

人工智能自动生成内容（AIGC）是一种基于人工智能（AI）技术的内容创作方法，旨在快速、高效地生成高质量、有创意的文本、图像、音频或视频等多种形式的内容。借助先进的深度学习和自然语言处理技术，AIGC能够理解和学习人类语言、语境、知识和创意，从而根据用户需求生成各种类型的内容。这其中尤其以为代表性技术和应用，它用于从自然语言描述生成数字图像。Amazon SageMaker 是一种完全托管式的机器学习服务，旨在帮助开发者和数据科学家快速、轻松地构建、训练和部署机器学习模型。

2023-04-06 13:36:32 23993 41

原创大模型时代来临，智能文档处理该走向何方？

虽然通用人工智能的大门尚未完全叩开,但是我们已经看到了光明的前景。自去年ChatGPT发布以来，大语言模型（Large Language Model, LLM）的发展仿佛瞬间驶入了快车道，每天都能听到对相关话题的讨论。底层视觉研究的初衷在于,计算机所接收的现实图像常常受到噪音干扰,例如扭曲、模糊、光影等现象,因此,在进一步分析和理解输入图像之前,需要进行底层，需要进行底层视觉处理,以对图像进行“预处理”。以试卷文档处理为例,不规范的拍照方式会严重影响文本检测和提取的成功率。

2023-03-24 21:10:38 7721 32

原创 Pytorch 2.0来了！来看看新特性怎么应用到自己的代码里

Pytorch2.0和GPT4、文心一言同一时间段发布，可谓是热闹至极，我看了看Pytorch 2.0的文档，一句话概括下，2.0的功能介绍，核心就是加入这行代码就能优化你的模型，优化后的模型和往常使用方式一样，推理速度会提升，比较重要的一点是，可以用于训练或者部署，训练可以传梯度，这次是带有AOTautograd的。然而需要注意的是，这行代码（编译）本身会消耗不少时间。Pytorch官方在A100上测试了三个模型仓库的模型，加速比如下：看起来很不错。那废话不多说，来看看怎么用。

2023-03-17 13:27:02 2316 3

原创利用Flask框架将你的python脚本变成服务

之后运行该Flaks应用。写好代码后，假设文件名为。

2023-02-23 17:35:14 669

原创如何用Python读取Amazon的Review数据

Amazon（http://jmcauley.ucsd.edu/data/amazon/）（https://nijianmo.github.io/amazon/index.html）数据集包含来自亚马逊的产品评论和元数据，其中包括1996年5月至2014年7月的1.428亿条评论。如果我们需要用到Amazon的评论数据，那就要先下载好数据集。

2023-02-08 15:30:37 1779 1

原创合合信息——用智能文字识别技术赋能古彝文原籍数字化

现今我们所谓的“古彝文”指的是在民间流通使用的原生态彝文，据《滇川黔桂彝文字集》显示，这种文字多达87046字；在国家图书馆珍藏中，由这些文字书写的古彝文典籍共有592册（件），可见其蕴含着巨大的文化价值和实用价值。在当代，彝文依然拥有广泛的受用人群。四川省曾在1980年发布规范彝文共819字，截止2012年，滇川黔桂发布的通用彝文有5598字。这两种彝文常用于仪式、节庆、旅游景点等场合——彰显彝族非物质文化遗产的传承；同时也用于民族地区相关政策与宣传文件的翻译，以及文学创作。

2023-01-10 15:40:52 4952 27

原创 Python 将关系对数据转换为图数据 / 邻接矩阵

在深度学习任务，例如推荐系统中，将关系转换为图表示，即邻接矩阵是常用的操作。通常的做法是先将关系对数据转换为图数据，然后生成该图的邻接矩阵，再存储为稀疏矩阵。但这种方法不适用于大型矩阵的操作，通常会报内存溢出的错误。以推荐系统的Amazon的评级数据为例（Movielens等同理），这里提供一种方法将图数据直接存储为稀疏矩阵。

2023-01-09 18:22:40 2724

原创昆仑天工AIGC——基于Stable Diffusion的多语言AI作画大模型测评

昆仑万维集团作为中国领先的互联网平台出海企业，逐渐在全球范围内形成了海外信息分发及元宇宙平台Opera、海外社交娱乐平台StarX、全球移动游戏平台Ark Games、休闲娱乐平台闲徕互娱、投资板块等五大业务，市场遍及中国、东南亚、非洲、中东、北美、南美、欧洲等地，为全球互联网用户提供社交、资讯、娱乐等信息化服务。在训练自编码器时，为了避免潜在表示空间出现高度的异化，作者使用了两种正则化方法，一种是KL-reg，另一种是VQ-reg，因此在官方发布的一阶段预训练模型中，会看到KL和VQ两种实现。

2022-12-16 11:50:14 11226

原创推荐系统中的公平性

推荐系统中的公平性是指确保推荐系统的推荐结果是基于无偏和公正的原则产生的。从用户侧考虑，推荐结果不应受到种族、性别、年龄或其他可能导致歧视或不平等待遇的用户特征（敏感属性）等因素的影响。从项目侧考虑，推荐系统中的公平性应确保具有相似特征的项目有平等的被推荐机会，并且不同类别的项目在推荐结果中的分布是均匀的。推荐系统是一个多利益方的相关系统，包括（但不限于）用户和项目两个相关方。其中，用户是指接受推荐结果的一方，项目是指被排名或推荐的一方。用户侧的公平性需求通常与推荐结果的质量相关，而项目侧的公平性考虑通常侧

2022-12-06 21:56:39 1429

原创智能文档处理、文本识别、OCR产品体验，多场景横向对比，哪家准确率最高

TextIn (https://www.textin.com/)，是合合信息旗下的一站式OCR服务平台，该平台根据不同的业务场景和需求，将产品分为了通用识别、票据识别、企业证照识别、车辆相关识别、个人证件识别、港澳台证件识别、海外证件识别、文档格式转换和图像处理等，满足各种客户的图像识别和文档处理需求。本次产品体验将评测TextIn中所有服务的重点应用场景。

2022-10-24 18:12:56 15950 2

原创 LaTeX subfloat 子图不显示标号

这样生成的图像会有一个标号。如果不想要显示标号，去掉。

2022-10-20 11:29:36 3626 6

原创如何把Netflix数据集转换成Movielens格式？

点击“Download”，下载文件archive.zip并解压。5、将物品（电影）id加入dataframe。6、保存dataframe。

2022-07-25 16:42:07 648

原创 Python常用的设计模式

抽象工厂模式和建造者模式相比于简单工厂模式和工厂方法模式而言更加灵活也更加复杂。通常情况下，软件设计以简单工厂模式或工厂方法模式开始，当发现设计需要更大的灵活性的时候，则向更加复杂的设计模式演化。............

2022-07-22 17:55:00 3657

翻译基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1

论文：Safe Reinforcement Learning with Linear Function Approximation下载地址：http://proceedings.mlr.press/v139/amani21a/amani21a.pdf会议/年份：PMLR / 2021Word版本下载地址（辛辛苦苦打出来的）：近年来，强化学习的安全性变得越来越重要。然而，现有的解决方案要么无法严格避免选择不安全的动作，这可能导致安全关键系统的灾难性结果，要么无法为需要学.........

2022-07-02 14:43:28 433

翻译基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2

论文：Safe Reinforcement Learning with Linear Function Approximation下载地址：http://proceedings.mlr.press/v139/amani21a/amani21a.pdf会议/年份：PMLR / 2021Word版本下载地址（辛辛苦苦打出来的）：本文翻译属于半人工，有错漏请谅解。第 2 节中介绍的 SLUCB-QVI 只能输出确定性策略。在本节中，我们表明我们的结果可以扩展到随机策略选择的设置，这在实践中可能是可取的。

2022-07-02 14:43:14 440

原创推荐算法的Python实现——MF（矩阵分解）基于TensorFlow

本博客用Movielens-1m数据集的ratings.dat作为推荐数据来训练MF推荐模型。第一列是用户id(user_id)、第二列是物品id(item_id)、第三列是用户对物品的评分(score)、第四列是时间戳(timestamp)。在Movielens-1m数据集中，注意ratings.dat是用作为分隔符的。。对用户1(user_id=1)产生一次推荐的输出结果（示例）：.........

2022-06-17 15:46:51 1082

原创如何选择和使用ACM LaTeX模板

1. ACM模板ACM模板是发表会议论文常用的模板之一，但是学术新人通常搞不懂到底怎么用、怎么选模板，本博客解决帮你这个问题。2. 下载ACM模板我们进入ACM模板下载页面：ACM 模板 [https://www.acm.org/publications/proceedings-template]2.1. Word模板如果你想下载Word格式的模板，就找到Word Authors，然后点击Interim layout.docx 下载word模板，点击interim sample pdf 下载对应的

2022-05-27 16:44:01 11162 19

原创逆向倾向评分 (Inverse Propensity Scoring, IPS) 原理解析与MF算法的结合使用

当历史交互数据为MCAR(Missing Completely At Random，完全随机缺失)时，评级预测损失函数可以定义为：LossNaive=1∣{(u,i):ou,i=1}∣∑(u,i):ou,i=1δu,i(Y,Y^)\mathcal{Loss}_{Naive}=\frac{1}{|\{(u,i):o_{u,i}=1\}|}\sum_{(u,i):o_{u,i}=1}\delta_{u,i}(Y,\hat{Y})LossNaive=∣{(u,i):ou,i=1}∣1(u,i):ou,i

2022-04-29 14:39:34 3869

原创 Ubuntu 解决向日葵切换账号以后黑屏的问题

由于安全保护，可能只有某一账号才有资格看到被连接的桌面，所以当我们切换用户的时候，向日葵会立即黑屏，再想切换回来就很麻烦了，下面我提供一种用终端重新登录账号的方法。一、首先：检查Ubuntu开机自动登录用户是否正确。1、打开配置文件sudo vim /etc/gdm3/custom.conf2、修改文件中的AutomaticLoginEnable = trueAutomaticLogin = <user name>二、然后，重启系统，让系统自动登录到之前可以显示的账户shut

2022-04-09 18:54:57 3351

原创 Linux 分配新的账号

为了让其他人在服务器上进行工作，同时不破坏原有的文件，我们通常会分配一个新的账号来用。流程如下：useradd username -m (-m 相当于会在home目录下自动创建对应的用户目录)passwd username (为新用户设置密码)usermod -s /bin/bash username (指定shell，否则会非常不便于终端操作)有时候需要改变一些简化命令的操作，例如ll有时会默认显示隐藏文件，而我们不需要显示隐藏文件。这时候可以：vim ~/.bashrc (打开当前用户的

2022-03-29 00:10:07 1444

原创 pandas 将字符串映射为数字的方法

在有些数据集中，有些数据变量用字符串表示，但为了方便处理，往往想转换为好处理的格式，这时候不一定要用one hot进行编码，也可以直接转成整数：test_df["xx"] = pd.factorize(test_df["xx"])[0].astype(int)效果gift_cards["user_id"] = pd.factorize(gift_cards["user_id"])[0].astype(int)： user_id item_id ratings

2022-03-27 21:57:04 6718

原创推荐系统 MostPopular 算法的 Python 实现

MostPopular 算法的是指对每个用户都选择出当前流行度最高的Top-K个物品进行推荐，在推荐的时候，需要去除用户原先就浏览过的项目。算法代码如下：# Most Popdef MostPopular(pop_dict, I, K): ''' pop_dic:流行度字典，存储了每个item:pop_value的键值对。 I：用户可以选择的Item空间（需去除已经看过的item） K：Top-K 值，推荐出K个item给用户 '''

2022-03-24 14:08:16 1532

原创想要神经网络输出分类的概率值？应该这样写代码

我们构造一个简单的神经网络，通常情况下n_output是分类数量，例如二分类任务那n_output=2、六分类任务那么n_output=6class Net(torch.nn.Module): def __init__(self, n_feature, n_hidden, n_output): super(Net, self).__init__() self.inLayer = torch.nn.Linear(n_feature, n_hidden) # 输入层

2022-03-14 15:24:25 5676

原创基于强化学习的可解释性推荐文献三篇

A Reinforcement Learning Framework for Explainable Recommendation. IEEE 2018现在很多推荐模型的机制是复杂且难以解释的，此时需要在对推荐结果进行事后解释，即把推荐模型与解释模型分离开，用单独的模型推荐结果作出解释。本文使用强化学习方法对推荐结果生成解释。在这个可解释框架中，被解释的推荐模型作为环境的一部分，对强化学习方法生成的句子解释进行奖励。框架中有两个智能体与环境交互，第一个智能体根据当前状态生成句子解释，第二个智能体根据第一个

2022-03-02 21:41:05 1357

原创推荐系统去流行度偏差（bias）文献四篇

Keeping Dataset Biases out of the Simulation : A Debiased Simulator for Reinforcement Learning based Recommender Systems. (RecSys 2020)作者为了解决历史数据中的用户与项目之间存在的两种交互偏差：选择偏差和流行度偏差，提出在构造“用户-项目”评级矩阵之前执行去偏差的步骤。由于选择偏差和流行度偏差，导致历史记录中用户对项目的评级是有选择性的，所以依照历史数据构造的评级矩阵的稀疏

2022-03-02 21:35:32 1453

原创 2020-2021年顶会上关于解决偏差(bias)问题的文献整理

文章目录1. 偏差分析2. 数据偏差2.1. 选择偏差 Selection Bias2.2. 一致性偏差 Conformity Bias2.3. 曝光偏差 Exposure Bias2.4. 位置偏差 Position Bias （隐式反馈数据）3. 模型偏差3.1. 归纳偏差 Inductive Bias4. 推荐结果的偏差与不公平性4.1. 流行度偏差 Popularity Bias4.2. 偏见 Unfairness (用户偏差 User Bias)5. 论文下载1. 偏差分析(1) Bi

2022-02-22 12:44:59 1597

原创 CUDA C/C++ 教程一：加速应用程序

文章目录1. CUDA简介2. 准备工作3. 加速系统4. 编写在GPU运行的代码4.1. 编写一个Hello GPU核函数5. CUDA线程的层次结构5.1. 启动可并行运行的核函数6. CUDA提供的线程层次结构变量6.1. 线程和块的索引6.2. 加速for循环6.3. 协调并行线程7. 分配将要在GPU和CPU上访问的内存1. CUDA简介加速计算正在逐步取代 CPU 计算，成为最佳的计算做法。近年来加速计算带来了越来越多的突破性进展，应用程序对加速计算日益增长地需求、轻松编写加速计算的程序的.

2022-02-22 09:08:44 20111 5

原创 Matlab 如何生成三维图像

介绍两种方法，用surf和Curve Fitting，两者的区别在于：surf方法出的图是固定的，视角不可改变。Curve Fitting方法的三维图可以转动视角。一、surf例如有代码：% 生成数据xn1 = linspace (0 , 4) ;% 定义 x1 的点列默认是 100 个 0 4 代表上下界xn2 = linspace (0 , 4) ;% 定义 x2 的点列[ X1 , X2 ] = meshgrid ( xn1 , xn2) ;% X、Y 轴数据

2022-01-29 20:54:46 10639

原创安装HElib并运行示例程序

文章目录1. HElib简介2. HElib安装的前期准备2.1. git 安装/升级2.2. GNU make 安装/升级2.3. g++ 安装/升级2.4. cmake 安装/升级2.5. m4和patchelf 安装/升级3. HElib的下载和安装4. 运行HElib示例程序1. HElib简介HElib是一个基于C++语言的同态加密开源软件库，底层依赖于NTL数论运算库和GMP多精度运算库实现，下载地址在：github HElib。2. HElib安装的前期准备HElib可以在Ubuntu

2022-01-28 23:10:19 2690 1

原创 python 或 conda 安装 pyterrier

不要直接用pip install pyterrier要pip install python-terrierconda同理

2021-12-26 20:07:08 624

原创留一法交叉验证 Leave-One-Out Cross Validation

交叉验证法，就是把一个大的数据集分为 kkk 个小数据集，其中 k−1k-1k−1 个作为训练集，剩下的 111 个作为测试集，在训练和测试的时候依次选择训练集和它对应的测试集。这种方法也被叫做 kkk 折交叉验证法（k-fold cross validation）。最终的结果是这 k 次验证的均值。此外，还有一种交叉验证方法就是留一法（Leave-One-Out，简称LOO），顾名思义，就是使 kkk 等于数据集中数据的个数，每次只使用一个作为测试集，剩下的全部作为训练集，这种方法得出的结果与训练整个

2021-12-20 23:52:03 18122 3

TA关注的人

Safe Reinforcement Learning with Linear Function Approximation

2020-2021顶会关于推荐系统中的解决偏差（bias）问题的文献汇总.zip

软考系统架构设计师历年真题及答案、题型归类

AgentTable.csv

进制转换工具

DirectX修复工具V3.3

微信小游戏跳一跳辅助脚本Python源码

机器学习到底要不要大数据的支持，如果要数据的支持，支持到哪一步？