莱维贝贝、-CSDN博客

原创 Ubuntu18.04环境下安装Anaconda3+pytorch

1. Ubuntu 卸载与安装 Anaconda31.1 Ubuntu 卸载 Anaconda3第一步：删除Anaconda3文件夹~ : 表示你的/home/用户明目录例如：假设你的用户名是bianbian，那么 ~/ 就是 /home/bianbian/我的anaconda3在用户目录下，~/anaconda3 = /home/bianbian/anaconda3rm -rf ~/anaconda31.2 删除Anaconda·配置的环境变量 sudo vim ~/.bashrc

2022-03-13 17:00:31 4900

原创 Windows安装Anaconda+Pycharm+机器学习基础环境（pandas、opencv、matplotlib、pytorch、tensorflow、scikit-learn.....)！！！

目录1.安装Anaconda1.1安装流程：1.2 创建自己的环境2 Anaconda安装numpy、 pandas、opencv、matplotlib、pytorch、tensorflow........2.1 确保你的conda环境是最新的2.2 切换仓库地址到清华镜像2.3 查看你目前的环境有哪些东西2.4 安装scipy、numpy、matplotlib、pandas、statsmodels、scikit-learn2.5 安装opencv2.6 安

2021-05-24 22:45:10 2577 22

原创数据分析与预处理常用的图和代码

（ps：从图中可以发现，随着学历的提高，同学历情况下，选择分期付款占比越来越小）（ps：查看那些特征，在训练数据和测试数据上存在较大差异，如果存在，删去）（ps：查看那些特征，可以将不同类别的标签数据分开）利用递归的方法进行，特征筛选。

2023-05-22 15:55:01 762

原创线性回归模型常见面试题

答：线性回归属于监督学习模型，它通过建立一个线性模型来预测一个数值型因变量和一个或者多个自变量之间的关系，使预测值和真实值尽可能接近。优点：简单易懂、可解释性强、易于实现和快速训练等。

2023-05-22 10:31:29 1331

原创 2023招商Fintech数据赛道rank33 赛后分享

2023招商Fintech数据赛道rank33 赛后分享

2023-05-06 23:45:12 1708 7

原创利用Keras搭建神经网络做多分类任务

第一步：加入Macro-F1: 根据每一个类别的准召率计算F1值,然后求均值. 忽略了样本间分布出现的不平衡问题.或者：Micro-F1: 不区分类别,直接用总体样本的准召率计算F1-score.第二步：修改上面的训练代码。

2023-04-18 23:09:53 768

原创 LightGBM常见面试题总结

法工程师`常见面试问题总结之`LightGBM常见面试题总结

2023-03-31 10:26:04 648

原创 XGBoost常见面试题总结

`算法工程师`常见面试问题总结之`XGBoost常见面试题总结`

2023-03-22 16:01:41 723

原创 BERT常见面试题问题

算法工程师常见面试问题总结之`BERT面试常见问题总结`

2023-03-07 16:36:46 1871

原创 Transformer面试常见问题总结

算法工程师常见面试问题总结之Transformer面试常见问题总结

2023-03-06 17:38:48 3258

原创算法模型的开发流程

项目的背景是什么？银行每年都要面对严重的客户流失问题，构建客户预警模型，输出客户流失概率，分析出一个客户是否可能是潜在的易流失客户对银行具有极大的价值。项目的目标是什么？根据用户基本信息与历史账单信息，构建有效的客户流失预警模型，并分析客户流失前的主要特征。项目的评估指标是什么？评估指标是AUC（这个指标需要甲方的需求而定）项目的数据与项目的目标是否存在关系？训练数据与目标存在关系（如果不存在关系，你模型再好，也没用）。评估指标和业务目标是否一致？

2023-02-22 16:13:44 1140

原创 Docker安装ElasticSearch，并进行ik和hanlp分词

我按装的目标: 利用ElastiSearch存储数据，ik和hanlp分词插件对搜索词进行分词，在ES存储的库中找到与搜索词相近的内容。安装感受是什么？答：ES是分布式的搜索和分析引擎。有什么作用？答： ES 为所有类型的数据提供近乎实时的搜索和分析。ES可以高效存储结构和非结构化数据；ES可以用简单的数据检索和聚合信息；随着数据的查询量和数据量存储的增涨，ES的分布式特性可以解决对应问题。的适用场景?答：（1）维基百科，类似百度百科全文检索，搜索推荐。

2023-02-09 15:52:13 1001

原创机器学习之模型融合（Stacking、Blending。。。。)

简单快速：平均、投票全面精准：Stacking、Blending。

2023-01-04 17:29:14 977 1

原创 Fastsapi的小疑问

自动解析URL，使对应参数进行匹配，如果没有匹配，使用默认值None，更多使用说明参考官方。：需要编写客户端demo，通过demo把参数传输进去。答：get参数传输暴露在外，post隐式传输。进行访问，在线上传数据，如下图。特点：URL上直接编辑传输，：GET和POST都可以通过。：获取一个URL后面带。

2023-01-02 12:37:32 543

原创 Docker中遇到的问题

【代码】Docker中遇到的问题。

2022-12-30 20:39:53 359

原创 Docker打包与测试

参考链接：https://www.runoob.com/docker/docker-hello-world.html。教程：https://www.runoob.com/docker/docker-dockerfile.html。docker build -t 算法名称:版本号（例如：fastfcn:0.0.1） .: 允许你对容器内的标准输入 (STDIN) 进行交互。（注意：然后在当前路径的终端上输入）: 在新容器内指定一个伪终端或终端。就可以查看自己刚打包的镜像。

2022-10-11 16:58:18 654

原创 Pandas基础题_Task01: 预备知识

输入一个整数的 Numpy 数组，返回其中严格递增连续整数子数组的最大长度。例如，输入 [1,2,5,6,7]，[5,6,7]为具有最大长度的递增连续整数子数组，因此输出3；输入[3,2,1,2,3,4,6]，[1,2,3,4]为具有最大长度的递增连续整数子数组，因此输出4。请充分利用 Numpy 的内置函数完成。（提示：考虑使用 nonzero, diff 函数）一般的矩阵乘法根据公式，可以由三重循环写出。请将其改写为列表推导式的形式。

2022-08-20 19:37:49 443

原创 2022 年首届钉钉杯大学生大数据挑战赛初赛的Baseline

在今天的数字世界，每天有数万亿的银行卡交易发生，检测欺诈行为的发生是一个严峻挑战。

2022-08-01 20:41:15 1019

原创 2022招商FinTech比赛总结

此博文为了记录双非研究生在此次比赛中的感受，以及学习到的内容比赛介绍FineTech比赛时招商银行举办的比赛，总共有三个赛道研发、数据、产品，比赛奖励不仅有奖金，还有实习offer，每年举办时间都是一样的；我选择了熟悉又陌生的数据赛道比赛，熟悉是因为以前参加过结构性比赛，陌生是因为上次参加还是2021年的事情了，最主自己不是本科班的出生，本科时候是学爬电线杆的，现在搞的是通信；（当初参加这个比赛，是奔着实习和三日游去的，当得知，即使在200名之内，也会因背景原因而收不到面试，但是有奖金）比赛过程.

2022-06-24 15:58:28 1391

原创推荐模型之多任务模型：ESMM、MMOE

的全称是Entire Space Multi-task Model (ESMM)，是阿里巴巴算法团队提出的多任务训练方法。其在信息检索、推荐系统、在线广告投放系统的CTR、CVR预估中广泛使用。以电商推荐系统为例，最大化场景商品交易总额（GMV）是平台的重要目标之一，而GMV可以拆解为流量×点击率×转化率×客单价，因此转化率是优化目标的重要因子之一；从用户体验的角度来说转换率可以用来平衡用户的点击偏好与购买偏好。，其存在如下问题：ESMM模型利用用户行为序列数据在完整样本空间建模，避免了传统CVR模型经常

2022-06-23 19:15:31 7972 1

原创推荐算法之召回模型：DSSM、YoutubeDNN

，由微软研究院提出，利用深度神经网络将文本表示为低维度的向量，应用于文本相似度匹配场景下的一个算法。不仅局限于文本，在其他可以计算相似性计算的场景，例如推荐系统中。根据用户搜索行为中（文本搜索）和（要匹配的文本）的日志数据，使用深度学习网络将query和doc映射到相同维度的语义空间中，即query侧特征的embedding和doc侧特征的embedding，从而得到语句的低维语义向量表达sentence embedding，用于预测两句话的语义相似度。模型结构：user侧塔和item侧塔分别经过各自的D

2022-06-22 10:21:11 1535

原创推荐模型之DeepFM与DIN

DeepFM主要在FNN和PNN的基础上，采用并行方式，结合FM Layer和Deep Layer，提高模型计算效率。主要功能：有效地训练出交叉特征的权重FM Layer主要是由一阶特征和二阶特征组合，再经过Sigmoid得到logitsFM Layer的优点：2. DIN （深度兴趣网络）2.1 DIN产生背景历史信息关注度不足单方面点击预测难以预测用户广泛的兴趣历史数据量大2.2 DIN模型Activation Unit：作用：在当前候选广告和用户的历史行为之间引入注意力的机

2022-06-19 23:58:31 677

原创决策树原理总结（ID3、C4.5、CART）+ 常见面试问题

系统梳理树类型算法原理加常见面试问题类容按照决策树、Adaboost、GBDT、XGBoost、LightGBM 顺序进行梳理本次的重点类容是决策树的CART树ID3、C4.5介绍请转移到：ID3、C4.5的原理与案例介绍1. CART树ID3与C4.5虽然可以通过多叉树尽可能的挖掘特征信息，但是随着数据量的增加，其决策树分支也会大量增多。CART算法的二分法简化了决策树的规模，提高了生成决策树的效率。1.1 CART分类树实现过程输入：训练集D，基尼系数的阈值，切分的最少样本个数阈值.

2022-06-02 15:13:56 2532 1

原创数据结构与算法总结（python）

记录数据结构与算法的知识点以及常见题目，为以后复习做准备；1. 数据结构类型1.1 数组1.2 链表1.3 堆栈1.4 队列1.6 哈希表1.5 树1.6 图2. 基础算法2.1 排序2.2 查找2.3 搜索2.4 动态规划背包问题最长公共子序列最长回文子串爬楼梯编辑距离参考https://blog.csdn.net/wbzhang233/article/details/108890956https://algo.itcharge.cn/00.Introdu.

2022-05-24 16:58:09 973

原创 lightGBM分类模型

import lightgbm as lgbimport numpy as npfrom sklearn.model_selection import StratifiedKFoldfrom sklearn.metrics import roc_auc_score, accuracy_score, f1_score, precision_score, recall_scoreimport warningswarnings.filterwarnings('ignore')X_train, X

2022-04-20 21:06:23 1188

原创 C++基础语法总结

1. Hello word// i input 输入 o output 输出 steam 流#include <iostream>// std 标准标准命名空间using namespace std;// 有且仅有一个主函数int main() { // cout 代表输出,endl为换行 cout << "Hello word!" << endl; // cin 代表从键盘输入 int num = 0; cin &

2022-04-15 22:10:23 985

原创第四章：Hive的基本介绍

1.什么是Hive？Apache Hive是一款建立在Hladoop之上的开源数据仓库系统，可以将存储在lladoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言(HQL)，用于访问和分析存储在Hadoop文件中的大型数据集。Hive核心是将HQL转换为MapReduce程序，然后将程序提交到Hadoop群集执行。Hive由Facebook实现并开源。Hive与Hadoop关系？Hive利用HDFS存储数据，利用MapRedu

2022-04-01 10:24:15 894

原创数据仓库的概念

数仓概念：数据仓库（英语:Data Warehouse，简称数仓、DW )，是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持( Decision Support )。数仓专注分析数据仓库本身并不“生产”任何数据，其数据来源于不同外部系统;同时数据仓库自身也不需要“消费”任何的数据，其结果开放给各个外部应用使用;这也是为什么叫“仓库”，而不叫“工厂”的原因。数据库为啥不用于进行分析？答：数仓可以更好的分析，数据库也可以进行分

2022-03-30 14:31:50 2730

原创第三章：MapReduce与YARN的理解

1. MapReduce概述：一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以;其中用户负责map、reduce两个阶段的业务问题，Hadoop负责底层所有的技术问题;MapReduce核心思绪：先分再合，分而治之，主要目的：并行运行任务，提高效率。注意: 不可拆分的计算任务或相互间有依赖关系的数据无法并行计算：MapReduce特点：易于编程：简单的接口就可以完成分布式程序；良好的扩展性：MR的分布式计算的特点可以随节点数据增长保持近似于线

2022-03-29 15:31:17 2827

原创第一章：Hadoop是什么？

1.Hadoop介绍Hadoop狭义上是指一款用java语言实现，开源允许用户简单的编程模式实现跨机器集群对海量数据进行分布式计算处理。Hadoop核心组件：Hadoop HDFS（分布式文件存储系统）：解决海量数据存储；Hadoop YARN（集群资源管理和任务调度）：解决资源任务调度；Hadoop MapReduce（分布式计算框架）：解决海量数据计算；Hadoop广义上是指围绕Hadoop打造的大数据生态圈Hadoop现状HDFS作为分布式文件存储系统，处于生态圈底层和核心地位

2022-03-25 21:00:34 1809

原创 Python常用小技巧，提高刷题效率（适用于蓝桥杯python组）

1. 掌握python标准库及小技巧python课程学习到面向对象，就可以刷题参加算法比赛了对于蓝桥杯不支持第三方库，但学会python标准库，将事半功倍；2. 常用的列表函数list1.append（x）：将x添加到列表末尾list1.sort()：对列表元素排序list1.reverse() ：将列表元素逆序list1.index(x) ：返回第一次出现元素x的索引值li

2022-03-25 10:23:58 3569

原创 PyTorch自定义损失函数、动态调整学习率、模型微调、半精度训练

PyTorch进阶训练技巧import torchimport numpy as npimport torch.nn as nnimport torch.nn.functional as F1. 自定义损失函数# 以函数的方式定义损失函数,通过输出值和目标值进行计算，返回损失值def my_loss(output,target): loss = torch.mean((output - target)**2) return lossy_pred = torch.tenso

2022-03-21 15:01:41 3444

原创 MySQL知识框架与常见面试题目总结（持续跟新）

本文将按照MySQL的学习路径对面试问题进行有条理性总结，便于大家理解与记忆。知识总结：1.数据库基本操作主要数据库基本操作是对数据库和数据库表的操作2. MySQL的函数参考https://blog.csdn.net/sinat_32366329/article/details/94668396https://blog.csdn.net/qq_35006660/article/details/114558947...

2022-03-20 17:31:05 3819 2

原创 Git本地文件上传到远程仓库

1 . Git 的工作理论Git本地有三个工作区域工作目录(Working Directory )、暂存区(Stage/Index)、资源库(Repository或Git Directory)。如果在加上远程的git仓库**(Remote Directory)**就可以分为四个工作区域。文件在这四个区域之间的转换关系如下:Workspace :工作区，就是你平时存放项目代码的地方将自己的文件，添加到缓存区（断网和不断网都可以操作，想知道原理可以自己深挖）Index / Stage:暂存区，用于临时

2022-03-18 14:40:32 8870

原创 Pytorch定义模型、修改模型、保存与读取模型保存

1. PyTorch的模型定义1.1 PyTorch模型定义的方式PyTorch中有三种模型定义方式，三种方式都是基于nn.Module建立的，我们可以通过Sequential，ModuleList和ModuleDict三种方式定义PyTorch模型。Module类是torch.nn模块里提供的一个模型nn.Module，是所有神经网络的基础模型：1.1.1 Sequential优点：简单、易读，同时使用Sequential定义的模型不需要再写forward，因为顺序已经定义好了。缺点：

2022-03-16 17:44:51 7028 2

原创分类模型的评价指标及实现（Python)

本文根据自己对分类模型的评价指标的理解以及其它博主的理解进行总结而成，有疑问或不对地方，请留言指出。1. 什么是评价指标？评价指标：是针对同份数据，不同算法模型或者同模型但不同模型参数，而给出这个算法或者参数好坏的定量指标；常用的评价指标（分类模型）：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、P-R曲线（Precision-Recall Curve）、F1 Score、混淆矩阵（Confuse Matrix）、ROC、AUC。为什么要有这么多度量指标呢?

2022-03-12 21:59:30 7656 2

原创 MySQL的存储引擎、事务和锁机制

1.什么存储引擎数据库存储引擎是数据库底层软件组织，数据库管理系统（DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧，锁定水平等功能，使用不同的存储引擎，还可以获得特定的功能。现在许多不同的数据库管理系统都支持多种不同的数据引擎。（存储引擎说白了，就像模板，每个模板有自己的主要功能，数据库管理系统在此模板上建立，MySQL5.5之后的默认是InnoDB）2.什么事务在MySQL中的事务是由存储引擎实现的，在MySQL，只有InnoDB存储引擎才支持事务

2022-03-11 14:57:42 2134

BM3D-Denoise-master.rar

图像去噪的GUI设计.rar

悬挂运动控制系统.rar

基于SVM的手写数字分类 (python实现)代码+数据.rar

Anki外语学习软件

空空如也