自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 资源 (5)
  • 收藏
  • 关注

原创 Ubuntu18.04环境下安装Anaconda3+pytorch

1. Ubuntu 卸载与安装 Anaconda31.1 Ubuntu 卸载 Anaconda3第一步:删除Anaconda3文件夹~ : 表示你的/home/用户明目录例如:假设你的用户名是bianbian,那么 ~/ 就是 /home/bianbian/我的anaconda3在用户目录下,~/anaconda3 = /home/bianbian/anaconda3rm -rf ~/anaconda31.2 删除Anaconda·配置的环境变量 sudo vim ~/.bashrc

2022-03-13 17:00:31 4900

原创 Windows安装Anaconda+Pycharm+机器学习基础环境(pandas、opencv、matplotlib、pytorch、tensorflow、scikit-learn.....)!!!

目录1.安装Anaconda1.1安装流程:1.2 创建自己的环境2 Anaconda安装numpy、 pandas、opencv、matplotlib、pytorch、tensorflow........​​​2.1 确保你的conda环境是最新的2.2 切换仓库地址到清华镜像2.3 查看你目前的环境有哪些东西2.4 安装scipy、numpy、matplotlib、pandas、statsmodels、scikit-learn2.5 安装opencv2.6 安

2021-05-24 22:45:10 2577 22

原创 数据分析与预处理常用的图和代码

(ps: 从图中可以发现,随着学历的提高,同学历情况下,选择分期付款占比越来越小)(ps:查看那些特征,在训练数据和测试数据上存在较大差异,如果存在,删去)(ps:查看那些特征,可以将不同类别的标签数据分开)利用递归的方法进行,特征筛选。

2023-05-22 15:55:01 762

原创 线性回归模型常见面试题

答:线性回归属于监督学习模型,它通过建立一个线性模型来预测一个数值型因变量和一个或者多个自变量之间的关系,使预测值和真实值尽可能接近。优点:简单易懂、可解释性强、易于实现和快速训练等。

2023-05-22 10:31:29 1331

原创 2023招商Fintech数据赛道rank33 赛后分享

2023招商Fintech数据赛道rank33 赛后分享

2023-05-06 23:45:12 1708 7

原创 利用Keras搭建神经网络做多分类任务

第一步:加入Macro-F1: 根据每一个类别的准召率计算F1值,然后求均值. 忽略了样本间分布出现的不平衡问题.或者:Micro-F1: 不区分类别,直接用总体样本的准召率计算F1-score.第二步:修改上面的训练代码。

2023-04-18 23:09:53 768

原创 LightGBM常见面试题总结

法工程师`常见面试问题总结之`LightGBM常见面试题总结

2023-03-31 10:26:04 648

原创 XGBoost常见面试题总结

`算法工程师`常见面试问题总结之`XGBoost常见面试题总结`

2023-03-22 16:01:41 723

原创 BERT常见面试题问题

算法工程师常见面试问题总结之`BERT面试常见问题总结`

2023-03-07 16:36:46 1871

原创 Transformer面试常见问题总结

算法工程师常见面试问题总结之Transformer面试常见问题总结

2023-03-06 17:38:48 3258

原创 算法模型的开发流程

项目的背景是什么?银行每年都要面对严重的客户流失问题,构建客户预警模型,输出客户流失概率,分析出一个客户是否可能是潜在的易流失客户对银行具有极大的价值。项目的目标是什么?根据用户基本信息与历史账单信息,构建有效的客户流失预警模型,并分析客户流失前的主要特征。项目的评估指标是什么?评估指标是AUC(这个指标需要甲方的需求而定)项目的数据与项目的目标是否存在关系?训练数据与目标存在关系(如果不存在关系,你模型再好,也没用)。评估指标和业务目标是否一致?

2023-02-22 16:13:44 1140

原创 Docker安装ElasticSearch,并进行ik和hanlp分词

我按装的目标: 利用ElastiSearch存储数据,ik和hanlp分词插件 对搜索词进行分词,在ES存储的库中找到与搜索词相近的内容。安装感受是什么?答:ES是分布式的搜索和分析引擎。有什么作用?答: ES 为所有类型的数据提供近乎实时的搜索和分析。ES可以高效存储结构和非结构化数据;ES可以用简单的数据检索和聚合信息;随着数据的查询量和数据量存储的增涨,ES的分布式特性可以解决对应问题。的适用场景?答:(1)维基百科,类似百度百科全文检索,搜索推荐。

2023-02-09 15:52:13 1001

原创 机器学习之模型融合(Stacking、Blending。。。。)

简单快速:平均、投票全面精准:Stacking、Blending。

2023-01-04 17:29:14 977 1

原创 Fastsapi的小疑问

自动解析URL,使对应参数进行匹配,如果没有匹配,使用默认值None,更多使用说明参考官方。:需要编写客户端demo,通过demo把参数传输进去。答:get参数传输暴露在外,post隐式传输。进行访问,在线上传数据,如下图。特点:URL上直接编辑传输,:GET和POST都可以通过。:获取一个URL后面带。

2023-01-02 12:37:32 543

原创 Docker中遇到的问题

【代码】Docker中遇到的问题。

2022-12-30 20:39:53 359

原创 Docker打包与测试

参考链接:https://www.runoob.com/docker/docker-hello-world.html。教程:https://www.runoob.com/docker/docker-dockerfile.html。docker build -t 算法名称:版本号(例如:fastfcn:0.0.1) .: 允许你对容器内的标准输入 (STDIN) 进行交互。(注意:然后在当前路径的终端上输入): 在新容器内指定一个伪终端或终端。就可以查看自己刚打包的镜像。

2022-10-11 16:58:18 654

原创 Pandas基础题_Task01: 预备知识

输入一个整数的 Numpy 数组,返回其中严格递增连续整数子数组的最大长度。例如,输入 [1,2,5,6,7],[5,6,7]为具有最大长度的递增连续整数子数组,因此输出3;输入[3,2,1,2,3,4,6],[1,2,3,4]为具有最大长度的递增连续整数子数组,因此输出4。请充分利用 Numpy 的内置函数完成。(提示:考虑使用 nonzero, diff 函数)一般的矩阵乘法根据公式,可以由三重循环写出。请将其改写为列表推导式的形式。

2022-08-20 19:37:49 443

原创 2022 年首届钉钉杯大学生大数据挑战赛初赛的Baseline

在今天的数字世界,每天有数万亿的银行卡交易发生,检测欺诈行为的发生 是一个严峻挑战。

2022-08-01 20:41:15 1019

原创 2022招商FinTech比赛总结

此博文为了记录双非研究生在此次比赛中的感受,以及学习到的内容比赛介绍FineTech比赛时招商银行举办的比赛,总共有三个赛道研发、数据、产品,比赛奖励不仅有奖金,还有实习offer,每年举办时间都是一样的;我选择了熟悉又陌生的数据赛道比赛,熟悉是因为以前参加过结构性比赛,陌生是因为上次参加还是2021年的事情了,最主自己不是本科班的出生,本科时候是学爬电线杆的,现在搞的是通信;(当初参加这个比赛,是奔着实习和三日游去的,当得知,即使在200名之内,也会因背景原因而收不到面试,但是有奖金)比赛过程.

2022-06-24 15:58:28 1391

原创 推荐模型之多任务模型:ESMM、MMOE

的全称是Entire Space Multi-task Model (ESMM),是阿里巴巴算法团队提出的多任务训练方法。其在信息检索、推荐系统、在线广告投放系统的CTR、CVR预估中广泛使用。以电商推荐系统为例,最大化场景商品交易总额(GMV)是平台的重要目标之一,而GMV可以拆解为流量×点击率×转化率×客单价,因此转化率是优化目标的重要因子之一; 从用户体验的角度来说转换率可以用来平衡用户的点击偏好与购买偏好。,其存在如下问题:ESMM模型利用用户行为序列数据在完整样本空间建模,避免了传统CVR模型经常

2022-06-23 19:15:31 7972 1

原创 推荐算法之召回模型:DSSM、YoutubeDNN

,由微软研究院提出,利用深度神经网络将文本表示为低维度的向量,应用于文本相似度匹配场景下的一个算法。不仅局限于文本,在其他可以计算相似性计算的场景,例如推荐系统中。根据用户搜索行为中(文本搜索)和(要匹配的文本)的日志数据,使用深度学习网络将query和doc映射到相同维度的语义空间中,即query侧特征的embedding和doc侧特征的embedding,从而得到语句的低维语义向量表达sentence embedding,用于预测两句话的语义相似度。模型结构:user侧塔和item侧塔分别经过各自的D

2022-06-22 10:21:11 1535

原创 推荐模型之DeepFM与DIN

DeepFM主要在FNN和PNN的基础上,采用并行方式,结合FM Layer和Deep Layer,提高模型计算效率。主要功能:有效地训练出交叉特征的权重FM Layer主要是由一阶特征和二阶特征组合,再经过Sigmoid得到logitsFM Layer的优点:2. DIN (深度兴趣网络)2.1 DIN产生背景历史信息关注度不足单方面点击预测难以预测用户广泛的兴趣历史数据量大2.2 DIN模型Activation Unit:作用: 在当前候选广告和用户的历史行为之间引入注意力的机

2022-06-19 23:58:31 677

原创 决策树原理总结(ID3、C4.5、CART)+ 常见面试问题

系统梳理树类型算法原理加常见面试问题类容按照决策树、Adaboost、GBDT、XGBoost、LightGBM 顺序进行梳理本次的重点类容是决策树的CART树ID3、C4.5介绍请转移到:ID3、C4.5的原理与案例介绍1. CART树ID3与C4.5虽然可以通过多叉树尽可能的挖掘特征信息,但是随着数据量的增加,其决策树分支也会大量增多。CART算法的二分法简化了决策树的规模,提高了生成决策树的效率。1.1 CART分类树实现过程输入: 训练集D,基尼系数的阈值,切分的最少样本个数阈值.

2022-06-02 15:13:56 2532 1

原创 数据结构与算法总结(python)

记录数据结构与算法的知识点以及常见题目,为以后复习做准备;1. 数据结构类型1.1 数组1.2 链表1.3 堆栈1.4 队列1.6 哈希表1.5 树1.6 图2. 基础算法2.1 排序2.2 查找2.3 搜索2.4 动态规划背包问题最长公共子序列最长回文子串爬楼梯编辑距离参考https://blog.csdn.net/wbzhang233/article/details/108890956https://algo.itcharge.cn/00.Introdu.

2022-05-24 16:58:09 973

原创 lightGBM分类模型

import lightgbm as lgbimport numpy as npfrom sklearn.model_selection import StratifiedKFoldfrom sklearn.metrics import roc_auc_score, accuracy_score, f1_score, precision_score, recall_scoreimport warningswarnings.filterwarnings('ignore')X_train, X

2022-04-20 21:06:23 1188

原创 C++基础语法总结

1. Hello word// i input 输入 o output 输出 steam 流#include <iostream>// std 标准 标准命名空间using namespace std;// 有且仅有一个主函数int main() { // cout 代表输出,endl为换行 cout << "Hello word!" << endl; // cin 代表从键盘输入 int num = 0; cin &

2022-04-15 22:10:23 985

原创 第四章:Hive的基本介绍

1.什么是Hive?Apache Hive是一款建立在Hladoop之上的开源数据仓库系统,可以将存储在lladoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。Hive由Facebook实现并开源。Hive与Hadoop关系?Hive利用HDFS存储数据,利用MapRedu

2022-04-01 10:24:15 894

原创 数据仓库的概念

数仓概念:数据仓库(英语:Data Warehouse,简称数仓、DW ),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持( Decision Support )。数仓专注分析数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用;这也是为什么叫“仓库”,而不叫“工厂”的原因。数据库为啥不用于进行分析?答:数仓可以更好的分析,数据库也可以进行分

2022-03-30 14:31:50 2730

原创 第三章:MapReduce与YARN的理解

1. MapReduce概述:一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以;其中用户负责map、reduce两个阶段的业务问题,Hadoop负责底层所有的技术问题;MapReduce核心思绪:先分再合,分而治之,主要目的:并行运行任务,提高效率。注意: 不可拆分的计算任务或相互间有依赖关系的数据无法并行计算:MapReduce特点:易于编程:简单的接口就可以完成分布式程序;良好的扩展性:MR的分布式计算的特点可以随节点数据增长保持近似于线

2022-03-29 15:31:17 2827

原创 第一章:Hadoop是什么?

1.Hadoop介绍Hadoop狭义上是指一款用java语言实现,开源允许用户简单的编程模式实现跨机器集群对海量数据进行分布式计算处理。Hadoop核心组件:Hadoop HDFS(分布式文件存储系统):解决海量数据存储;Hadoop YARN(集群资源管理和任务调度):解决资源任务调度;Hadoop MapReduce(分布式计算框架):解决海量数据计算;Hadoop广义上是指围绕Hadoop打造的大数据生态圈Hadoop现状HDFS作为分布式文件存储系统,处于生态圈底层和核心地位

2022-03-25 21:00:34 1809

原创 Python常用小技巧,提高刷题效率(适用于蓝桥杯python组)

1. 掌握python标准库及小技巧python课程学习到面向对象,就可以刷题参加算法比赛了对于蓝桥杯不支持第三方库,但学会python标准库,将事半功倍;2. 常用的列表函数list1.append(x) : 将x添加到列表末尾list1.sort(): 对列表元素排序list1.reverse() : 将列表元素逆序list1.index(x) : 返回第一次出现元素x的索引值li

2022-03-25 10:23:58 3569

原创 PyTorch自定义损失函数、动态调整学习率、模型微调、半精度训练

PyTorch进阶训练技巧import torchimport numpy as npimport torch.nn as nnimport torch.nn.functional as F1. 自定义损失函数# 以函数的方式定义损失函数,通过输出值和目标值进行计算,返回损失值def my_loss(output,target): loss = torch.mean((output - target)**2) return lossy_pred = torch.tenso

2022-03-21 15:01:41 3444

原创 MySQL知识框架与常见面试题目总结(持续跟新)

本文将按照MySQL的学习路径对面试问题进行有条理性总结,便于大家理解与记忆。知识总结:1.数据库基本操作主要数据库基本操作是对数据库和数据库表的操作2. MySQL的函数参考https://blog.csdn.net/sinat_32366329/article/details/94668396https://blog.csdn.net/qq_35006660/article/details/114558947...

2022-03-20 17:31:05 3819 2

原创 Git本地文件上传到远程仓库

1 . Git 的工作理论Git本地有三个工作区域工作目录(Working Directory )、暂存区(Stage/Index)、资源库(Repository或Git Directory)。如果在加上远程的git仓库**(Remote Directory)**就可以分为四个工作区域。文件在这四个区域之间的转换关系如下:Workspace :工作区,就是你平时存放项目代码的地方将自己的文件,添加到缓存区(断网和不断网都可以操作,想知道原理可以自己深挖)Index / Stage:暂存区,用于临时

2022-03-18 14:40:32 8870

原创 Pytorch定义模型、修改模型、保存与读取模型保存

1. PyTorch的模型定义1.1 PyTorch模型定义的方式PyTorch中有三种模型定义方式,三种方式都是基于nn.Module建立的,我们可以通过Sequential,ModuleList和ModuleDict三种方式定义PyTorch模型。Module类是torch.nn模块里提供的一个模型nn.Module,是所有神经网络的基础模型:1.1.1 Sequential优点: 简单、易读,同时使用Sequential定义的模型不需要再写forward,因为顺序已经定义好了。缺点:

2022-03-16 17:44:51 7028 2

原创 分类模型的评价指标及实现(Python)

本文根据自己对分类模型的评价指标的理解以及其它博主的理解进行总结而成,有疑问或不对地方,请留言指出。1. 什么是评价指标?评价指标:是针对 同份数据,不同算法模型 或者 同模型但不同模型参数,而给出这个算法或者参数好坏的定量指标;常用的评价指标(分类模型):准确率(Accuracy)、精确率(Precision)、召回率(Recall)、P-R曲线(Precision-Recall Curve)、F1 Score、混淆矩阵(Confuse Matrix)、ROC、AUC。为什么要有这么多度量指标呢?

2022-03-12 21:59:30 7656 2

原创 MySQL的存储引擎、事务和锁机制

1.什么存储引擎数据库存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧,锁定水平等功能,使用不同的存储引擎,还可以获得特定的功能。现在许多不同的数据库管理系统都支持多种不同的数据引擎。(存储引擎说白了,就像模板,每个模板有自己的主要功能,数据库管理系统在此模板上建立,MySQL5.5之后的默认是InnoDB)2.什么事务在MySQL中的事务是由存储引擎实现的,在MySQL,只有InnoDB存储引擎才支持事务

2022-03-11 14:57:42 2134

原创 快速排序(python)

1.什么叫快速排序?快速排序是对冒泡排序的改进,其实质是给基准数据找其正确索引位置的过程。2.快速排序的实现步骤?快排的主要思想是分治思想,将大问题分成小问题解决,主要有三步:在数列中,选择一个元素作为基准(pivot),或者叫比较值:将数列中所有元素与基准进行比较,比基准小的放基准的左边,比基准大的放基准的右边。以基准值左右两边的子列作为新数列,不断重复第一步和第二步,直到所有子集只剩下一个元素为止。如下图所示:3.快速排序是所有排序里面性能最好的吗?答:在数据规模越大快速排序的性能

2022-03-09 22:40:56 4224

原创 MySQL的索引

1.MySQL索引的概念索引是用过某种算法,构建出一个数据模型,用于快速找出在某个列中有一特定的行;(使查找更快)2. 索引的分类2.1 按照实现的方式类索引是存储引擎用来快速查找记录的一种数据结构,按照实现的方式类分,主要有Hash索引和B+Tree索引hash有可能产生冲突,重复的内容开始查找,2.2 按照功能划分2.2.1 普通索引创建普通索引:查看索引:(主键自动创建索引)删除索引:2.2.2 唯一索引唯一索引与前面的普通索引类似,不同的就是:索引列的值必须唯

2022-03-07 15:55:11 829

原创 MySQL的触发器

1. MySQL触发器的概念与作用触发器概念:触发器是一种特殊的存储过程,它在试图更改触发器所保护的数据时自动执行。触发器与存储过程的异同相同点:1. 触发器是一种特殊的存储过程,触发器和存储过程一样是一个能够完成特定功能、存储在数据库服务器上的SQL片段。不同点:2. 存储器调用时需要调用SQL片段,而触发器不需要调用,当对数据库表中的数据执行DML操作时自动触发这个SQL片段的执行,无需手动调用。在MySQL中,只有执行insert,delete,update操作时才能触发触发器的执行;触

2022-03-07 14:26:52 53298

BM3D-Denoise-master.rar

BM3D-Denoise-master.rar

2021-04-15

图像去噪的GUI设计.rar

图像去噪的GUI设计.rar

2021-04-12

悬挂运动控制系统.rar

悬挂运动控制系统将采用STM32F10X单片机作为运动物体的控制中心,进行数学计算、对上位机送来的命令进行处理来控制运动物体的运行方向,并计算运行物体的坐标位置,同时向上位机发送物理的理论实时位置

2021-04-09

基于SVM的手写数字分类 (python实现)代码+数据.rar

基于SVM的手写数字分类 (python实现)代码+数据.rar

2021-03-27

Anki外语学习软件

Anki外语学习软件,如果你想提高自己的英语水平,但又不知道从何学习,Anki不错

2018-01-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除