自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(181)
  • 收藏
  • 关注

原创 缦旋律的资源集合

在代码块里找

2020-12-29 22:08:31 2622 6

原创 缦旋律的treasure合集~

记录各种杂七杂八自己觉得不错的课程、网站、实用tips......防止自己记性不好、用过就忘。hhh

2020-09-09 10:07:47 192

原创 数据分析/可视化合集

1.金融投资组合构建及可视化2.tableau数据分析实战:明星艺人数据分析3.数据可视化:2020年全网每周活跃粉丝数top10艺人4.tableau数据可视化实战:大众点评成都美食

2020-09-09 08:23:29 252

原创 tableau合集

tableau10.5下载安装tableau零基础入门课程合集tableau零基础入门课程数据集

2020-05-22 10:53:53 399

原创 mysql知识点汇总+课后作业题+作业题答案+原始数据集

mysql知识点汇总+全套课后习题+习题答案+完整原始数据集DQL,DDL,DML,TCL以及其他知识点

2020-03-27 12:09:45 283

原创 JS数据类型转换

实例展示JavaScript中各数据类型转化的结果

2022-04-18 20:12:02 208 1

原创 使用Python下载电视剧(二):下载ts片段

文章目录1.任务介绍2.代码实现1.任务介绍拿到每一集的m3u8文件后,可以根据文件内的若干链接下载到对应的ts片段,然后根据key对应的链接获得视频解码的密钥对所有下载的ts片段进行解码。最后将所有片段拼接起来得到完整的一集视频。2.代码实现import requests,re,aiohttp,aiofiles,asyncio,osfrom Crypto.Cipher import AESdef decode_key(url): key_url = url.replace('inde

2022-04-11 20:28:04 1655

原创 协程处理下载任务

协程,对比单线程,async,await

2022-04-05 21:57:51 466

原创 多线程处理下载任务

python 多线程

2022-04-01 20:14:29 482

原创 download music.163的评论

文章目录1.任务介绍2.params和encSecKey的产生过程2.1 第一个参数2.2 后面三个参数3.代码实现(一个页面)4.download所有页面的评论1.任务介绍获取每首歌下面的所有评论,通过抓包工具,可以看到该请求返回的数据中,包含了一个页面(这首歌一共有261页评论)的20条评论因此,拿到每个页面的url就能得到所有评论数据。对headers进行查看,发现这是一个post请求,form data为params和encSecKey(下图为第一页的params和encSecKey):

2022-03-31 17:27:21 332

原创 各种小tips

❤️ python安装某个包时,报“read timed out”的错误解决:在terminal中输入:python -m pip --default-timeout=100 install 你需要安装的库的名字

2022-03-29 14:02:47 663

原创 python re模块常用功能

import restr = 'wyb出生于1997年,xz出生于1991年'pattern = r'\d+'# 1.findall:查找string中所有匹配的内容,返回一个listresult = re.findall(pattern,str)print(result) # ['1997', '1991']# 2.finditer:返回一个迭代器result = re.finditer(pattern,str)print(result) # <callable_iterato

2022-03-26 21:04:42 764

原创 正则常用符号

1.元字符.:匹配除换行符以外的任一字符\w:匹配字母or数字or下划线\s:任一空白符\d:任一数字\W:匹配非字母or数字or下划线\S:匹配非空白符\D:匹配非数字\n:换行符\t:制表符^:字符串开始$:字符串结尾a|b:匹配字符a或字符b():匹配括号内的表达式,也表示一个组[]:匹配字符组中的字符[^...]:匹配除字符组中的所有字符2.量词控制元字符出现的次数*:重复0次or更多次+:重复1次or更多次?:重复0次or1次{n}:重复n次,n为具体的整

2022-03-26 17:10:00 1614 1

原创 cross-product transformation

Let’s do this in the opposite order of how you asked. i.e. first:How can I think of the cross-product transformation in general?For me a cross-product comes from linear algebra, and it is a different transformation. Therefore let’s start by not confusing

2021-12-05 11:21:44 232

原创 投资组合构建及可视化

投资组合建仓、调仓、数据落库代码及可视化

2021-08-11 20:00:58 250

原创 因子分析与主成分分析、回归分析的不同

因子分析与主成分分析:主成分分析:原始变量的线性组合表示新的综合变量,即主成分。因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。因子分析与回归分析:因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义。...

2021-06-21 09:29:39 1909

原创 language model with pointer network

1.什么是pointer network如上图所示,P1,P2,P3,P4P_1,P_2,P_3,P_4P1​,P2​,P3​,P4​的坐标分别为(x1,y1x_1,y_1x1​,y1​),(x2,y2x_2,y_2x2​,y2​),(x3,y3x_3,y_3x3​,y3​),(x4,y4x_4,y_4x4​,y4​),我们想从这些点中找出几个点,这几个点的坐标连起来后,能涵盖所有点。以上面这幅图为例,将各个点的坐标输入encoder后,decoder依次输出1、4、2、1。P1,P4,P2P_1,P

2021-06-12 16:30:55 141

原创 隐马尔可夫模型(HMM)and维比特算法

之前手写的笔记,害怕哪天找不到了,就先拍照放上来,以后有时间再整理成电子版。(write to myself:看不懂步骤的可以先去看每个后面的例子~)

2021-06-10 16:58:15 153

原创 pytorch的scatter和scatter_add操作

       tensor的scatter和scatter_add操作,这篇讲得比较详细,这里我就简单总结一下,以a.scatter(dim=dim,index=index,src=src)为例len(a.size())=len(index.size())=len(src.size())=dim_num 即三者维度数必须相等a与index的关系:a.size(i)≥index.size(i) i≠dima.size(dim)与ind

2021-06-10 10:31:30 1162 1

原创 pytorch实现seq2seq(二):Luong_attention机制

       本篇实现的是Luong的attention,即:       其中hˉs\bar{h}_shˉs​表示encoder每个hidden_state的输出,hth_tht​表示decoder每个hidden_state的输出。文章目录1.载入原始数据2.数据预处理2.1 中英文分词2.2 建立词典2.3 使用词典来对原始句子进行编码2.4 划分训练集和

2021-06-06 17:45:39 1238 2

原创 pytorch实现seq2seq(一)

文章目录1.载入原始数据2.数据预处理2.1 中英文分词2.2 建立词典2.3 使用词典来对原始句子进行编码2.4 划分训练集和验证集2.5 自定义dataloader3.搭建模型3.1 encoder3.2 decoder3.3 seq2seq3.4 自定义损失函数4.训练模型4.1 初始化模型4.2 定义训练过程和验证过程的函数4.3 开始训练5.检验效果import osimport sysimport mathfrom collections import Counterimport nu

2021-06-05 23:56:43 1317 1

原创 pytorch实现情感分类(wordavg&lstm&cnn)

文章目录1.数据准备2.wordavg model2.1定义模型2.2设置参数2.3 初始化模型2.4 glove初始化模型embedding层2.5 定义训练过程、评估函数2.6 开始训练2.7 检验分类效果3.LSTM模型4.CNN 模型import torchimport torchtextfrom torchtext import datafrom torchtext import datasetsfrom torchtext.vocab import GloVeimport spacy

2021-06-03 11:15:00 686

原创 使用LSTM训练语言模型(以《魔道祖师》为corpus)

import torchtextfrom torchtext.vocab import Vectorsimport torch from torch import nnimport numpy as npimport randomimport jiebarandom.seed(53113)np.random.seed(53113)torch.manual_seed(53113)use_cuda = torch.cuda.is_available()if use_cuda: t

2021-06-01 21:48:59 857

原创 mooplab2021数据建模大赛(桂林银行杯)

数据集不能下载到本地,所以本文只是做一个数据处理和建模过程的记录。比赛结果:线下auc:0.859,线上auc:0.8077。1.数据初步探索结果训练集中,8375个卡号,但只有8361个客户。acct:(此表含卡号、客户号和最终的label)只要x_cat3取值为482 x_date1、2就缺失;x_cat3只有21值不为482,此时x_date1和x_date2完全一样;基于上述情况,考虑只保留x_cat3,取值为482的设为0,其他为1,并且删除x_date1、2x_date1 x_d

2021-05-28 14:18:42 1975 14

原创 attention/self-attention

attention详细版请戳这里self-attention详细版请戳这里(transformer中的self-attention)

2021-05-27 13:54:26 167

原创 XGB目标函数+重要参数讲解+实例(含Python详细代码)

XGB目标函数、重要参数讲解+实例(含详细Python代码)

2021-05-09 17:20:10 3171 1

原创 RidgeCV及LassoCV

1.RidgeCValphas = np.arange(1,1001,100) Ridge_ = RidgeCV(alphas=alphas#,scoring="neg_mean_squared_error" ,store_cv_values=True #,cv=5 ).fit(x, y)print(x.shape) #有20640个sampleprint(Ridge_.cv_values_.shape) #因为cv默认为留一验证,所以为20640,每一行代表一个验证集验证的结果;因

2021-05-07 10:53:18 1919

原创 岭回归如何解决多重共线性

Lasso:lasso的解为何比较稀疏?假设ridge和lasso都有解,即wridge 和 wlasso 都存在。在wridge 中,(XT X+αI)-1 不为0,若某个wi为0,只能寄希望于XTy;而在wlasso 中,(XT X)-1 不为0,可以调整α使(XTy-αI2\frac{αI}{2}2αI​)某一维为0,那么wi 就为0,所以lasso的解比较稀疏。...

2021-05-04 15:22:22 900

原创 R^2(可决系数)为负分析

在Python中验证,只有线性回归时TSS=RSS+ESS,Ridge和Lasso时,TSS都大于RSS+ESS。

2021-05-04 15:04:20 2257

原创 SVM

1.SVM的基本问题在样本空间中,划分超平面(又称为决策边界)可以通过如下线性方程表示:wTx+b=0w^ Tx+b =0wTx+b=0决策边界位于两条虚线超平面的中间,对于位于虚线超平面上的点(称为支持向量),有w⋅x+b=k,w⋅x+b=−kw·x+b=k,w·x+b=-kw⋅x+b=k,w⋅x+b=−k两个表达式同时除以k,则可以得到:w⋅x+b=1w⋅x+b=−1w·x+b=1 w·x+b=-1w⋅x+b=1w⋅x+b=−1以上就是两条虚线超平面的表达式,1和-1

2021-04-30 09:22:49 121

原创 混淆矩阵及常用评价指标介绍

混淆矩阵及常用评价指标介绍,roc曲线绘制,实例介绍,超详细代码

2021-04-29 14:11:46 2259

原创 kmeans中K的选择以及矢量量化使用

如何用评价指标选择Kmeans中合适的超参数K,以及Kmeans的矢量量化使用。

2021-04-25 10:35:25 565

原创 银行评分卡

银行评分卡制作流程代码详细介绍;实例分析

2021-04-21 19:32:17 2450

原创 分箱二

import sklearnimport numpy as npimport pandas as pdimport scipyimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号model_data = pd.read_csv('model_data.csv',index_co

2021-04-20 19:03:37 212

原创 分箱介绍及举例详解

文章目录1.根据IV值确定最佳分箱个数2.根据最佳分箱个数进行分箱,并用各箱woe值替换元数据2.1 进行分箱2.2 计算各箱woe值2.3 使用woe值替换原始数据1.根据IV值确定最佳分箱个数import sklearnimport numpy as npimport pandas as pdimport scipyimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签pl

2021-04-20 16:06:41 6634 4

原创 sns的color_palette以及plt的cmap

文章目录1.cmap2.palette1.cmapcmap:2.palettecolor_palette:第二个就是上面几张图中颜色的名字,如下:‘Accent’, ‘Accent_r’, ‘Blues’, ‘Blues_r’, ‘BrBG’, ‘BrBG_r’, ‘BuGn’, ‘BuGn_r’, ‘BuPu’, ‘BuPu_r’, ‘CMRmap’, ‘CMRmap_r’, ‘Dark2’, ‘Dark2_r’, ‘GnBu’, ‘GnBu_r’, ‘Greens’, ‘Gre

2021-04-15 11:38:56 6075

原创 PCA+SVD降维:完整代码+实例分析

文章目录1.引例:鸢尾花数据集降维及可视化2.PCA重要参数、属性、方法2.1 重要参数补充知识点:SVD2.2 重要属性2.3 重要方法3.使用PCA降噪4.使用PCA后对分类效果的影响4.1 pca+rf4.2 pca+knnimport warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt

2021-04-15 10:59:14 2508

原创 特征选择

特征选择(feature selection):、过滤法(filter)、嵌入法(embedded)、包装法(wrapper)

2021-04-13 11:31:31 334

原创 使用随机森林填补缺失值

使用随机森林(回归)填补缺失值(分类同样适用),Python详细代码+实例解释。

2021-04-07 14:41:10 4604 2

原创 xgboost

文章目录1.EDA及数据预处理2.初步建模3.查看各变量重要性4.调参重要知识点1. XGBoost的重要参数2. XGBoost原理粗略讲解1.EDA及数据预处理## 基础函数库import numpy as np import pandas as pd## 绘图函数库import matplotlib.pyplot as pltimport seaborn as sns#导入需要用到的数据集data = pd.read_csv('train.csv')data.head()

2021-03-25 17:14:44 1535

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除