lisenpy-CSDN博客

原创作为一个数据分析师使用ChatGPT的心得

在AI爆发后，数据分析领域更多需要在理论知识和实践经验上的积累，只有当你知道了一大堆的分析方法后，你才能调动AI为你完成，因此经验+逻辑将在AI时代远大于技术能力。在业务领域的分析将可以由一个数据分析师赋能一组业务。

2023-03-26 20:54:31 2318

原创用ChatGPT写了几个脚本

最近很火的chatGPT写代码项目解放我的双手

2023-02-05 14:18:48 1230

原创 anaconda 新包安装指南

帮助使用anaconda的用户快速添加开发包，解决一个小bug

2022-07-14 10:29:34 470

这两天无聊分析抖音带货主播的货盘数据，但是飞瓜的有数据有点离散，想着整合处理一下，所以这篇主要记录一下这个处理脚本啦原始数据太丑了，没有我要的指标#数据切箱datetime='621-627/'#datetime = ['524-530/','531-606/','607-613','614-620/']data_all = []b=0#for i in datetime:inputPath = 'D:/直播数据分析/'+datetimefor input_file in glob

2021-07-13 16:29:39 2590 9

原创核PCA与增量PCA

KS曲线是两条线，其横轴是“阈值”（区间序号，按概率排序的等份），纵轴是TPR（上面那条）与FPR（下面那条）的值，值范围[0，1] 。两条曲线之间之间相距最远的地方对应的阈值，就是最能划分模型的阈值。...

2021-05-31 10:51:58 307

原创 KS曲线

KS曲线是两条线，其横轴是“阈值”（区间序号，按概率排序的等份），纵轴是TPR（上面那条）与FPR（下面那条）的值，值范围[0，1] 。两条曲线之间之间相距最远的地方对应的阈值，就是最能划分模型的阈值。通常来讲，KS>0.2即表示模型有较好的预测准确性。求解方法等于：KS=max(TPR-FPR)。在上图中就是红色竖直线。ks等于（260，0.46）。...

2021-05-31 09:55:33 1186

原创浅谈线性PCA的实现过程

PCA 主成分分析法，是当今最流行的降维算法之一。其中又分为核PCA，线性PCA，对应于不同形态的数据降维他识别最靠近数据集的超平面，然后将数据投影到这个超平面上。从上面的图中，可以发现将数据投影到C1这个轴上能保留最大的差异性，其他两条虚线保留的差异性比C1实线少，而选择一条能保留最大差异性的轴就是PCA降维技术比较简单的思想。PCA算法可以找到对差异贡献最大的轴，以及一条和这个轴正交的轴，在上图中C2，C2是对剩余的差异性贡献最大的轴，因为上图是一个二维数据，在更高维的数据中找到与前两条线正交的

2021-05-29 16:38:01 376

原创深拷贝和浅拷贝的区别

昨天面试的时候遇到的一个问题。浅拷贝可以使用列表自带的copy()函数（如list.copy()），或者使用copy模块的copy()函数。深拷贝只能使用copy模块的deepcopy(),所以使用前要导入：fromcopy import deepcopy如果拷贝的对象里的元素只有值，没有引用，那浅拷贝和深拷贝没有差别，都会将原有对象复制一份，产生一个新对象，对新对象里的值进行修改不会影响原有对象，新对象和原对象完全分离开。简单说就是我随意定义一个列表，列表中还包含列表，这时候使用c

2021-05-29 15:08:55 68

原创使用随机森林算法编写评分卡模型

数据来源于信贷用户，数据量级为2W首先读取数据# 忽略警告import warningswarnings.filterwarnings('ignore')# 导入常用库pandas/Numpy/matplotlibimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt# jupyter图形界面显示图片%matplotlib inline# jupyter显示所有特征pd.set_option('dis

2021-05-21 11:25:05 1533 1

翻译 xgboost 参数详细述说

XGBoost参数详细说明：常规框架参数：boostergbtree 树模型做为基分类器（默认）gbliner 线性模型做为基分类器silentsilent=0时，不输出中间过程（默认）silent=1时，输出中间过程nthreadnthread=-1时，使用全部CPU进行并行运算（默认）nthread=1时，使用1个CPU进行运算。scale_pos_weight正样本的权重，在二分类任务中，当正负样本比例失衡时，设置正样本的权重，模型效果更好。例如，当正负

2021-05-19 17:29:20 2946

原创随机森林参数说明

RF参数详细说明：bagging框架参数：n_estimators:也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，计算量会太大，并且n_estimators到一定的数量后，再增大n_estimators获得的模型提升会很小，所以一般选择一个适中的数值。默认是100。oob_score:即是否采用袋外样本来评估模型的好坏。默认识False。个人推荐设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。cr

2021-05-19 17:19:54 4323

原创使用聚类算法制作 RFM 模型以投资用户为例

这篇文章主要是记录下，我工作中用到的算法与模型的组合。算是一种分析思路吧，顺便谈一下不足之处。首先RFM模型大多数情况是用在高频消费场景，主要分析用户的最近购买时间，购买次数，以及购买金额。依据这三个指标可以对用户进行划分。例如零售业，顾客群体比较稳定，且客户的购买行为及频次相对固定，一个客户从前一礼拜购买数三次。如今只来一次，那么数据本身的反应就会很快。但是在投资行业，本身投资周期分为长、中、短，分别对应了1年以内，1-5年，5年以上，用户的投资频率较低，投资金额较大，且最近投资时长可能在一个产品周

2021-04-25 16:06:40 262 2

原创在有ssh情况下使用python链接到mysql

最近在处理使用跳板机转接到mysql 的时候有些问题，解决方法如下首先需要手动安装一个sshtunnel库import pymysqlfrom sshtunnel import SSHTunnelForwarderwith SSHTunnelForwarder( ('100.40.233.8' ,类似3306的端口),#ip地址, ssh_password='跳板机密码', ssh_username='用户名', remote_bin

2021-03-23 10:40:00 96

原创一个简单的pd.merge匹配异常值脚本

工作时候老是要处理异常值，就弄了个简单的匹配脚本，看看数据库出来的错误日志有没有问题，这里这个只适合我自己用哈。import pandas as pd import csv import numpy as nproad = 'C:/Users/Administrator/Desktop/aaa.csv'f = open(road)#专门打开文字文件的csvfr = csv.reader(f)for i in fr: #读入pandas data = pd.DataFrame(i,col

2021-03-11 14:07:06 138

原创网格搜索对knn的使方法

from sklearn.model_selection import GridSearchCVparam = [{'weights':['distance','uniform'],'n_neighbors':[3,4,5]}]from sklearn.neighbors import KNeighborsClassifierknn=KNeighborsClassifier()grid_search = GridSearchCV(knn,param,cv=5,verbose=3)grid_sear

2021-02-24 16:07:03 176

原创 sklearn模型训练后保存的方法

使用joblib 这个库可以将训练好的模型保存，以便下次使用。from sklearn.datasets import load_irisfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitdata= load_iris()x,y=data.data,data.targetxtr,xte,ytr,yte = train_test_split(x

2021-02-20 15:35:06 1658

原创对电信用户流失的逻辑斯提回归分析

import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport statsmodels.api as smimport statsmodels.formula.api as smf# 将数据读入pandaschurn = pd.read_csv('churn.csv', sep=',', header=0)churn.columns = [heading.low

2021-02-20 15:23:12 220

原创基于决策树的快消领域商业分析预测

还在整理

2021-01-04 15:54:13 268 1

原创信用卡违约用户分析-SGD分类

在DataFountain平台上的用户逾期行为预测竞赛项目。数据来源于某银行公布的网上公开数据集，为银行真实信贷用户信息，应用于信用逾期预测、信用卡评分等业务场景。import pandas as pd import numpy as npdata=pd.read_csv('C:/Users/luoyang/Desktop/信用卡逾期分析/train.csv',\index_col='CUST_ID',iterator=True)#csv文件接近500M，全部读入内存不够，iterator参数允许

2020-10-19 00:52:46 833 1

原创使用线性回归算法对中国平安收盘价的预测

import pandas as pdimport numpy as npimport datetimeimport mathimport osimport matplotlib.pyplot as pltfrom matplotlib import stylefrom sklearn.model_selection import cross_val_scorefrom sklearn import preprocessing, svmfrom sklearn.model_selectio

2020-10-13 16:12:24 251

原创对魂器学院贴吧舆论的分析

使用爬虫软件获取魂器学院的最近5个月的贴吧帖子题目及内容阐述。然后将数据保存一份至excel，之后用pandas 读入，先对用户分析，将用户编码，获得五个月内有发帖玩家总计1424人，平均一个人发帖4个左右。对每个帖子的回复数分析，发现平均每个帖子回复17个左右。回复中位数在9，说明大部分帖子回复人数不足10个。其中有个帖子回复数高达8888回复数，查看了一下，是个水楼贴，应该要清洗掉的，不过这边就这么分析吧。为主题做一张词云图import jiebaimport wordcloudda

2020-09-23 14:33:28 208

原创评估随机森林，极端树，SVC，MLP的集成决策器对于决策结果的影响。

import numpy as npimport structimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifier,BaggingClassifier,VotingClassifierfrom sklearn.svm import LinearSVC,SVCfrom sklearn.linear_model import LogisticRegression,LinearRegressi

2020-09-18 12:56:34 560

转载浅谈三大机器学习算法：GBDT、XGBoost、LightGBM

本文主要简要的比较了常用的boosting算法的一些区别，从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍，一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候，为每一个样本赋上一个权重值，初始的时候，大家都是一样重要的。在每一步训练中得到的模型，会使得数据点的估计有对有错，我们就在每一步结束后，增加分错的点的权重，减少分对的点的权重，这样使得某些点如果老是被分错，那么就会被“重点关注”，也就被

2020-09-17 22:08:44 992

原创 BaggingClassifier分类器的使用方法

from sklearn.ensemble import RandomForestClassifier,VotingClassifier,BaggingClassifierfrom sklearn.tree import DicisionTreeClassifierbag_clf=BaggingClassifier(DecisionTreeClassifier(), n_estimators=500, max_samples=100, bootstrap=True, n_jobs=-1,

2020-09-17 12:17:18 8188 2

原创投票分类器VotingClassfier的使用

投票分类器有硬投票和软投票两种，硬投票是对结果进行投票，软投票是对多种结果的预测精度加权后取最高值投票。这里使用硬投票举个例子from sklearn.model_selection import train_test_splitfrom sklearn.datasets import make_moonsx,y=make_moons(n_samples=1000,noise=0.25,random_state=42)xtr,xte,ytr,yte=train_test_split(x,y,tes

2020-09-16 22:07:15 3379

空空如也

空空如也