自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 作为一个数据分析师使用ChatGPT的心得

在AI爆发后,数据分析领域更多需要在理论知识和实践经验上的积累,只有当你知道了一大堆的分析方法后,你才能调动AI为你完成,因此经验+逻辑将在AI时代远大于技术能力。在业务领域的分析将可以由一个数据分析师赋能一组业务。

2023-03-26 20:54:31 2318

原创 用ChatGPT写了几个脚本

最近很火的chatGPT写代码项目 解放我的双手

2023-02-05 14:18:48 1230

原创 anaconda 新包安装指南

帮助使用anaconda的用户快速添加开发包,解决一个小bug

2022-07-14 10:29:34 470

原创 抖音top主播的直播带货数据分析。

这两天无聊 分析抖音带货主播的货盘数据,但是飞瓜的有数据有点离散,想着整合处理一下,所以这篇主要记录一下这个处理脚本啦原始数据太丑了,没有我要的指标#数据切箱datetime='621-627/'#datetime = ['524-530/','531-606/','607-613','614-620/']data_all = []b=0#for i in datetime:inputPath = 'D:/直播数据分析/'+datetimefor input_file in glob

2021-07-13 16:29:39 2590 9

原创 核PCA与增量PCA

KS曲线是两条线,其横轴是“阈值”(区间序号,按概率排序的等份),纵轴是TPR(上面那条)与FPR(下面那条)的值,值范围[0,1] 。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。...

2021-05-31 10:51:58 307

原创 KS曲线

KS曲线是两条线,其横轴是“阈值”(区间序号,按概率排序的等份),纵轴是TPR(上面那条)与FPR(下面那条)的值,值范围[0,1] 。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。通常来讲,KS>0.2即表示模型有较好的预测准确性。求解方法等于:KS=max(TPR-FPR)。在上图中就是红色竖直线。ks等于(260,0.46)。...

2021-05-31 09:55:33 1186

原创 浅谈线性PCA的实现过程

PCA 主成分分析法,是当今最流行的降维算法之一。其中又分为核PCA,线性PCA,对应于不同形态的数据降维他识别最靠近数据集的超平面,然后将数据投影到这个超平面上。从上面的图中,可以发现将数据投影到C1这个轴上能保留最大的差异性,其他两条虚线保留的差异性比C1实线少,而选择一条能保留最大差异性的轴就是PCA降维技术比较简单的思想。PCA算法可以找到对差异贡献最大的轴,以及一条和这个轴正交的轴,在上图中C2,C2是对剩余的差异性贡献最大的轴,因为上图是一个二维数据,在更高维的数据中找到与前两条线正交的

2021-05-29 16:38:01 376

原创 深拷贝和浅拷贝的区别

昨天面试的时候遇到的一个问题。浅拷贝可以使用列表自带的copy()函数(如list.copy()),或者使用copy模块的copy()函数。深拷贝只能使用copy模块的deepcopy(),所以使用前要导入:fromcopy import deepcopy如果拷贝的对象里的元素只有值,没有引用,那浅拷贝和深拷贝没有差别,都会将原有对象复制一份,产生一个新对象,对新对象里的值进行修改不会影响原有对象,新对象和原对象完全分离开。简单说就是我随意定义一个列表,列表中还包含列表,这时候使用c

2021-05-29 15:08:55 68

原创 使用随机森林算法编写评分卡模型

数据来源于信贷用户,数据量级为2W首先读取数据# 忽略警告import warningswarnings.filterwarnings('ignore')# 导入常用库pandas/Numpy/matplotlibimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt# jupyter图形界面显示图片%matplotlib inline# jupyter显示所有特征pd.set_option('dis

2021-05-21 11:25:05 1533 1

翻译 xgboost 参数详细述说

XGBoost参数详细说明:常规框架参数:boostergbtree 树模型做为基分类器(默认)gbliner 线性模型做为基分类器silentsilent=0时,不输出中间过程(默认)silent=1时,输出中间过程nthreadnthread=-1时,使用全部CPU进行并行运算(默认)nthread=1时,使用1个CPU进行运算。scale_pos_weight正样本的权重,在二分类任务中,当正负样本比例失衡时,设置正样本的权重,模型效果更好。例如,当正负

2021-05-19 17:29:20 2946

原创 随机森林参数说明

RF参数详细说明:bagging框架参数:n_estimators:也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数。一般来说n_estimators太小,容易欠拟合,n_estimators太大,计算量会太大,并且n_estimators到一定的数量后,再增大n_estimators获得的模型提升会很小,所以一般选择一个适中的数值。默认是100。oob_score:即是否采用袋外样本来评估模型的好坏。默认识False。个人推荐设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。cr

2021-05-19 17:19:54 4323

原创 使用聚类算法制作 RFM 模型 以投资用户为例

这篇文章主要是记录下,我工作中用到的算法与模型的组合。算是一种分析思路吧,顺便谈一下不足之处。首先RFM模型大多数情况是用在高频消费场景,主要分析用户的最近购买时间,购买次数,以及购买金额。依据这三个指标可以对用户进行划分。例如零售业,顾客群体比较稳定,且客户的购买行为及频次相对固定,一个客户从前一礼拜购买数三次。如今只来一次,那么数据本身的反应就会很快。但是在投资行业,本身投资周期分为长、中、短,分别对应了1年以内,1-5年,5年以上,用户的投资频率较低,投资金额较大,且最近投资时长可能在一个产品周

2021-04-25 16:06:40 262 2

原创 在有ssh情况下使用python链接到mysql

最近在处理使用跳板机转接到mysql 的时候有些问题,解决方法如下首先需要手动安装一个sshtunnel库import pymysqlfrom sshtunnel import SSHTunnelForwarderwith SSHTunnelForwarder( ('100.40.233.8' ,类似3306的端口),#ip地址, ssh_password='跳板机密码', ssh_username='用户名', remote_bin

2021-03-23 10:40:00 96

原创 一个简单的pd.merge匹配异常值脚本

工作时候老是要处理异常值,就弄了个简单的匹配脚本,看看数据库出来的错误日志有没有问题,这里这个只适合我自己用哈。import pandas as pd import csv import numpy as nproad = 'C:/Users/Administrator/Desktop/aaa.csv'f = open(road)#专门打开文字文件的csvfr = csv.reader(f)for i in fr: #读入pandas data = pd.DataFrame(i,col

2021-03-11 14:07:06 138

原创 网格搜索对knn的使方法

from sklearn.model_selection import GridSearchCVparam = [{'weights':['distance','uniform'],'n_neighbors':[3,4,5]}]from sklearn.neighbors import KNeighborsClassifierknn=KNeighborsClassifier()grid_search = GridSearchCV(knn,param,cv=5,verbose=3)grid_sear

2021-02-24 16:07:03 176

原创 sklearn模型训练后保存的方法

使用joblib 这个库可以将训练好的模型保存,以便下次使用。from sklearn.datasets import load_irisfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitdata= load_iris()x,y=data.data,data.targetxtr,xte,ytr,yte = train_test_split(x

2021-02-20 15:35:06 1658

原创 对电信用户流失的逻辑斯提回归分析

import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport statsmodels.api as smimport statsmodels.formula.api as smf# 将数据读入pandaschurn = pd.read_csv('churn.csv', sep=',', header=0)churn.columns = [heading.low

2021-02-20 15:23:12 220

原创 基于决策树的快消领域商业分析预测

还在整理

2021-01-04 15:54:13 268 1

原创 信用卡违约用户分析-SGD分类

在DataFountain平台上的用户逾期行为预测竞赛项目。数据来源于某银行公布的网上公开数据集,为银行真实信贷用户信息,应用于信用逾期预测、信用卡评分等业务场景。import pandas as pd import numpy as npdata=pd.read_csv('C:/Users/luoyang/Desktop/信用卡逾期分析/train.csv',\index_col='CUST_ID',iterator=True)#csv文件接近500M,全部读入内存不够,iterator参数允许

2020-10-19 00:52:46 833 1

原创 使用线性回归算法对中国平安收盘价的预测

import pandas as pdimport numpy as npimport datetimeimport mathimport osimport matplotlib.pyplot as pltfrom matplotlib import stylefrom sklearn.model_selection import cross_val_scorefrom sklearn import preprocessing, svmfrom sklearn.model_selectio

2020-10-13 16:12:24 251

原创 对魂器学院贴吧舆论的分析

使用爬虫软件获取魂器学院的最近5个月的贴吧帖子题目及内容阐述。然后将数据保存一份至excel,之后用pandas 读入,先对用户分析,将用户编码,获得五个月内有发帖玩家总计1424人,平均一个人发帖4个左右。对每个帖子的回复数分析,发现平均每个帖子回复17个左右。回复中位数在9,说明大部分帖子回复人数不足10个。其中有个帖子回复数高达8888回复数,查看了一下,是个水楼贴,应该要清洗掉的,不过这边就这么分析吧。为主题做一张词云图import jiebaimport wordcloudda

2020-09-23 14:33:28 208

原创 评估随机森林,极端树,SVC,MLP的集成决策器对于决策结果的影响。

import numpy as npimport structimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifier,BaggingClassifier,VotingClassifierfrom sklearn.svm import LinearSVC,SVCfrom sklearn.linear_model import LogisticRegression,LinearRegressi

2020-09-18 12:56:34 560

转载 浅谈三大机器学习算法:GBDT、XGBoost、LightGBM

本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步结束后,增加分错的点的权重,减少分对的点的权重,这样使得某些点如果老是被分错,那么就会被“重点关注”,也就被

2020-09-17 22:08:44 992

原创 BaggingClassifier分类器的使用方法

from sklearn.ensemble import RandomForestClassifier,VotingClassifier,BaggingClassifierfrom sklearn.tree import DicisionTreeClassifierbag_clf=BaggingClassifier(DecisionTreeClassifier(), n_estimators=500, max_samples=100, bootstrap=True, n_jobs=-1,

2020-09-17 12:17:18 8188 2

原创 投票分类器VotingClassfier的使用

投票分类器有硬投票和软投票两种,硬投票是对结果进行投票,软投票是对多种结果的预测精度加权后取最高值投票。这里使用硬投票举个例子from sklearn.model_selection import train_test_splitfrom sklearn.datasets import make_moonsx,y=make_moons(n_samples=1000,noise=0.25,random_state=42)xtr,xte,ytr,yte=train_test_split(x,y,tes

2020-09-16 22:07:15 3379

原创 使用决策树完成随机森林分类

使用sklearn 的decisiontreeclassfier 函数再数据集上完成随机森林分类。import numpy as npfrom sklearn.model_selection import GridSearchCVfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import cross_val_scorefrom sklearn.model_selection import t

2020-09-16 10:41:09 487

原创 随机森林对用户流失分析

之前发了 模型有些问题,调个优再发

2020-09-15 22:48:44 347

原创 对同一数据源使用LinearSVC和SGDClassifier训练

其实就是为了查看不同分类算法在相同数据源中的应用是否会产生不同的决策边界。以及不同的决策边界是否有收敛值。使用sklearn自带的数据包iris。在线性可分离数据集上训练“LinearSVC”。然后在同一个数据集上训练一个“SVC”和一个“sgdclassizer”。导入数据:from sklearn import datasetsiris = datasets.load_iris()X = iris["data"][:, (2, 3)] # 使用花瓣长、宽属性y = iris["targ

2020-09-14 16:02:03 889

原创 基于SVM分类-平安股价

import pandas as pdfrom sklearn import svm,preprocessingfrom data_out import *ZGPA = pd.read_csv('zgpn.csv')ZGPA.index = ZGPA['date']df_CB = ZGPA.sort_index(ascending=True, axis=0)df_CB = df_CB.set_index('date')df_CB = df_CB.sort_index()#print df

2020-08-30 11:09:42 200

原创 基于k近临算法对平安股价的预测

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport osimport mathfrom sklearn import neighborsfrom sklearn.model_selection import GridSearchCVfrom sklearn import preprocessing, svmfrom sklearn.preprocessing import MinMaxScale

2020-08-19 22:49:30 197

原创 预测股价——线性回归模型

import pandas as pdimport numpy as npimport datetimeimport mathimport osimport matplotlib.pyplot as pltfrom matplotlib import stylefrom sklearn.model_selection import cross_val_scorefrom sklearn import preprocessing, svmfrom sklearn.model_selectio

2020-08-15 23:27:41 3082 1

原创 电信客户流失分析

采用二值型逻辑斯蒂模型。先等一下

2020-08-15 19:57:31 249

原创 LabelEncoder使用方法及处理多列文本的方法

大多数机器学习算法跟数字打交道,所以有时把这些文本标签转换为数字。Scikit-Learn 为这个任务提供了一个转换器 LabelEncoder :from sklearn.preprocessing import LabelEncodere=LabelEncoder()hc= a['ocean_proximity']hce=e.fit_transform(hc)hcehce.shape训练转换后的文本会按相同描述分到一个数字。该方法只适合转换一列的文本数据,转换多列的文本数据会报错,

2020-08-13 16:44:47 1918

原创 sklearn imputer填充方法总结

Scikit-Learn 提供了一个方便函数处理缺失值: Imputer 。下面是其使用方法:首先,需要 创建一个 Imputer 实例,指定用某属性的中位数来替换该属性所有的缺失值:from sklearn.preprocessing import Imputer imputer = Imputer(strategy="median")imputer.fit(df)imputer 计算出了每个属性的中位数,并将结果保存在了实例变量 statistics_ 中。虽然此时 只有属性 total_

2020-08-13 16:20:14 3020

原创 Python批量处理压缩文件中数据的方法

import osimport tarfilefrom six.moves import urllibDOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"HOUSING_PATH = os.path.join("datasets", "housing")HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"def fetch_

2020-08-11 22:57:32 140

原创 机器学习过程中可以获取的开源数据源网址

提供几个真实可以获得真实数据的开源数据网址,在这里可以找到你需要用到的人工智能和以及机器学习需要用到的算法检验数据。算是我自己记录一下数据源的网址吧。1、UC Irvine Machine Learning Repository2、Kaggle datasets3、Amazon’s AWS datasets打不开的话需要自己搭梯子...

2020-08-11 11:23:48 203

原创 对信号源连接人群的停留时间分析——聚类分析

#-*- coding: utf-8 -*-#数据标准化到[0,1]import pandas as pd#参数初始化filename = '../data/business_circle.xls' #原始数据文件standardizedfile = '../tmp/standardized.xls' #标准化后数据保存路径data = pd.read_excel(filename, index_col = u'基站编号') #读取数据data = (data - data.min())

2020-08-10 23:30:53 462

原创 Python连接Mysql读写数据的简单办法。

一般我们进去mysql的办法都是通过cmd中进入,或者使用图形管理器如Navicat for MySQL管理数据,但是在mysql中之间进行数据分析是一件很痛苦的是,因为缺少有效的模型参数。例如在这个数据集合中,查询cost大于600且invoice_number是920开头的,我们用select语句可以很简单的查询。select supplierr_name from suppliers where cost>600 and invoice_number like '920%';很容易查

2020-08-07 15:36:58 255

原创 sklearn库Imputer包的丢失及替代方法

在sklearn的0.22以上版本的sklearn去除了Imputer类,我们可以使用SimpleImputer类代替。或者降级回版本sklearn 0.19from sklearn.impute import SimpleImputer#有如下的一些参数sklearn.impute.SimpleImputer( missing_values=nan, strategy='mean', fill_value=None, verbose=0, copy=True, add_in

2020-08-07 13:21:38 849

原创 多项式模型在不同数据量下的学习曲线变化趋势

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionfrom sklearn.pipeline import make_pipelinefrom sklearn.model_selection import val

2020-08-05 14:46:08 518

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除