htuhxf-CSDN博客

翻译时间序列分析1：python里用AR自回归模型分析预测时间序列

Autoregression / AR，就是用前期数据来预测后期数据的回归模型，所以叫做自回归模型。它的逻辑简单，但对时间序列问题能够做出相当准确的预测。1）自回归函数y^t=b0+b1yt−1+...+bnyt−n,其中n<t y\hat{}_t = b_0 + b_1y_{t-1} + ... + b_ny_{t-n} , 其中n<ty^t=b0+b1yt−1+............

2020-04-18 17:31:47 29200 23

原创 Python笔记：爬虫下载图片的基本思路（requests就能搞定）

先上结论：只要找到它对应的链接，就一定能够下载它。用到的主要函数： request()(中文说明文档链接), re.findall()(官方文档链接)。思路分析：第一、How、Where找到图片链接？每张图片都有自己对应的链接。在浏览器中，按F12，在火狐的查看器或者Chorme的elements。见下边例子：第二、用代码How把我们想要的链接提取出来呢？使用正则表达式 ....

2019-05-12 22:14:56 1501

翻译翻译：提高既定数据集下的模型效果——交叉验证(CrossValidaton)

交叉验证——（监督）学习器性能评估方法一、思考：交叉验证有什么好值得我们使用的？每个算法模型都需要经过两个阶段：训练和验证。官方文档链接1）一般情况下的，我们用的方法是：将原始数据集分为训练数据集 & 测试数据集。优点：思路正确，但仅仅是思路正确。缺点：思路正确，但是方法不够高明。一方面，如果不把原始数据集划分为训练数据集&测试数据集，而是直接使...

2018-10-23 16:26:44 1927

原创 python 可视化：fig, ax = plt.subplots()画多表图的3中常见样例 & 自定义图表格式

目录一、fig, ax = plt.subplots()的作用？二、参数的含义？三、怎么在一个图上排列多个子图？四、怎么把多个子图一起合并到一个图上？《Python for Data Analysis》 2nd Edition一、fig, ax = plt.subplots()的作用？它是用来创建总画布/figure“窗口”的，有figure就可以在上边（或其中一个子...

2018-10-09 19:09:29 283223 16

原创【python笔记】客户运营 - cohort分析

【代码】【python笔记】客户运营 - cohort分析。

2023-11-22 00:07:17 733

文章目录目标：把dataframe某个string格式的N个逗号分隔值，拆分成N行做法一：仅使用`explode()`做法二：`explode()`搭配`assign()`做法三：`explode()`搭配`apply`目标：把dataframe某个string格式的N个逗号分隔值，拆分成N行import pandas as pddfnew = pd.DataFrame({'a': ['a', 'b'], 'b': ['1, 2, 3,', '4, 5, 6

2022-04-27 15:33:17 1286

翻译【翻译】：UserWarning:FixedFormatter should only be used together with FixedLocator

设定x/y轴的标签的“个数”&“内容”&“格式”

2022-03-28 00:22:52 3973

原创【python笔记】经营分析-RFM和新老客户留存 by秦路

无意中看到非常不错的一篇文章《如何七周成为数据分析师》by秦路。此处记录1）精彩的地方，2）其它的想法

2022-03-06 00:09:25 1525

原创 numpy笔记：.select()默认值的类型

numpy.select(condlist, choicelist, default=0)链接，当DataFame新生成字段时，choicelist如下3种会使得default的“0”的type分别为str和int：一、当select函数里choicelist是指定string value时，type为str：f['new'] = numpy.select([mask], ['value'], default=0)二、当select函数里choicelist是df.series时，type为数

2022-02-12 21:09:58 1289

原创【Python笔记】爬取信息 + 储存到MySQL + 词云展示

从目标网站获取数据，然后储存到MySQL，最后云图展示

2022-02-07 23:50:20 1928 2

翻译翻译：apply与transform在搭配groupby的不同

pandas.DataFrame.apply(func, axis=0)：将func沿着axis应用在DataFrame上并返回结果；文章链接：https://towardsdatascience.com/difference-between-apply-and-transform-in-pandas-242e5cf32705pandas.DataFrame.transform(func, axis=0)：Call func on self producing a DataFrame with tran

2021-08-18 19:02:35 957

翻译几种分类的名词意思：Multiclass VS Multilabel VS Multioutput

Multiclass classification打比方你想要把XX归到n_classes(即彼此不同&互斥的classes)。那么来举个栗子：我们有4个classes，分明是"Python"、“Java”、"C++“和"Other language”。此刻我们如果有6个XX，它们对应的classes标签存在数列y里import numpy as npy = np.asarray(['Java', 'C++', 'Other language', 'Python', 'C++', 'Pytho

2021-04-12 01:02:08 1433

转载 ML：关联规则之简单介绍

Explanation of the Market Basket MoDefinition：List itemIt is a rule-based machine learning method for discovering interesting relatiosn between varianbles in large databases. It is intended to identify strong rules discovered in databases using some m

2020-08-12 23:30:12 1204

原创 ML：非监督学习之聚类_从KMeans到GMM高斯混合聚类

本文节选于《Python Data Science Handbook》by Jake VanderPlas 2016-11-17 First EditionIn Depth: Gaussian Mixture Modelk-means 聚类模型简单、易于理解，但是也因此无法处理比较复杂的聚类问题。尤其是它的非概率论本质，和它用简单的distance-from-cluster-center/中心点距离来进行聚类方法，导致在许多实际情况下模型效果不佳。本文要讨论的GMM/Gaussian Mixture.

2020-08-09 16:24:46 1764

翻译摘抄 - 从几何角度看协方差矩阵

简介：本文通过探索线性变换和变换后数据协方差的的关系，提供一个直观的、几何图示的协方差矩阵解释。大多数教材都是通过协方差矩阵的概念来解释数据的分布形状。相反的我们通过数据分布的形状来解释协方差矩阵。在先前的文章里我们探讨和方差的概念，并给出了预估方差的公式的推导和证明。这里Figure 1 展现了标准差——方差的根，量化了整个数据的分布：下边这个公式可以或许样本方差的估计值：σ2=1N−1∑i=1N(xi−μ)2=E[(x−E(x))(x−E(x))]=σ(x,x)\sigma^2=\frac{1

2020-08-02 21:49:20 1337

翻译调参简例：SARIMA模型_手工获取参数过程

背景：SARIMA，简单说就是AR+MA+差分+季节性因素+趋势。所以参数在statsmodels.tsa.statespace.sarimax.SARIMAX里边，用3个指标涵盖核心参数，order(p,d,q)、seasonal_order(P,D,Q,s)和trend.Seasonal AutoRegessive Integrated Moving Average with eXogenous regessors model一、步骤的文字描述："""准备阶段"""# 第一、定义一个待传入参.

2020-06-04 23:48:32 9508 10

翻译时间序列笔记：python中如何用差分消趋势和季节性因素

时间序列模型：严格来说包含4个要素，Trend/趋势、Circle/循环、Seasonal /季节性和不规则要素。但是实际中C和S貌似更多的归为一个。一组时间序列数据有可能包含T和S，这都导致数据集不平稳。因为T会造成均值跟着时间变化而变化，S会造成方差随时间变动。在平稳化时间序列数据中，差分/differencing是种用得广&受欢迎的方法。笔记的目的是为了理解：平稳的时间...

2020-04-07 21:15:17 10047 5

原创 sklearn笔记：transfrom()为什么接在fit_transform()后边而不是fit()？

举个例子：对于数据集X_train和X_test，from sklearn.preprocessing import PolynomialFeaturesimport numpy as npx_train = np.array([6, 8, 10, 14, 18]).reshape(-1, 1)x_test = np.array([6, 8, 11, 16]).reshape(-1, 1...

2020-01-05 23:24:17 952

翻译 sklearn笔记：StratifiedKFold和StratifiedShuffleSplit的区别？

首先上图：由上图可见，KFold和ShuffleSplit的最大不同就是，KFold进行的n_split划分，每次的划分数据都不会重复，而ShuffleSplit的会有重复的；进一步展开的说：KFold 和ShuffleSplit都是分层抽样，都可以进行n次split（上例中都是4次）以便用于交叉验证，都可以在split之前把数据“洗洗牌”打乱；不同点是KFold，在shuffle=T...

2019-10-31 23:56:43 3706 4

翻译 ML：非监督学习之 3 层次聚类Hierarchical Clustering with Python and Scikit-learn

by Usman Malik 《Hierarchical Clustering with Python and Scikit-learn》层次聚类是用于无标签数据聚类的一种非监督学习算法。在某些情况下，层次聚类和KMeans的结果非常相似。在用Scikit-Learn实现层次聚类之前，有必要先了解其理论基础。层次聚类的理论依据层次聚类有2种：合并法和分类法，通常使用的是合并法。如图：合并...

2019-10-20 17:42:50 1051

原创 ML：非监督学习之聚类之 2 DBSAN聚类（sklearn.cluster.dbscan))

一、算法图解DBSCAN：Dense-Based Spatial Clustering of Applications with Noise（基于密度的&带噪点的空间聚类应用方法）举个栗子：1. 此处潜在设定条件：Min_smaples（或者叫MinPoints / Minpts）= 3；2. 划分为QMP3个点、SOR3个点为圆心的圆内的点，共计2类；剩余的点为Noise（噪点）...

2019-10-14 23:38:44 1548

原创 ML：非监督学习之聚类之 1 KMeans聚类（sklearn.cluster.KMeans)

一、算法图解首先，指定cluster的个数。上图设k=2（初始点为从图b开始出现的“+”号；其次，把每个数据样本划到到最近的中心点那一cluster；再次，指第一轮化cluster之后，更新中心点（一般是把该cluster的所有数据坐标加起来取平均值）；重复划类和中心点更新，知道达到指定的迭代次数或者中心点的移动距离小于给定值或者中心点不在移动；二、sklearn官方文档链接skl...

2019-10-14 22:10:58 1087

原创 ML：常见判断类模型好坏指标 - 混淆矩阵 & ROC曲线 & AUC & 其他

混淆矩阵前提概念缩写全拼含义TPTrue Positive预测对了，预测了“Positive”FNFalse Negative预测错了，预测了“Negetive”FPFalse Positive预测错了，预测了“Positive”TNTrue Negtive预测对了，预测了“Negtive”2.指标定义指标定义备注...

2019-10-12 07:52:34 1567

转载 ML笔记：分类算法之SVM

注：本文几乎所有东西都不是原创，但鉴于来源复杂不易查明、仅作为个人笔记查询，故不再一一插入链接。如有侵权，立删。1. SVM是什么？Support Vector Machine。一个普通的SVM就是一条直线，用来完美划分linearly separable的2类，即2分类。但这有不是一条普通的直线，这是无数条可以分类的直线当中最完美的，因为它乔海在2个类的中间，距离2个类的点都一样远。而所...

2019-10-08 20:38:52 836

原创 ML：决策树的优劣点&常用算法实例

用途：用于分类和回归优点简单易懂，条理清晰，可以用图画出来；需要较少的数据预处理，计算量不大。其他算法常常需要数据标准化、删除空值、创建虚拟变量。需要注意的是，此处模型不支持缺失值；Tree的使用成本（例如预测）等于训练数据集大小的对数。可处理连续数据和分类数据；可处理multi-output问题；可解释性强（与之相反的是神经网络，其结果过程几乎无法解释，是“黑盒”）可以用统...

2019-09-29 00:16:39 762

原创 python笔记：df.plot()常见的坐标轴的操作，及正常显示负号

一、坐标轴的label（stackoverflow链接）重新命名坐标轴的名称是否显示坐标轴。以x轴为例：df.plot()ax = plt.axes()x_axis = ax.axes.get_xaxis()x_axis.set_visible(False)plt.show()plt.close()ax = plt.axes()x_axis = ax.xaxes()...

2019-09-27 20:25:45 10186

原创 python笔记：multiprocessing 函数apply和apply_async有什么区别？

首先扯点历史（链接）：在python的幼儿时期，执行带参数的function是这样的:apply(function, args, kwargs) apply在python2.7里还有，当然python3.x没有了，现在直接function(*args, **kwargs)Multiprocessing.Pool模块就是借鉴了相同的操作定义的函数。然后再说apply和apply_...

2019-09-23 20:01:01 7356 2

翻译 python笔记：sklearn r2_score和explained_variance_score的本质区别是什么？

stackoverflow链接Q：我知道r2_score表示的是在总变变量中模式解释的百分比。但是explained_variance_score和它有什么区别？Answer (by CT Zhu):当残差的均值为0时，它俩是一样的。选区的标准嘛，就看你是不是假设残差均值为0？import numpy as np"""残差均值不为0"""y_ture = [3, -0.5, 2, 7...

2019-09-22 11:00:46 14055 1

原创 python笔记：str.contains小坑之 UserWarning To actually get the groups, use str.extract.

df = pd.DataFrame({'name': ['A(上海)AAA', 'BB(上海)BB', 'CCC', 'DDD'] })print(df)# 结果如下 name0 A(上海)AAA1 BB(上海)BB2 CCC3 DDDa = ['A(上海)AAA', 'BB(上海)BB', 'CCC...

2019-09-18 13:46:18 5113 2

翻译 Python笔记：loop循环优化（有删改）

我们知道，循环是一次一次的执行我们的要求，优化的关键点就是最小化循环的工作量*（当然只有循环次数大的时候才有意义，太小的优化效果几乎忽略不计）*。如下为一个典型的loop循环：import randomlowerlist = ['abcdefghijklmnopqrstuvwxyz'[:random.randint(0,25)] for x in range(1000)]upperlist...

2019-08-30 21:52:13 3858

原创 python笔记：pandas-统计非重复个数&非重复值

例如，有如下数字：df = pd.DataFrame({'a': ['A', 'A', 'A', 'B', 'C'], 'b': ['H', 'H', 'I', 'J', 'J']})print(df)# 结果如下 a b0 A H1 A H2 A I3 B J4 C J方法：使用lambda函数：pt = ...

2019-08-21 15:43:43 5901

原创 python多进程：示例 multiprocssing小案例 & 在pycharm应用timeit

import multiprocessing as mpfrom datetime import datetimeimport timeitdef aa(): print('aa started time: ', '{}'.format(datetime.now()) s = "pd.to_datetime(pd.Series(['3/11/2000', '3/12/20...

2019-08-14 22:45:45 321

翻译 ML - sklearn实现 PCA主成分分析

原文：principal component analysis with scikit-learn by Niraj Verma.我将用Scikit-learn通过最大离散度找出所有的成分，并分离出主成分。首先对原始数据标准化，

2019-07-30 22:26:45 3435

转载 Python：对于多维groupby()透视数据，筛选保留分组的前N个最大/最小数据？

stackoverflow原文链接：这里。Q: 我想把我的dataframe，先进行gourpby()处理、再对结果进行排序。print(df) # df输出结果如下：count job source0 2 sales A1 4 sales B2 6 sales C3 3 sales D4 7 sales E5...

2019-07-24 09:56:04 9443 2

翻译 Pyhon 笔记：reduce、Lambda和map函数

一、Lambda Operator（λ操作符）有的人爱它，有的恨它，更多的人怕它。我们有信心，当你看过本篇后你会爱lambda，万一还是爱不起来，推荐你看看Guido Van Rossums写的“List全解”，因为他不喜欢Lambda、map，也不喜欢reduce。Lambda操作符，又被称为Lambda函数，是用来创建较小的匿名函数的（直白说叫做“无名字的函数”），特点是方便临时、快捷可用...

2019-07-23 13:36:49 161

翻译 MYSQL（8.0版本及以上）- utf8mb3，utf8mb4 和utf8的含义和由来

官方文档：MySQL 8.0 Reference Manual: 10.9.2 The utf8mb3 Character Set (3-Byte UTF-8 Unicode Encoding)首先，上结论：国际上的UTF-8，在MySQL中，对标的是uft8mb4。在MySQL中，实际只有utf8mb4和utf8mb3。至于uft8，在 V8.0 还是指代的utf8mb3，未来的会变为...

2019-07-01 15:10:10 56413 5

原创 Python笔记：axis在pandas里边究竟是什么意思？

stackoverflow链接点击这里。Question：我有如下的代码：import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(1, 2), columns=list('AB'))print(df) # 结果如下：+------------+---------+--------+| ...

2019-07-01 15:05:18 1797

转载 python笔记：入门 - 装饰器@原理

简单来说，装饰器本质上还是一个函数，只是它的参数是个函数。引用的视频链接一下代码是一样的：def decorator(func): print('before the func') func() print('after the func') return func # 不是 func() def func(): ...

2019-05-30 19:56:22 129

翻译 Python笔记：Pandas的isna() vs isnull() vs numpy.isnan()有什么区别？

stackExchange链接原作者：Djib2011Pandas isna() vs isnull()我觉得要说的对象是pandas.DataFrame.isna() vs pandas.DataFrame.isnull()。注意不要把它俩和pandas.isnull()混淆了——它不是用于DataFrame的。一句话：这俩函数的功用一模一样！它俩连官方文档都相同。你点击pandas的官...

2019-04-25 20:34:06 23394

翻译 Python笔记：r w a rb wb ab +的区别

python 读取文件的模式，有3大类，每1大类可以分为4小类共计12小类（官方文档链接）。常见的file操作模式：read 打开&读取–r：打开指定文件，只用于reading。文件的指针在开头。python的默认模式。若无指定文件则报错–·rb：以二进制执行的r；write 打开&覆盖– w：打开指定文件，只用于writing。如果文件存在，则先删除已有数据...

2019-04-25 20:05:34 23246 2

hierarchical-clustering-with-python-and-scikit-learn-shopping-data.csv

空空如也