Lemon_ZL-CSDN博客

1.交叉分析表当需要分析多个变量之间，一个变量是否对其他变量的取值存在影响，分析变量之间是否存在相关关系叫交叉表分析。检验方法：卡方检验，检验行列之间是否相关列联系数，用于名义变量之间的相关系数。表征变量之间的相关性强弱。0~1，0代表不相关；1代表相关性强皮尔逊卡方，似然比，线性关联三种检验结果，皮尔逊卡方常用在二维表中对行变量和列变量进行独立性假设检验，似然比用于对数据线性模型的检验。实验目的：为分析”实验准备“情况与评价结果的关系。三种检验方法显著性水平都小于0.05，

2020-09-25 17:08:53 9644

原创距离计算以及代码实现

1.欧氏距离(Euclidean Distance)(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离：(3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离：(4)也可以用表示成向量运算的形式：import numpy as npx = np.array([1,2,3,4])y = np.array([0,5,6,7])#方法一：根据公式求解d.

2020-09-25 14:03:00 1402

原创 2020-09-22

OLS（最小二乘法）主要用于线性回归的参数估计OLS线性回归的基本原则：最优拟合曲线应该使各点到直线的距离的平方和（即残差平方和，简称RSS）最小：OLS线性回归的目标是通过减少响应变量的真实值与预测值的差值来获得模型参数（截距项和斜率），就是使RSS最小。为了能够恰当地解释OLS模型的系数，数据必须满足以下统计假设：正态性：对于固定的自变量值，因变量值成正太分布独立性：个体之间相互独立线性相关：因变量和自变量之间为线性相关同方差性：因变量的方差不随自变量的水平不同而变化，.

2020-09-22 11:59:06 322

原创主成分分析

「什么样的信息/变量才能被压缩？」只有相关性强的变量才能被压缩。如场景2的数学建模和科技节活动，都是学生们理科思维的体现方式，所以可以考虑把这两者合并成一个新的叫 “ 理科思维 ” 的变量，这样便可以不用两个变量都要费笔墨描述，关键是 “ 理科思维 ” 这个新的变量里面数学建模和科技节这两个旧变量的各自的占比是多少。（因为这里并没有因变量，所以这两个旧变量的权重系数无法简单的使用多元线性回归来完成）如果变量间的关系几乎是独立的却依然强制压缩(比如体育和演讲)，则会大大加剧信息的缺失程度，这也是为什么 “

2020-09-22 10:42:02 3373

原创 classification_report

#显示主要分类指标的文本报告from sklearn.metrics import classification_reporty_true = [0, 1, 2, 2, 2]y_pred = [0, 0, 2, 2, 1]target_names = ['class 0', 'class 1', 'class 2']print(classification_report(y_true, y_pred, target_names=target_names))#support每个样本出现的次数#微

2020-08-19 15:20:03 1297 1

原创多元线性回归检验

多元线性回归模型通常用来研究一个应变量依赖多个自变量的变化关系，如果二者的以来关系可以用线性形式来刻画，则可以建立多元线性模型来进行分析。1.t检验t检验是对单个变量系数的显著性检验，一般看p值；如果p值小于0.05表示该自变量对因变量解释性很强。2.F检验F检验是对整体回归方程显著性的检验，即所有变量对被解释变量的显著性检验 F检验其通常是用来分析用了超过一个参数的统计模型，以判断该模型中的全部或一部分参数是否适合用来估计母体。3.P值P值...

2020-07-13 10:43:33 27767

原创 Pyspark,Python下安装Spark，无需安装Hadoop

又是装环境斗志斗勇的一天，苦笑之前一直不想搭虚拟机/Hadoop/spark这些环境，后来python三千万行数据实在跑不动了，知道有pyspark这等好东西，以为conda install pyspark一下就可以了，发现并没有那么简单。找了很多资料，搜了很多也没找到合适的教程，正好记录一下，希望能帮到需要的同学。不用虚拟机不用Hadoop。环境：anconda 3.0 win10 64位1.下载第一步conda install pyspark 下载sparkhttp://spark..

2020-07-08 17:35:47 2849 2

原创京东购买意向预测

构建新表1.user_table 2.item_table

2020-07-07 20:53:52 322

原创卡方独立性检验|卡方拟合性检验

独立性检验“独立性检验”验证从两个变量抽出的配对观察值组是否互相独立（例如：每次都从A国和B国各抽一个人，看他们的反应是否与国籍无关）。独立性检验主要用于两个或两个以上因素多项分类的计数资料分析，也就是研究两类变量之间的关联性和依存性问题。如果两变量无关联即相互独立，说明对于其中一个变量而言，另一变量多项分类次数上的变化是在无差范围之内；如果两变量有关联即不独立，说明二者之间有交互作用存在。独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表，是用于提.

2020-06-25 22:59:58 22641 3

原创多重共线性VIF

多重共线性是指自变量之间存在线性相关关系，即一个自变量可以是其他一个或几个自变量的线性组合。方差膨胀系数(variance inflation factor，VIF)是衡量多元线性回归模型中复 (多重)共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。多重共线性是指自变量之间存在线性相关关系，即一个自变量可以是其他一个或几个自变量的线性组合。检验方法主要有：容忍度(Tolerance)和方差膨胀系数(Variance inflation factor，

2020-06-24 15:11:07 34879

原创 python函数多参数

def demo(num, *args, **kwargs): print(num) print(args) print(kwargs)demo(1, 2, 3, 4, 5, name="小明", age=18, gender=True)1(2, 3, 4, 5){'name': '小明', 'age': 18, 'gender': True}def demo(*args, **kwargs): print(args) print(kwargs).

2020-06-21 22:07:09 977

原创 python字符串常用操作

hello_str = 'Python'```powershellhello_str.capitalize hello_str.isidentifier hello_str.rindexhello_str.casefold hello_str.islower hello_str.rjusthello_str.center hello_str.isnumeric hello_str.rpartitionhello_str.count

2020-06-21 21:26:01 243

原创 python常用序列函数

1.enumerate函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中参数可以是字符串，列表，元组，字典。返回 enumerate(枚举) 对象l = 'python'for i in enumerate(l): print(i)(0, 'p')(1, 'y')(2, 't')(3, 'h')(4, 'o')(5, 'n')...

2020-06-21 17:01:49 725

原创波士顿房价KNN

from sklearn.datasets import load_bostonboston = load_boston()X =boston.datay = boston.targetX.shapefrom sklearn.model_selection import train_test_splitimport numpy as npX_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,ra...

2020-06-21 15:21:32 1386

原创 matplotlib|箱线图

import numpy as npimport pandas as pddef OutlierDetection(df): # 计算下四分位数和上四分位 Q1 = df.quantile(q=0.25) Q3 = df.quantile(q=0.75) # 基于1.5倍的四分位差计算上下须对应的值 low_whisker = Q1 - 1.5 * (Q3 - Q1) up_whisker = Q3 + 1.5 * (Q3 - Q1) # 寻.

2020-06-20 20:31:57 712

原创机器学习回归算法汇总_加利福尼亚房价

一.探索数据%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport seaborn as snsplt.style.use('fivethirtyeight')import warningswarnings.filterwarnings('ignore')plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

2020-06-19 21:10:09 895

原创样本不均衡

1.对训练集中的反类样例进行“欠采样”，去除一些返利，使得正反例数目接近，然后再进行学习；2.对训练集里的正类样例进行“过采样”，增加一些正例使得正反例数目接近3.基于原始数据进行学习，但在分类器预测时，阈值移动...

2020-06-15 14:08:11 166

原创损失函数

cost function或者loss function用来度量预测错误的程度，f(x)和Y的非负实值函数，记作L（Y,f(x)）

2020-06-13 00:30:50 201

原创 Pandas空值判断

1.浮点型floatnp.isnan()pd.isna()pd.isnull()/pd.notnull2.字符串strpd.isna()pd.isnull()/pd.notnull()3.时间datetime类型np.isnat()pd.isnull/pd.notnull万能

2020-06-11 10:57:06 2970

原创 datetime时间数据的处理

from datetime import date获取今天日期date.today()datetime.date(2020, 6, 9)day = date(year = 2020,month=8,day= 9)daydatetime.date(2020, 8, 9)当数据列为字符串格式，拆分年月日传给datestr1 = '20160809'y = int(str1[0:4])m = int(str1[4:6])d = int(str1[6:8])date(year

2020-06-09 14:34:40 915

原创 nn.Embedding

nn.Embedding( num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None, )一个保存了固定字典和大小的简单查找表。这个模块常用来保存词嵌入和用下标检索它们。模块的输入是一个下标的列表，输出是对应的词嵌入。num_embeddings (int): size of the dictiona

2020-05-29 15:12:47 690

转载文本分类|keras数据集新闻分类

https://blog.csdn.net/einstellung/article/details/82695194?ops_request_misc=&request_id=&biz_id=102&utm_term=%E6%96%B0%E9%97%BB%E5%88%86%E7%B1%BB&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-826951941.准

2020-05-14 15:50:14 515

原创文本分类

数据文件：news_classify_data.txtdata_path = 'data/data6825/news_classify_data.txt'with open(data_path, 'r', encoding='utf-8') as f: lines = f.readlines()行数 len(lines):56821从原文件中需要提取题目、类别，划分训练集、测试集str1 = '6660024717287621123_!_0_!_文化_!_老祖宗俗.

2020-05-14 14:12:37 267 1

原创 Keras笔记

https://keras.io/zh/Keras 的核心数据结构是 model，一种组织网络层的方式。最简单的模型是 Sequential顺序模型，它由多个网络层线性堆叠。Sequential 模型from keras.models import Sequentialmodel = Sequential()可以简单地使用 .add() 来堆叠模型：from keras.layers import Densemodel.add(Dense(units=64, activation

2020-05-13 15:34:49 241

原创 keras|手写数字识别

from __future__ import print_functionimport kerasfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dfrom keras import backend as Kbatch_si.

2020-05-13 14:53:30 405

原创笔记|损失函数

1.binary_crossentropy交叉熵损失函数，一般用于二分类：这个是针对概率之间的损失函数，你会发现只有yi和ŷi是相等时，loss才为0，否则loss就是为一个正数。而且，概率相差越大，loss就越大。这个神奇的度量概率距离的方式称为交叉熵。2.categorical_crossentropy分类交叉熵函数：交叉熵可在神经网络(机器学习)中作为损失函数。　如下公式所示：y表示真实标记的分布，a则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量y与a的相似性。交叉熵作.

2020-05-13 11:21:16 325

转载 LSTM

https://baijiahao.baidu.com/s?id=1595925115533782629&wfr=spider&for=pc

2020-05-12 13:06:33 197

原创预处理

线性的无量纲化包括中心化（Zero-centered或者Meansubtraction）处理和缩放处理（Scale）。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理当数据(x)按照最小值中心化后，再按极差（最大值 - 最小值）缩放，数据移动了最小值个单位，并且会被收敛到[0,1]之间，而这个过程，就叫做数据归一化(Normalization，又称Min-Max Scaling),归一化后数据服

2020-05-10 23:59:10 188

bootstrap包

空空如也