Luara_lyy-CSDN博客

原创项目学习01--用户画像

1.赛题解读预测目标（中国移动信用解释）2.数据探索分析（EDA）2.1数据基本情况：缺失值，各字段数据类型、数值型字段的统计分布年龄为0，可能是主办方对缺失值数据填充，年龄大于100可能是异常数据2.2观察变量的密度曲线（观察特征分布，为特征工程做准备）大部分的用户近六个月的消费值在200以内，左偏个别的点可以被当作是异常值进行处理，避免过拟合，或者训练和测...

2019-10-03 01:52:22 221

转载基于 Python 的 11 种经典数据降维算法|LPP(Locality Preserving Projections)

LPP(Locality Preserving Projections)LPP 即局部保留投影算法，其思路和拉普拉斯特征映射类似，核心思想为通过最好的保持一个数据集的邻居结构信息来构造投影映射，但 LPP 不同于 LE 的直接得到投影结果，它需要求解投影矩阵。 LPP 降维算法展示详情请参见《局部保留投影算法 (LPP) 详解》：https://blog.csdn.net/qq_39...

2019-12-15 21:39:34 2661

转载基于 Python 的 11 种经典数据降维算法|LE(Laplacian Eigenmaps)降维算法

LE 即拉普拉斯特征映射，它与 LLE 算法有些相似，也是以局部的角度去构建数据之间的关系。它的直观思想是希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近;以这种方式，可以得到一个能反映流形的几何结构的解。 LE 降维算法展示详细内容可参见《拉普拉斯特征图降维及其 python 实现》：https://blog.csdn.net/HUSTLX/article/detai...

2019-12-15 21:36:59 1466

转载基于 Python 的 11 种经典数据降维算法|t-SNE降维算法

t-SNE降维算法t-SNE 也是一种非线性降维算法，非常适用于高维数据降维到 2 维或者 3 维进行可视化。它是一种以数据原有的趋势为基础，重建其在低纬度(二维或三维)下数据趋势的无监督机器学习算法。下面的结果展示参考了源代码，同时也可用 tensorflow 实现(无需手动更新参数)。 t-SNE 降维算法展示详细内容可参见《t-SNE 使用过程中的一些坑》：http://bi...

2019-12-15 21:34:33 590

转载基于 Python 的 11 种经典数据降维算法|LLE(locally linear embedding)降维算法

LLE(locally linear embedding)降维算法LLE(locally linear embedding)LLE 即局部线性嵌入算法，它是一种非线性降维算法。该算法核心思想为每个点可以由与它相邻的多个点的线性组合而近似重构，然后将高维数据投影到低维空间中，使其保持数据点之间的局部线性重构关系，即有相同的重构系数。在处理所谓的流形降维的时候，效果比 PCA 要好很多。 LL...

2019-12-15 21:31:31 883

转载基于 Python 的 11 种经典数据降维算法|ISOMAP

Isomap 即等度量映射算法，该算法可以很好地解决 MDS 算法在非线性结构数据集上的弊端。MDS 算法是保持降维后的样本间距离不变，Isomap 算法则引进了邻域图，样本只与其相邻的样本连接，计算出近邻点之间的距离，然后在此基础上进行降维保距。 ISOMAP 降维算法展示详细内容可参见《Isomap》https://blog.csdn.net/zhangweiguo_717/art...

2019-12-15 21:28:26 1208

转载基于 Python 的 11 种经典数据降维算法|MDS(multidimensional scaling)降维算法

MDS(multidimensional scaling)MDS 即多维标度分析，它是一种通过直观空间图表示研究对象的感知和偏好的传统降维方法。该方法会计算任意两个样本点之间的距离，使得投影到低维空间之后能够保持这种相对距离从而实现投影。由于 sklearn 中 MDS 是采用迭代优化方式，下面实现了迭代和非迭代的两种。 MDS 降维算法展示详细内容可参见《MDS 算法》https:...

2019-12-15 21:25:28 1916

转载基于 Python 的 11 种经典数据降维算法|线性-LDA(Linear Discriminant Analysis)降维算法

线性- LDA(Linear Discriminant Analysis)降维算法LDA 是一种可作为特征抽取的技术，其目标是向最大化类间差异，最小化类内差异的方向投影，以利于分类等任务即将不同类的样本有效的分开。LDA 可以提高数据分析过程中的计算效率，对于未能正则化的模型，可以降低维度灾难带来的过拟合。 LDA 降维算法展示详细内容可参见《数据降维—线性判别分析(LDA)》：ht...

2019-12-15 21:19:26 499

转载基于 Python 的 11 种经典数据降维算法|KPCA降维算法

KPCA(kernel PCA)KPCA 是核技术与 PCA 结合的产物，它与 PCA 主要差别在于计算协方差矩阵时使用了核函数，即是经过核函数映射之后的协方差矩阵。引入核函数可以很好的解决非线性数据映射问题。kPCA 可以将非线性数据映射到高维空间，在高维空间下使用标准 PCA 将其映射到另一个低维空间。 KPCA 降维算法展示详细内容可参见《Python 机器学习》之特征抽取—...

2019-12-15 21:10:44 2542 1

转载基于 Python 的 11 种经典数据降维算法|主成分分析（PCA）降维

主成分分析（PCA）降维 PCA 是一种基于从高维空间映射到低维空间的映射方法，也是最基础的无监督降维算法，其目标是向数据变化最大的方向投影，或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出，属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致，但过程侧重点则不同。最大方差理论降维原理将一组 N 维向...

2019-12-15 17:03:13 562

原创基于 Python 的 11 种经典数据降维算法---数据挖掘

基于 Python 的 11 种经典数据降维算法—数据挖掘通常，我们会发现大部分数据集的维度都会高达成百乃至上千，而经典的 MNIST，其维度都是 64。我们所用到的有用信息却并不需要那么高的维度，而且每增加一维所需的样本个数呈指数级增长，这可能会直接带来极大的「维数灾难」。而数据降维，也常应用于文本处理、人脸识别、图片识别、自然语言处理等领域。数据降维：高维数据下降为低维数据（1）使...

2019-12-15 16:03:46 463

原创 EXCEL做数据分析-VLOOKUP

例一：病例信息表格1，待匹配表格（一般包含大量的数据）表格2，筛表格（数据包含于表格1）表格3，筛选结果函数VLOOKUPVLOOKUP(lookup_value,table_array,col_index_num,range_lookup) 我使用的函数=VLOOKUP(A2,[PSZ住院_201922825312.xlsx]TABLENAME!$A:$J,4,...

2019-12-08 15:51:11 382

原创 EXCEL做数据分析|目录索引

该部分是我在使用excel做数据分析处理过程中遇到的问题，方便以后遇到该问题进行查找。函数问题描述VLOOKUP两个文件，按照一个文件中的某一列筛选另一个文件中的数据...

2019-12-08 15:08:15 270

期刊系统的13种投稿状态大部分的期刊都有在线投稿系统，让作者能够快速简单完成投稿，一旦论文递交出去后，作者可以通过系统查看投稿状态，了解期刊处理论文的进度。作者在投稿出去后都会感到很焦虑，一直刷新系统状态，有时候出现了不知道是什么意思的状态，就会更加忧虑，有时候同一个状态维持了好长一段时间，作者也会觉得很困惑或是紧张，先前我已经讨论过关于期刊编辑部决策流程还有各种可能的论文投稿结果，这篇文章旨在...

2019-10-07 00:27:24 1970

原创 Python学习线路

python学习1.python的基本知识2.python做数据分析的基本库：sklearn,Statsmodels,numpy,scipy,pandas3.数据分析相关：数据抽取，清洗，转换，建模，分析，展示4.完善还需用到的库：matplotlib/snsborns:数据可视化展示RPython：R集成库（统计分析更加专业）nltk+jieba分词：文本挖掘和中文分词库pyo...

2019-10-04 18:57:21 123

原创 SQL积累

第一题思路： 1.新建表Ta和Tb,统计出不同平台间品牌A和品牌B的销售额2.连接表Ta和Tb,计算出销售差距select '平台'，(Tb.B1 - Ta.A1) as '销售差距（B-A）'from (select sum(销售额) as 'A1' from Sales where '品牌’'= A group by '平台' ) as Ta , (select sum(销售...

2019-09-14 23:59:38 80

原创美团分析

import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinemeituan=pd.read_csv('meituan.csv')meituan.info()<class 'pandas.core.frame.DataFrame'>RangeIndex...

2019-09-12 11:43:02 646

原创 w4_聚类分析_airbnb_参考代码

#调包import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline#数据导入airbnb=pd.read_csv('w3_airbnb.csv')#查看数据类型#变量类别：用户个人信息、用户与airbnb的关系、app使用语言、用户去的国家、用户下单渠道#这里...

2019-09-12 11:16:44 288

原创优衣库销售数据分析

#1.加载工具包import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline#加载优衣库文件UNIQLO=pd.read_csv('L2W1.csv')#清理数据，描述性语句查看缺失值，去掉销售额为负数的结果UNIQLO.head() ...

2019-09-07 20:12:15 8007 8

原创 matplotlib数据可视化案例

import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_excel('house_data.xlsx')df.head() Unnamed: 0 均价小区地段具体位置 0...

2019-09-07 17:26:40 979

原创 sklearn案例

# 从sklearn.datasets 导入 iris数据加载器。from sklearn.datasets import load_iris# 使用加载器读取数据并且存入变量iris。iris = load_iris()# 查验数据规模。iris.data.shape(150, 4)# 查看数据说明。对于一名机器学习的实践者来讲，这是一个好习惯。print(iris.DESC...

2019-09-07 17:25:10 684

原创 APP Store评分案例

#调用基本包import pandas as pd#数据读取app=pd.read_csv('w1_applestore.csv')#数据的基本信息app.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 7197 entries, 0 to 7196Data columns (total 11 colu...

2019-09-07 17:24:02 908

原创保洁业务数据概况分析

#调包import pandas as pd#数据读取##index_col=0 ，去除Unnamed=0数据store=pd.read_csv('w2_store_rev.csv',index_col=0)#数据的基本信息#发现local_tv有50多个空值#发现event是object,即类别型变量store.info()<class 'pandas.core.f...

2019-09-07 17:19:45 654 1

原创 matplotlib数据可视化--直方图

直方图主要反映一维数据分布情况import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_excel(r'house_data.xlsx')df.head() Unnamed: 0 均价小区地段具体位置 ...

2019-09-07 17:17:25 241

原创 matplotlib数据可视化--折线图

折线图主要是看内容随时间变化的趋势情况# 导入模块import pandas as pdimport matplotlib.pyplot as plt# 设置中文编码和负号的正常显示plt.rcParams['font.sans-serif'] = 'SimHei'plt.rcParams['axes.unicode_minus'] = False# 读取需要绘图的数据df =...

2019-09-07 17:13:58 1466

原创 matplotlib数据可视化--散点图

散点图主要用于2维数据可视化，探求不同变量之间的关系。scatter函数的参数解读matplotlib模块中scatter函数语法及参数含义：plt.scatter(x, y, s=20,c=None, marker=‘o’,cmap=None, norm=None,vmin=None, vmax=None,alpha=None, linewidths=None,edgecolor...

2019-09-07 16:35:10 486

原创 matplotlib数据可视化--箱线图

箱线图一般用来展现数据的分布（如上下四分位值、中位数等），同时，也可以用箱线图来反映数据的异常情况。boxplot函数的参数解读绘图之前，我们先来讲解一下matplotlib包中boxplot函数的参数含义及使用方法：plt.boxplot(x, notch=None, sym=None, vert=None,whis=None, positions=None, widths=None,...

2019-09-07 16:34:01 319

原创 2.列表，字典，元组

列表list1 = [1,2,3,4,5] #创建列表list1[1, 2, 3, 4, 5]list2 = ['a','b','c','d'] #列表中的数据类型可以是相同的list2['a', 'b', 'c', 'd']list3 = [1,2.33,'Python','a'] #列表中的数据类型也可以是不同的list3[1, 2.33, 'Python',...

2019-09-07 16:30:25 144

原创 1.Python基本数据结构&运算符&输入输出

Python基本数据类型–数值型233 # int2332.33 # float2.33'233' #str'233'type(233)#查看变量类型inttype(233.0)floattype('2.33')strisinstance(233,int)#查看变量是否是猜测类型insinstance(变量，猜测类型)Trueisinsta...

2019-09-07 16:29:10 238

原创用户粘性

参考：1.app数据分析体系 - 用户粘性 DAU，MAU 和月人均活跃天数 https://blog.csdn.net/liweijie231/article/details/814511892.用户运营，如何做好活跃用户的数据分析https://blog.csdn.net/weixin_38395424/article/details/78250909...

2019-09-05 13:35:25 2212

转载 LIBSVM做回归预测

用libsvm做回归的人有的疑惑大致有这些：1，怎么把数据整理成规定格式，我以前的帖子写了，只要用一个带有宏的excel就能搞定，话不多说。2，有人会说svm就打几条命令就能得出结果（svm-train -s 3 -t 2 -c 1024.0 -g 0.0009765625 -p 0.0009765625 data.txt svm-predict test.txt data.txt.mode...

2019-09-05 11:33:03 1194

原创 python数据分析实战---秦璐

讲解：一份数据分析报告 #既包含代码又包含数据分析结果的PDF形式Markdown写法：说明code import pandas as pd快捷切换 esc+m 变为Markdown/esc+m 变为code图形化呈现：结果练习1 这是一份用户消费行为的分析报告(数据来源于网络，用户在一家CD网站上的消费)import pandas as pdimport numpy as...

2019-09-05 00:47:12 1516 2

转载线性回归和逻辑回归（比较清楚）

**线性回归**在统计学中，线性回归（Linear Regression）是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合（自变量都是一次方）。只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做多元回归。优点：结果易于理解，计算上不复杂。缺点：对非线性数据拟合不好。适用数据类型：数值...

2019-08-30 16:36:50 1070

weixin_40801364的博客