3 Luara_lyy

尚未进行身份认证

我要认证

一个正在路上的数据分析师

等级
TA的排名 20w+

基于 Python 的 11 种经典数据降维算法|LPP(Locality Preserving Projections)

LPP(Locality Preserving Projections)LPP 即局部保留投影算法,其思路和拉普拉斯特征映射类似,核心思想为通过最好的保持一个数据集的邻居结构信息来构造投影映射,但 LPP 不同于 LE 的直接得到投影结果,它需要求解投影矩阵。 LPP 降维算法展示详情请参见《局部保留投影算法 (LPP) 详解》:https://blog.csdn.net/qq_39...

2019-12-15 21:39:34

基于 Python 的 11 种经典数据降维算法|LE(Laplacian Eigenmaps)降维算法

LE 即拉普拉斯特征映射,它与 LLE 算法有些相似,也是以局部的角度去构建数据之间的关系。它的直观思想是希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近;以这种方式,可以得到一个能反映流形的几何结构的解。 LE 降维算法展示详细内容可参见《拉普拉斯特征图降维及其 python 实现》:https://blog.csdn.net/HUSTLX/article/detai...

2019-12-15 21:36:59

基于 Python 的 11 种经典数据降维算法|t-SNE降维算法

t-SNE降维算法t-SNE 也是一种非线性降维算法,非常适用于高维数据降维到 2 维或者 3 维进行可视化。它是一种以数据原有的趋势为基础,重建其在低纬度(二维或三维)下数据趋势的无监督机器学习算法。下面的结果展示参考了源代码,同时也可用 tensorflow 实现(无需手动更新参数)。 t-SNE 降维算法展示详细内容可参见《t-SNE 使用过程中的一些坑》:http://bi...

2019-12-15 21:34:33

基于 Python 的 11 种经典数据降维算法|LLE(locally linear embedding)降维算法

LLE(locally linear embedding)降维算法LLE(locally linear embedding)LLE 即局部线性嵌入算法,它是一种非线性降维算法。该算法核心思想为每个点可以由与它相邻的多个点的线性组合而近似重构,然后将高维数据投影到低维空间中,使其保持数据点之间的局部线性重构关系,即有相同的重构系数。在处理所谓的流形降维的时候,效果比 PCA 要好很多。 LL...

2019-12-15 21:31:31

基于 Python 的 11 种经典数据降维算法|ISOMAP

Isomap 即等度量映射算法,该算法可以很好地解决 MDS 算法在非线性结构数据集上的弊端。MDS 算法是保持降维后的样本间距离不变,Isomap 算法则引进了邻域图,样本只与其相邻的样本连接,计算出近邻点之间的距离,然后在此基础上进行降维保距。 ISOMAP 降维算法展示详细内容可参见《Isomap》https://blog.csdn.net/zhangweiguo_717/art...

2019-12-15 21:28:26

基于 Python 的 11 种经典数据降维算法|MDS(multidimensional scaling)降维算法

MDS(multidimensional scaling)MDS 即多维标度分析,它是一种通过直观空间图表示研究对象的感知和偏好的传统降维方法。该方法会计算任意两个样本点之间的距离,使得投影到低维空间之后能够保持这种相对距离从而实现投影。由于 sklearn 中 MDS 是采用迭代优化方式,下面实现了迭代和非迭代的两种。 MDS 降维算法展示详细内容可参见《MDS 算法》https:...

2019-12-15 21:25:28

基于 Python 的 11 种经典数据降维算法|线性-LDA(Linear Discriminant Analysis)降维算法

线性- LDA(Linear Discriminant Analysis)降维算法LDA 是一种可作为特征抽取的技术,其目标是向最大化类间差异,最小化类内差异的方向投影,以利于分类等任务即将不同类的样本有效的分开。LDA 可以提高数据分析过程中的计算效率,对于未能正则化的模型,可以降低维度灾难带来的过拟合。 LDA 降维算法展示详细内容可参见《数据降维—线性判别分析(LDA)》:ht...

2019-12-15 21:19:26

基于 Python 的 11 种经典数据降维算法|KPCA降维算法

KPCA(kernel PCA)KPCA 是核技术与 PCA 结合的产物,它与 PCA 主要差别在于计算协方差矩阵时使用了核函数,即是经过核函数映射之后的协方差矩阵。引入核函数可以很好的解决非线性数据映射问题。kPCA 可以将非线性数据映射到高维空间,在高维空间下使用标准 PCA 将其映射到另一个低维空间。 KPCA 降维算法展示详细内容可参见 《Python 机器学习》之特征抽取—...

2019-12-15 21:10:44

基于 Python 的 11 种经典数据降维算法|主成分分析(PCA)降维

主成分分析(PCA)降维 PCA 是一种基于从高维空间映射到低维空间的映射方法,也是最基础的无监督降维算法,其目标是向数据变化最大的方向投影,或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出,属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致,但过程侧重点则不同。 最大方差理论降维原理 将一组 N 维向...

2019-12-15 17:03:13

基于 Python 的 11 种经典数据降维算法---数据挖掘

基于 Python 的 11 种经典数据降维算法—数据挖掘 通常,我们会发现大部分数据集的维度都会高达成百乃至上千,而经典的 MNIST,其维度都是 64。我们所用到的有用信息却并不需要那么高的维度,而且每增加一维所需的样本个数呈指数级增长,这可能会直接带来极大的「维数灾难」。而数据降维,也常应用于文本处理、人脸识别、图片识别、自然语言处理等领域。数据降维:高维数据下降为低维数据(1)使...

2019-12-15 16:03:46

EXCEL做数据分析-VLOOKUP

例一:病例信息表格1,待匹配表格(一般包含大量的数据)表格2,筛表格(数据包含于表格1)表格3,筛选结果函数VLOOKUPVLOOKUP(lookup_value,table_array,col_index_num,range_lookup) 我使用的函数=VLOOKUP(A2,[PSZ住院_201922825312.xlsx]TABLENAME!$A:$J,4,...

2019-12-08 15:51:11

EXCEL做数据分析|目录索引

该部分是我在使用excel做数据分析处理过程中遇到的问题,方便以后遇到该问题进行查找。函数问题描述VLOOKUP两个文件,按照一个文件中的某一列筛选另一个文件中的数据...

2019-12-08 15:08:15

期刊系统的13种投稿状态

期刊系统的13种投稿状态大部分的期刊都有在线投稿系统,让作者能够快速简单完成投稿,一旦论文递交出去后,作者可以通过系统查看投稿状态,了解期刊处理论文的进度。作者在投稿出去后都会感到很焦虑,一直刷新系统状态,有时候出现了不知道是什么意思的状态,就会更加忧虑,有时候同一个状态维持了好长一段时间,作者也会觉得很困惑或是紧张,先前我已经讨论过关于期刊编辑部决策流程还有各种可能的论文投稿结果,这篇文章旨在...

2019-10-07 00:19:52

Python学习线路

python学习1.python的基本知识2.python做数据分析的基本库:sklearn,Statsmodels,numpy,scipy,pandas3.数据分析相关:数据抽取,清洗,转换,建模,分析,展示4.完善还需用到的库:matplotlib/snsborns:数据可视化展示RPython:R集成库(统计分析更加专业)nltk+jieba分词:文本挖掘和中文分词库pyo...

2019-10-04 18:50:52

项目学习01--用户画像

1.赛题解读预测目标(中国移动信用解释)2.数据探索分析(EDA)2.1数据基本情况:缺失值,各字段数据类型、数值型字段的统计分布年龄为0,可能是主办方对缺失值数据填充,年龄大于100可能是异常数据2.2观察变量的密度曲线(观察特征分布,为特征工程做准备)大部分的用户近六个月的消费值在200以内,左偏个别的点可以被当作是异常值进行处理,避免过拟合,或者训练和测...

2019-10-03 00:01:10

SQL积累

第一题思路: 1.新建表Ta和Tb,统计出不同平台间品牌A和品牌B的销售额2.连接表Ta和Tb,计算出销售差距select '平台',(Tb.B1 - Ta.A1) as '销售差距(B-A)'from (select sum(销售额) as 'A1' from Sales where '品牌’'= A group by '平台' ) as Ta , (select sum(销售...

2019-09-14 23:16:19

美团分析

import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinemeituan=pd.read_csv('meituan.csv')meituan.info()<class 'pandas.core.frame.DataFrame'>RangeIndex...

2019-09-12 11:42:07

w4_聚类分析_airbnb_参考代码

#调包import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline#数据导入airbnb=pd.read_csv('w3_airbnb.csv')#查看数据类型#变量类别:用户个人信息、用户与airbnb的关系、app使用语言、用户去的国家、用户下单渠道#这里...

2019-09-12 11:15:54

优衣库销售数据分析

#1.加载工具包import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline#加载优衣库文件UNIQLO=pd.read_csv('L2W1.csv')#清理数据,描述性语句查看缺失值,去掉销售额为负数的结果UNIQLO.head() ...

2019-09-07 20:09:43

matplotlib数据可视化案例

import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_excel('house_data.xlsx')df.head() Unnamed: 0 均价 小区 地段 具体位置 0...

2019-09-07 17:26:10

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。