monkey_susu-CSDN博客

原创用Seaborn轻松的进行数据可视化

数据集下载链接：import seaborn as snsimport matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd%matplotlib inlinedef sinplot(flip=1): x = np.linspace(0,14,100)...

2020-03-14 11:19:15 5940 5

原创将把python项目打包成Docker镜像（linux版）

在linux系统下，将python flask项目打包成Docker镜像

2022-07-19 17:52:11 9161 2

数据预处理-样本分布（正态分布、偏态分布）转载自：https://blog.csdn.net/lanchunhui/article/details/53239441https://www.cnblogs.com/gczr/p/6802998.html一、何为数据的偏态分布？频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置，两端的频数分布大致对称。偏态分布是指频数分布不对称，集中位置偏向一侧。若集中位置偏向数值小的一侧，称为正偏态分布；集中位置偏向数值大的一侧，称为负偏

2022-03-10 18:11:36 3583

转载 Hadoop本地运行MapReduce报错:Caused by: java.io.FileNotFoundException

Hadoop本地运行MapReduce报错:Caused by: java.io.FileNotFoundException转载：https://blog.csdn.net/qq_41826265/article/details/108336319?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242java.lang.Exception: org.apache.hadoo

2021-07-09 15:21:44 524

原创 java基础知识

java基础1.字面值常量的分类 <1>.字符串常量，要用""括起来，如"abcds" <2>.字符常量，要用''括起来，如'a',‘0’ <3>.整数常量,11,12 <4>.小数常量,0.11 <5>.布尔常量，true,false <6>.空常量,null2.变量—变量的作用域变量的定义格式：数据类型变量名 = 初始值 8种数据类型：byte

2021-05-25 17:28:32 120

转载 kaggle数据集下载步骤

原文链接：https://blog.csdn.net/lxw234lxw/article/details/102968754 本文以APTOS 2019 Blindness Detection竞赛数据库为例，详解下载步骤。目录一、安装kaggle库二、注册kaggle账号三、找到需要下载的数据集，并接受规则。四、下载json文件五、将json文件放入.kaggle文件夹中六、下载数据

2020-11-04 16:11:09 6378 6

转载 NLP_Paper：基于深度学习的异构时序事件患者数据表示学习框架

**原文链接 ** 摘要：患者数据的表示学习可以将患者历史信息综合表达为一个向量，用于预测未来可能发生的疾病。患者的历史记录可以被建模为多来源数据构成的采样频率差异很大、包含非线性时序关系的异构时序事件。提出了一个新的异构事件长短期记忆表示学习框架，用于学习患者异构时序事件的联合表征。异构事件长短期记忆模型加入了一个可以控制事件访问频率的门，以对不同事件的不规则采样频率建模，同时抓住事件中的复杂时序依赖关系。真实临床数据的实验表明，该方法可以在一系列先进模型的基础上，提升死亡预测和异常实验

2020-11-02 16:28:06 1121 1

原创 pyhanlp在迁移环境时的坑点

如果一不小心使用了pyhanlp，那么在迁移conda环境时就可能会遇到一个坑点，以下是报错：此刻，你需要打开：环境/Lib/site-packages/pyhanlp/static/hanlp.properties这里：C:/Users/94972/AppData/Local/Continuum/anaconda3/envs/Tensorflow/lib/site-packages/pyhanlp/static 为原环境pyhanlp root路径修改root=当前环境下pyhanlp的sta

2020-06-30 16:17:29 221

原创 windows服务器上 anaconda安装并copy虚拟环境遇到的坑点

近日在将django项目迁移到windows服务器，需要配置虚拟环境，首先想到的是将现有环境直接copy过去用，奈何事与愿违，copy后由于anaconda安装路径与原路径不同，导致环境用不了，那博主又比较执著，不信这个邪，现将遇到的坑点献出。坑点一：anaconda安装1.下载Anaconda3 ：点击下载2.安装，一直next过程中会遇到下图，默认第一项是没有选择的，但博主又想偷个懒，不想手动添加环境变量，勾选了第一项，不料又掉入坑中，遇到安装后创建虚拟环境pip使用不了的问题，pip报错：C.

2020-06-20 15:48:18 1087 4

转载机器学习经典算法原理

原创链接： https://blog.csdn.net/weixin_44675384/article/details/93910125监督学习有训练集与测试样本，在训练中找规律，有目标值和特征值非监督学习没有训练集，只有一组数据，在组内寻找数据分类与聚类聚类分析是一种分类的多元统计分析方法。按照个体或样品的特征将它们分类，使同一类别内的个体具有尽可能高的同质性，而不同类别之间则应具...

2020-04-09 21:54:42 504

转载爬虫+数据分析：电影-南方车站的聚会

原文链接：https://blog.csdn.net/fei347795790/article/details/103643655《南方车站的聚会》由刁亦男执导，主要演员包括：胡歌、桂纶镁、廖凡、万茜等，该片于 2019 年 5 月 18 在戛纳电影节首映，2019 年 12 月 6 日在中国正式上映。故事灵感来自真实新闻事件，主要讲述盗窃团伙头目周泽农（胡歌饰），在重金悬赏下走上逃亡之路，...

2020-04-07 17:27:10 390

转载数据分析--数据清洗详解流程

无论是做机器学习还是做数据分析，都离不开获取数据后的第一步-数据清洗工作。据统计，数据清洗工作占据整个工作时间百分之50左右，有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。数据清洗整体流程脑图（不断更新中…）数据准备本次数据清洗工作我们使用得数据是一个借贷机构开放的用户数据（仅用于个人练习），由于源数据量有将近30万，考虑到运行速度，这里例子从这30万中随机抽取1万条...

2020-03-31 11:51:54 7429

转载数据分析-豆瓣电影Top250

豆瓣Top250电影python数据分析使用python爬虫获取豆瓣电影数据清洗和处理数据使用方差、皮尔斯相关系数分析，plot进行数据可视化分析python爬虫爬取豆瓣电影数据首先，我们百度搜索豆瓣电影250，排名第一的就是我们想要的，点击进去。下面分别是首页和详细页由于我们需要爬去所有有价值的数据，所以，我们要进入每一个详情页进行数据提取，下面是我打算获取的数据：导演...

2020-03-31 11:44:40 7450 4

转载数据分析-相关分析

概念在现实中，事物与事物之间或多或少存在一定的关系，数据之间也不例外，数据与数据之间关系往往提醒安于互相依存的关系，而相关分析主要就是分析两个变量之间的相互影响程度，在数据分析中，相关分析就是度量的是两个连续型变量之间的相关型。常见的的度量指标如下：皮尔森相关系数Pearson斯皮尔曼相关系数Spearman相关型越强，说明两个变量之间的影响程度越大，反之越小。相关系数等于-1...

2020-03-31 11:28:48 906

转载数据分析--卡方分析与方差分析

python统计分析-卡方分析和方差分析卡方检验卡方检验主要是检验两个分类变量之间的关系，主要检验是否相关，不能表示强弱。两个分类变量，其中有一个必须是二分类，不能都是多分类。下面代码实践，使用的是泰坦尼克号人员信息的数据。分析船舱等级与存活是否存在关系：titanic.csv数据下载import pandas as pdfrom scipy import ...

2020-03-31 11:20:15 2675

转载 python数据分析--假设检验

原文链接：https://blog.csdn.net/lzx159951/article/details/104432582 假设检验一、假设概念假设总体均值为μ，那么实际抽样的均值离μ越近意味着假设越合理，相反，实际抽样均值离μ越远意味着假设越不合理。其中，实际抽样结果与假设的差异“程度”可以用概率值表示，概率值越大意味着越无差异。在实际中往往认为...

2020-03-31 11:13:12 265

转载数据分析---逾期用户画像及不良贷款SQL分析

原文链接：https://blog.csdn.net/nianqi110/article/details/89839288 ...

2020-03-27 11:40:14 4393

转载数据分析--探索用户行为模式

原文链接：https://blog.csdn.net/weixin_43797885/article/details/104724225 针对某电商平台对用户消费行为进行分析项目背景分析...

2020-03-26 20:07:51 473

转载 Kaggle数据挖掘竞赛冠军及优胜者代码

原文：http://www.chioka.in/kaggle-competition-solutions/ We learn more from code, and fro...

2020-03-21 12:48:06 471

原创机器学习-天池新人赛(离线赛)--初步数据分析

import numpy as npimport pandas as pdimport mathfrom sklearn.metrics import f1_scoreidx = pd.IndexSlice%matplotlib inline# 2. 获取数据actions = pd.read_csv("./fresh_comp_offline/tianchi_fresh_com...

2020-03-18 22:35:46 754

转载数据分析--缺失值填充的几种方法

常见的缺失值填充方法有填充默认值、均值、众数、KNN填充、以及把缺失值作为新的label通过模型来预测等方式，为了介绍这几种填充方法的使用以及填充效果，本文将在真实数据集上进行简单比较。1 数据集介绍:数据集来源于天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测。该数据集共有1000条数据，特征共83维，加上id和label共85列，每维特征缺失数量范围为0~911。为了简单比较各种填充方...

2020-03-18 16:57:09 21802 1

转载机器学习--逻辑回归算法2

原文链接：http://blog.csdn.net/longxinchen_ml/article/...

2020-03-16 23:28:54 722

转载机器学习--逻辑回归算法1

机器学习系列(2)_用初等数学解读逻辑回归二、逻辑回归问题的通俗几何描述逻辑回归处理的是分类问题。我们可以用通俗的几何语言重新表述它：空间中有两群点，一群是圆点“〇”，一群...

2020-03-16 22:58:45 542

转载 Kaggle比赛入门指南

1.Kaggle的比赛究竟锻炼的是什么能力？首先说，绝大部分的Kaggle比赛是Data Mining(DM)比赛（除少数是和Discrete Optimization还有Computer Vision(CV) 有关），最重要的是和Machine Learning(ML)关系不大。这是很多人一个误区，往往希望在Kaggle上学到很多ML的知识。Kaggle教给我的第一件事情，就是让我清晰领会到...

2020-03-16 12:06:57 860

转载 DataFrame.iloc()与DataFrame.loc的区别

示例数据df1: A B C D E0 0.299199 0.076892 1.378794 -1.607846 -0.7634271 -0.061252 1.336151 -1.788529 -0.370140 -1.4863682 0.665735 -0.233112 -0.485747 -1....

2020-03-16 11:31:45 1038

原创 Titanic-乘客生存预测2

代码所需数据集：https://github.com/jsusu/Titanic_Passenger_Survival_Prediction_2/tree/master/titanic_dataimport reimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns...

2020-03-14 17:57:22 707

原创 Titanic-乘客获救预测1

代码中数据集：https://github.com/jsusu/Titanic_passenger-survival-prediction/tree/master/titanic_data# Tatanic乘客生存预测1#数据分析库import pandas as pd#科学计算库import numpy as np from pandas import Series,DataFra...

2020-03-14 17:43:03 3586 7

原创用numpy和seaborn对红酒的理化性质及品质进行分析

红酒数据集下载：https://github.com/jsusu/wine_analysis/tree/master/data_wine# 红酒数据分析'''这个notebook分析了红酒的通用数据集。这个数据集有1599个样本，11个红酒的理化性质，以及红酒的品质（评分从0到10）。这里主要目的在于展示进行数据分析的常见python包的调用，以及数据可视化。主要内容分为：单变量，双变量，和...

2020-03-14 13:15:57 1454

原创 Pandas中map，apply，applymap的区别

1.map()方法：map()是Series对象的方法，DataFrame中没有map()，功能是将一个自定义函数作用于Series对象的每个元素，使用map可以实现元素级转换以及其他数据清理工作。(1).字典映射import pandas as pdfrom pandas import Series, DataFramedata = DataFrame({'food':['baco...

2020-03-12 10:41:55 630

sinat_37935727的博客