自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (1)
  • 收藏
  • 关注

原创 hadoop集群启动namenode启动失败

原因:storage directory does not exist or is not accessible。在core-site.xml文件中配置路径这里修改成自己的安装路径。

2023-08-25 15:21:47 258

原创 102挂了不用怕

可以看到有很多以hsperfdata_{用户名}这样的目录,比如:hsperfdata_hbase,hsperfdata_kafka,hsperfdata_root这样的目录,是因为进程虽然在内存中关闭了,但是Linux还会在/tmp下寻找这些临时文件,而此时临时文件并没有没正常删除,这时候直接执行。不小心把集群其中一个节点安装路径覆盖了,不要慌,不用重新装集群,之前配置好的集群节点之间可以相互通信,所以把缺少的文件从另外一个节点传过来即可。把文件传完之外,启动集群,不会报错,但是使用jps命令会提示。

2023-03-25 17:01:41 213

原创 怎么更改anaconda的存储路径

1、找到Jupyter快捷方式,进入属性,修改起始位置项;2、创建配置文件,修改配置信息执行 jupyter notebook --generate-config 命令,执行结果如下图所示:7c82eef5ad925c9972850023242b174.png3、进入上图所示文件夹,修改配置文件:The directory to use for notebooks and kernels.#c.NotebookApp.notebook_dir = ‘’修改为去掉 #注释并设置目录位置The

2021-11-04 15:27:22 5911

转载 分析思维模型

1. 福格行为模型林骥把福格行为模型作为第 001 号分析思维模型,这个模型来源于斯坦福大学的教授 BJ Fogg,主要用来分析用户行为的产生原因和基础心理,其核心就是行为公式:行为 = 动机 x 能力 x 触发也就是说,行为的产生有三大要素:一是要有做这件事的动机,二是要有能力完成这个行为,三是要有让人采取行动的触发信号,这三个要素缺一不可。做数据分析,要懂业务,而很多业务的核心是用户,提升业务指标,往往就是要让用户做出某些行为。应用举例举一个例子,要想提升销售额,本质上是要让用户产生购

2021-03-31 14:25:43 247

转载 机器学习算法-线性回归

这里写目录标题线性回归概念1、线性回归的原理2、线性回归的假设函数3、线性回归损失函数、代价函数、目标函数4、优化方法(梯度下降法、牛顿法、拟牛顿法等)5、线性回归的评估指标代码实战6、sklearn参数详解线性回归概念1、线性回归的原理先解释下回归:当我们试图预测的目标变量是连续的,比如在我们的住房例子中,我们把学习问题称为回归问题。 当y只能接受少量的离散值时(比如,如果考虑到居住面积,我们想要预测一个住宅是房子还是公寓),我们称之为分类问题如果你的朋友想要卖房子,让你帮忙预估以下可以卖多

2021-03-26 15:15:04 304

原创 juypter 修改默认存储路径

juypter 修改默认存储路径第一步:找到配置文件第二步:更改路径第三步:修改默认配置第一步:找到配置文件菜单中打开Anaconda Prompt输入命令 jupyter notebook --generate-config,会询问你是否overwrite 配置文件,输入yes;第二步:更改路径打开jupyter_notebook_config.conf找到 #c.NotebookApp.notebook_dir = ‘’,去掉该行前面的“#”;在打算存放文件的位置先新建一个文件夹,名字最

2021-03-19 10:57:28 225

原创 数据处理(一)数据清洗

数据清洗1、处理重复数据2、处理缺失数据3、数据一致性(数据逻辑错误)1、处理重复数据1、函数法B:countif(A:A,A2) 结果是A2在所有结果中出现的次数; A776477 一共在列中出现两次C:countif(A$2:A3,A3) 结果是在A2-A3 中 A3 第几次出现 2、高级筛选法3、条件格式法4、透视表5、删除重复值2、处理缺失数据表格里,缺失值最常见的表现形式就是控制或者错误标识符,可以接受的缺失值在10%以下;1、定位处理缺失值

2020-09-29 23:28:49 2745

转载 Task5 模型融合

Task5 模型融合学习目标内容介绍学习目标将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果并打卡。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程)内容介绍模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:简单平均法简单加权平均,结果直接融合 求多个预测结果的平均值。pre1-pren分别是n组模型预测出来的

2020-09-28 09:37:46 60

转载 Task4建模调参

Task4 建模与调参 学习目标内容介绍逻辑回归的优缺点树模型集成模型模型评估方法模型评价标准学习目标学习在金融分控领域常用的机器学习模型学习机器学习模型的建模过程与调参流程完成相应学习打卡任务内容介绍逻辑回归的优缺点优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值;缺点逻辑回归需要预先处理缺

2020-09-24 22:44:10 133

转载 Task 3 数据特征

学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法完成相应学习打卡任务,两个选做的作业不做强制性要求,供学有余力同学自己探索学习内容数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱(选做作业)特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试(

2020-09-22 08:05:02 289

转载 Task2 数据分析

Task 2 数据分析目的学习目标内容介绍代码案例导入库读取文件拓展总体了解查看特征的数值类型有哪些,对象类型有哪些数值型变量分析,数值型肯定是包括连续型变量和离散型变量的,找出来目的1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备学习目标内容介绍数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;

2020-09-18 22:36:41 156

原创 零基础入门金融风控之贷款违约预测挑战赛-Task1 赛题理解

零基础入门金融风控之贷款违约预测挑战赛-Task1 赛题理解[Task1 赛题理解](https://editor.csdn.net/md?not_checkout=1&articleId=108587862)Task2Task3Task 4赛题概况数据概况预测指标分析赛题经验总结拓展知识——评分卡Task1 赛题理解Task2Task3Task 4赛题概况比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台

2020-09-14 22:31:30 418

原创 数据分析-任务0

任务0学习目标数据分析数据分析介绍数据统计分析关键指标集中趋势均值中位数众数离散程度数值型数据顺序数据分类数据相对离散程度分布形态数据分析与数据类型数据分析软件数据分析与可视化方法数据分析流程描述性统计分析探索型数据分析验证型数据分析学习目标对数据分析有有一点感性的认知,了解数据分析的用途;对数据分析中数据处理和可视化软件有初步了解;理解数据分析的流程和步骤;数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的

2020-09-07 23:16:06 1024

原创 模型搭建与评估

这里写目录标题1、模型搭建-建模1.1 导包1.2 读入数据集1.3 模型搭建1.3.1 切割训练集和测试集1.4 输出模型预测结果2、模型搭建-评估1、模型搭建-建模我们拥有的泰坦尼克号的数据集,那么我们这次的目的就是,完成泰坦尼克号存活预测这个任务。1.1 导包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display impo

2020-08-27 15:31:52 901 1

原创 绘图与可视化入手教程

绘图与可视化入手教程Matplotlib创建画布与创建子图创建画布plt.figure()---在plt中绘制一张图片plt.subplot--创建单个子图plt.subplots--创建多个子图figure().add_subplot方法----给figure新增子图画布内容plt.subplots()画布fig.add_subplot()颜色、标记、线类型刻度、标尺和图例不同类型的图散点图折线图直方图条形统计图箱型图饼图雷达图SeabornMatplotlib导入包import matplotli

2020-08-24 23:11:58 457

转载 数据重构

pandas包的merge、join和concat方法来完成数据的合并和拼接,merge方法主要是基于两个dataframe的共同列进行合并,join方法主要是基于两个dataframe的索引进行合并,concat方法是对series或dataframe进行行拼接或列拼接,本文详细分析了上面三种方法的合并和拼接操作。1. Merge方法merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False,

2020-08-22 22:47:50 1301

转载 缺失值和重复值的处理

一、缺失值处理:1、缺失值产生的原因缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。2、缺失值的类型缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。完

2020-08-21 22:49:05 2478

原创 动手数据分析-1

目录os模块常用方法pandans 读取文件os模块常用方法摘自 :https://www.jianshu.com/p/eb3d65879a90os模块的主要功能:系统相关、目录及文件操作、执行命令和管理进程在使用os模块的时候,如果出现了问题,会抛出OSError异常,表明无效的路径名或文件名,或者路径名(文件名)无法访问,或者当前操作系统不支持该操作。import osos.chdir('d:\\l')FileNotFoundError ...

2020-08-17 22:48:41 184

转载 文件与文件系统

1. 文件与文件系统 打开文件 open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)file: 必需,文件路径(相对或者绝对路径)。 mode: 可选,文件打开模式 buffering: 设置缓冲 encoding: 一般使用utf8 errors: 报错级别 newline: 区分换行符打开模式 执行操作 'r'

2020-08-08 23:27:11 88

原创 day8-模块

1. 什么是模块Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。容器 -> 数据的封装 函数 -> 语句的封装 类 -> 方法和属性的封装 模块 -> 程序文件2. 命名空间命名空间因为对象的不同,也有所区别,可以分为如下几种:内置命名空间(Built-in Namespaces):Python 运行起来,它们就存在了。内置函数的命名空间都属于内置命名空间,所以,我们可以...

2020-08-07 22:34:47 138

原创 day7-类与对象

类与对象1. 对象 = 属性 + 方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模板创建对象。类不但包含方法定义,而且还包含所有实例共享的数据。 封装:信息隐蔽技术 我们可以使用关键字class定义 Python 类,关键字后面紧跟类的名称、分号和类的实现。class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10..

2020-08-05 22:09:11 227

原创 day6-函数与Lambda表达式

一、函数python 把函数当成对象,可以从另外一个函数中返回出来去构建高阶函数;参数是函数 返回值是函数 函数的定义 函数以def关键词开头,后接函数名和圆括号()。 函数执行的代码以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。 def functionname(parameters): "函数_文档字符串" function_suite return [ex

2020-08-02 20:03:13 97

原创 day5-字典-集合-序列

目录字典集合序列1、字典1、1 可变类型与不可变类型序列是以连续的整数为索引,与此不同的是,字典以"关键字"为索引,关键字可以是任意不可变类型,通常用字符串或数值。 字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型。判断数据x是否可变得方法:麻烦方法:用id(X)函数,对 X 进行某种操作,比较操作前后的id,如果不一样,则X不可变,如果一样,则X可变。 便捷方法:用hash(X),只要不报错,证明X可被哈希,即不可变,反过来不...

2020-07-31 22:14:23 179

原创 day4-列表-元组-字符串

目录数据结构1、列表2、元组3、字符串4、字典5、集合简单数据类型整型<class 'int'> 浮点型<class 'float'> 布尔型<class 'bool'>容器数据类型(容器是一种把多个元素组织在一起的数据结构)列表<class 'list'> 元组<class 'tuple'> 字典<class 'dict'> 集合<class 'set'> 字符串<c

2020-07-28 22:14:41 246

原创 day3-异常处理

异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行。1、Python 标准异常总结BaseException:所有异常的基类 Exception:常规异常的基类 StandardError:所有的内建标准异常的基类 ArithmeticError:所有数值计算异常的基类 FloatingPointError:浮点计算异常 OverflowError:数值运算超出最大限制 ZeroDiv..

2020-07-25 22:51:38 225

原创 day2 条件语句

目录一、条件语句ifif-elseif - elif - elseassert二、循环语句whilewhile-elseforfor-elserange()enumerate()函数break 语句continue()pass推导式一、条件语句1、ifif expression: expr_true_suiteif 语句的expre_true_suite代码只有当表达式expression结果为真时执行,...

2020-07-23 22:28:15 104

原创 day1 变量、运算符与数据类型及位运算

目录变量、运算符与数据类型1、注释2、运算符3、变量和赋值4、数据类型与转换5、print() 函数

2020-07-22 22:05:41 226

转载 Python 变量类型

Python 变量类型变量是存储在内存中的值,也就是说创建变量时会在内存中开辟一个空间。 基于变量的数据类型,解释器会分配指定内存,并决定什么数据可以被存储在内存中。 变量可以指定不同的数据类型。变量赋值Python中的变量赋值不需要类型声明。 每个变量在内存中创建,都包括变量的标识,名称和数据这些信息。 每个变量在使用前必须赋值,变量赋值以后该变量才会被创建。 等号用来给变量赋值。 等号左边时一个变量名,右边是存储在变量中的值。counter = 100 .

2020-06-28 17:15:37 159

原创 Pandas 第8章 分类数据

Categoricals 是 pandas 的一种数据类型,对应着被统计的变量。Categoricals 是由固定的且有限数量的变量组成的。比如:性别、社会阶层、血型、国籍、观察时段、赞美程度等等。与其它被统计的变量相比,categorical 类型的数据可以具有特定的顺序——比如:按程度来设定,“强烈同意”与“同意”,“首次观察”与“二次观察”,但是不能做按数值来进行排序操作(比如:sort_by 之类的,换句话说,categorical 的顺序是创建时手工设定的,是静态的)类型数据的每一个元素的

2020-06-27 22:32:02 467 1

原创 Pandas 第7章 文本数据

目录string 类型的性值拆分和拼接替换子串匹配与提取常用字符串方法问题与练习string 类型的性值 string 与object区别 字符存取方法,string返回相应数据的Nullable类型,object会因缺失值存在而改变返回类型; 某些Series方法不能再string上使用,Series.str.decode() 因为存储的是字符串而不是字节 string类型在缺失值存储或运算时,类型广播时pd.NAN,而不是np.nan stri.

2020-06-26 23:16:59 166

原创 Pandas-第六章缺失数据处理

目录一、缺失预测及其类型二、缺失数据的运算与分组三、填充与剔除四、插值线性插值高级插值方法interpolate中的限制参数一、缺失预测及其类型了解缺失值信息 df.isna() #或者df.列名.isna() df.info() df.notna()# 非空信息 df[~df.列名.isna()] 对空取反操作,就是找非空 求缺失个数 df.isna().sum() 通过布尔值选择缺失值所在行 df[df.列名.isna()]...

2020-06-23 15:04:02 2143

原创 Mysql 第 n 高的薪水 相关知识整理

题目来源 :力扣(LeetCode)链接:https://leetcode-cn.com/problems/nth-highest-salary编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 ...

2020-02-16 18:47:11 142

原创 Pandas 数据结构-Series

作为自己学习的笔记,加油!import pandas as pd Series是一种一维的数组型对象。包含两个属性Series.values 和Series.index1.1创建Series from pandas import Series obj=Series([4,5,6,7]) obj 0 4 1 5 2 ...

2019-10-30 21:52:34 131

转载 特征工程

https://www.cnblogs.com/jasonfreak/p/5448385.html

2019-09-10 15:43:35 107

原创 Excel 数据分析

整理与《谁说菜鸟不会数据分析》一、重复数据处理1、COUNTIF函数2、高级筛选法3、条件格式法4、数据透视表5、删除重复值二、缺失数据处理Ctrl G 定位 + Ctrl Enter1、用一个样本统计量的值代替缺失值:样本均值2、统计模型计算出来的值代替缺失值:常用的模型 回归模型、判别模型等3、直接删除缺失值4、将缺失值保留,仅仅需要的时候排除...

2019-09-02 08:49:18 336

原创 sklearn 数据预处理

1、数据标准化 sklearn.perprocessing.scale sklearn.preprocessing.StandScaler2、数据缩放 2.1 MinMaxScaler MaxAbsScaler 2.2稀疏数据缩放 2.3带有异常值得数据缩放 2.4缩放和百花...

2019-08-30 15:31:37 331

转载 Tensorflow 实现google深度学习框架-第二章

Tensorflow 环境搭建2.1 Tensorflow 的主要依赖包 2.1.1Protoco Buffer Protoc Buffer 是处理结构化数据的工具。此处结构化数据指的是拥有多种属性的数据。比如用户信息包含名字、ID、和Email地址三种不同属性,这就是一个结构化数据。当要把这些结构化的用户信息持久化或者进行网络传输时,就需要先将他们序列化。所谓序...

2019-06-21 15:43:04 142

原创 Python 分类和标注词汇

1.名词解释: 词性标注(part-of-speech tagging ,POS tagging):将词汇按照词性分类并相应地对他们进行分类 词性也称你为词类,词范畴。用于特定任务标记的集合被称为一个标记集。1.1 使用词性标注器 使用词性标注器处理一个词序列,为每一个词增加词性标记。 (a) pos_tag():词性标注 使用text.simi...

2019-04-10 21:45:45 1368

原创 FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is depr

FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`. from ._conv import re...

2019-01-03 10:27:48 347

原创 Python解决unicode编码 \xe7\xbb\x87转化为中文

 记录下学习过程中遇到的问题:将中文关键字提取后存入csv文件中,结果出现了如下结果:\xe7\xbb\x87\xe7\x89\xa9 \xe7\xbb\x93\xe5\x90\x88\xe9\x83\xa8 \xe7\xbb\x93\xe6\x9e\x84 \xe5\x86\x85\xe7\xae\xa1 \xe5     \x88\x86\xe9\x9a\x94 \xe8\x86\xa8\...

2018-12-01 15:24:29 65175 3

数学之美.pdf

 在《数学之美》里,吴军集中阐述了他对数学和信息处理这些专业学科的理解,尤其是他在语音识别、自然语言处理和信息搜索领域多年来的积累 。 从数字和信息的由来,到搜索引擎对信息进行处理背后的数学原理,到与搜索相关的众多领域后面的奇妙的数学应用,吴军都娓娓道来。他把数学后面的本质思维写得透彻、生动。不得不说,他的文字,引人入胜,也确实让我们体会到数学的美。在他的笔下, 数学不是我们一般联想到的枯燥深奥的符号,而是实实在在源于生活的有趣的现象和延伸。数学, 其实无处不在,而且有一种让人惊叹的韵律和美!

2016-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除