4 nono19nice

尚未进行身份认证

暂无相关简介

等级
TA的排名 13w+

spark-sql跑数据Failed with exception java.io.IOException:org.apache.parquet.io.ParquetDecodingExceptio

错误信息:Failed with exception java.io.IOException:org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file oss:/xxxxxxxxxx.snappy.parquet修改方式:在运行spark-sql前 添加这样...

2019-03-15 14:50:47

MAC版本的UltraEdit破解方法

MAC版本的UltraEdit破解方法:解压,然后在命令行里输入printf'\x31\xC0\xFF\xC0\xC3\x90'|ddseek=$((0x777160))conv=notruncbs=1of=/Applications/UltraEdit.app/Contents/MacOS/UltraEdit对应ue下载链接:链接:https://pan.bai...

2019-03-02 19:53:01

Mac 解压rar 文件

Mac解压rar文件第一种方法:下载下面链接中的软件,安装好就可以直接用了。http://baijiahao.baidu.com/s?id=1604390455412644388&wfr=spider&for=pc安装过程中,一直点击下一步即可第二种方法:https://blog.csdn.net/weixin_41935140/article/d...

2019-03-02 19:44:09

特征处理过程 中的 独热编码(onehot)与哑变量及python 代码实现

为什么要用onehot:二.为什么使用one-hot编码来处理离散型特征?1.使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。2.将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余...

2019-03-02 19:37:18

机器学习特征工程--标准化和归一化

关于归一化和标准化1.标准化使用条件(1)不需要对特征进行归一化:基于树模型的方法举例: 随机森林/bagging/boosting/xgboost需要标准化的(基于距离的模型):回归分析(逻辑回归)/神经网络 / svm2.相关定义什么叫归一化(标准化):归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。为什么要归一化(标准化):...

2019-03-02 19:32:14

Kmeans聚类原理及python实现代码

kmeans原理:(1)首先,随机确定k个初始点的质心;(2)然后将数据集中的每一个点分配到一个簇中,即为每一个点找到距其最近的质心,并将其分配给该质心所对应的簇;(3)对每一个簇,计算簇中所有点的均值并将均值作为质心(例:在三维空间里,计算各个点的x的均值得到x1,y的均值得到y1,z的均值得到z1,以此得到新的坐标点x1,y1,z1,然后重新计算各个点距离最近的族)(4)重...

2019-03-02 19:14:43

Mac Kettle安装教程

第一步:先安装jdkhttp://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载mac版的,下载好后,直接安装,直到最后一步就可以了打开终端,输入java-version,查看是否安装成功,如图为安装成功的图第二步:下载kettlehttps://community.hds.com/d...

2018-04-23 19:06:11

MAC 安装mysql 连接驱动ODBC时安装错误

应用场景:使用tableau连接时mysql时,提示需要安装驱动,如下图然后需要安装连接驱动,odbc下载地址:https://dev.mysql.com/downloads/connector/odbc/原因:未安装odbc管理器下载地址:http://www.odbcmanager.net/ 下载好后,直接安装,显示安装成功,不用像教程那样改配置,然后再去安装mysql 5.3.10 显示成功...

2018-04-23 18:49:17

ks(洛伦兹曲线)指标理解

KS(Kolmogorov-Smirnov)值越大,表示模型能够将正、负客户区分开的程度越大。KS值的取值范围是[0,1]通常来讲,KS>0.2即表示模型有较好的预测准确性。ks求解方法:ks需要TPR和FPR两个值:真正类率(truepositiverate,TPR),计算公式为TPR=TP/(TP+FN),刻画的是分类器所识别出的正实例占所有正实例的比例...

2018-04-20 16:39:49

python corr函数求相关系数时发现某个维度的数据无法求

错误代码❌展示如下:结果:所以是为什么呢?上图已用黄色标出,因为数据类型的问题,所以我们只需要这样改就可以:新增红色箭头的代码就可以了...

2018-04-20 14:04:44

数据挖掘分析相关面试题(亲身经历),持续更新中(最新一次为20190731)

以下大多数都是博主或者博主同事经历过的面试题哟~关于工作内容的就不写啦,一些基础面试题跟大家分享下多看看面试题也能够让你快速了解自己的能力和短缺的地方哦~本篇博客会持续更新,也希望大家多多提供一些面试题哦~1、基础面试(1)自我介绍:emmm这个就不多讲啦,把大概背景讲清楚就可以(2)自己做过的项目介绍:大家可以选择最能够体现自己能力的项目。可以从以下几个方面来讲:a、简...

2018-04-13 17:50:20

mysql安装教程及踩过的坑

安装mysql 5.6及踩过的坑解释:由于5.7版本更新了较多语法,安装也有所不同,没有mysql_default.ini文件,具体怎么安装还没试过。所以博主暂时只安装了5.6版本。安装环境:win7+64下载地址:https://dev.mysql.com/downloads/mysql/第一步:下载完以后解压,然后开始改配置文件,找到my-default.ini 将其名字改为my.ini,并在...

2018-04-13 16:01:50
勋章 我的勋章
    暂无奖章