2 Alien_lily

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 7w+

hive 修改字段类型和增加字段表

Alter table 表名 change column 原字段名称 现字段名称 数据类型

2019-08-01 13:44:15

spark常见问题

1、executor堆外内存有时候,如果你的spark作业处理的数据量特别特别大,几亿数据量;然后spark作业一运行,时不时的报错,shuffle file cannot find,executor、task lost,out of memory(内存溢出);可能是说executor的堆外内存不太够用,导致executor在运行的过程中,可能会内存溢出;然后可能导致后续的stage的task...

2019-07-30 15:49:43

账号异常分析

看了一篇文章,感觉全篇都是干货。具体参见如何分析账号异常?看这里!购物、支付、游戏、社交软件帐号被盗的新闻屡见不鲜,危害之大可想而知!常用的网络帐号,主机帐号被盗可能会造成信息泄露,资金被转走,或者被作为跳板对重要资产进行一系列的攻击行为。这些损失由谁来负责,很多行业没有明确的认定和追查方法,因而最大的受害者往往是用户本身。一个企业有很多员工,每个人有很多类型的帐号。由于全体人员帐号总体数目...

2019-01-23 16:04:54

解释下什么是最小二乘法

主要参考维基百科最小二乘法,也叫作最小平方法(这样比较好理解)是一种数学优化技术。主要是通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便的求得未知的数据,并且使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法是对过度确定系统,即其中存在比未知数据更多的方程组,以回归分析求得近似解的标准方法。在这整个解决方案中,最小二乘法演算为每一方程式的结果中,将残差平方和的...

2018-11-28 17:30:06

tableau面试问题及答案

什么是Tableau?Tableau是一种商业智能软件,允许任何人连接到相应的数据,然后可视化并创建交互式的可共享仪表板。什么是数据源页面?可在其中设置数据源的页面。 “数据源"页面通常由四个主要区域组成:左窗格,联接区域,预览区域和元数据区域。什么是Tableau中的提取?可用于提高性能和离线分析的数据源的已保存子集。Tableau中的格式窗格是什么?一个窗格,其中包含控制整个工作...

2018-11-27 10:56:08

机器学习算法

适用场景:根据连续变量估计实际数值(房价,呼叫次数,总销售额等)原理:可通过拟合最佳直线来建立自变量和因变量的关系。拟合结果是条直线 Y = a* X +b;其中Y是因变量,a是斜率,x是自变量,b是截距最佳直线叫做回归线,系数a和b通过最小二乘法获得。python代码:from sklearn import linear_modelx_train=input_variables_val...

2018-11-26 13:44:30

python-正则表达式re

匹配集合与补集字符组表达式 […] 匹配括号中列出的任一个字符[abc] 可以匹配字符 a 或 b 或 c区间形式 [0-9] 是顺序列出的缩写,匹配所有十进制数字字符 [0-9a-zA-Z]匹配所有字母(英文字母)和数字[^…] 中的 ^ 表示求补,这种模式匹配所有未在括号里列出的字符[^0-9] 匹配所有非十进制数字的字符[^ \t\v\n\f\r] 匹配所有非空白字符...

2018-11-23 15:06:40

python-编码问题(字符编码问题处理)

编码和解码编码集解决乱码编码和解码编码是为了让机器读懂语言。即输入的是字符“中文”,那么编码就是将“中文”编码为二进制格式让机器读懂在Python中,机器其实是不认识unicode 的,而是接收的 str即使输入的数据是 unicode 的,而在Python内部都会将 unicode 自动转为strstr 通过解码函数 decode() 转换为 unicode , unico...

2018-11-23 09:50:14

python-SciPy模块

原文:https://blog.csdn.net/qq_34535410/article/details/53811821

2018-11-13 15:23:11

关于算法-推荐阅读

[1] 机器学习-波澜壮阔40年 SIGAI 2018.4.13. [2]学好机器学习需要哪些数学知识?[3]人脸识别算法演化史基于深度学习的目标检测算法综述卷积神经网络为什么能称霸计算机视觉领域?用一张图理解SVM的脉络人脸检测算法综述理解神经网络的激活函数深度卷积神经网络演化历史及结构改进脉络-40页长文全面解读理解梯度下降法循环神经网络综述-语音识别与自然语言处理的利器...

2018-11-01 14:00:12

算法工程师

**数学知识编程能力机器学习与深度学习的知识应用方向的知识对自己所做的问题的思考和经验**

2018-11-01 09:22:46

数据分析基础-统计学

变量我们需要了解几个名词:变量、常量、连续变量、离散变量、连续数据、离散数据、自变量、因变量、函数、单值函数、多值函数以上名词大家都比较理解,我这边就解释下什么是单值函数和多值函数:单值函数:若对定义域每一个自变量x,其对应的函数值f(x)是唯一的,则称f(x)是单值函数。多值函数:若│f(x)│=2x-1,则f(x)=±(2x-1),一个自变量x对应两个函数值。频数分析数组阵列:...

2018-10-31 10:11:50

23种Pandas核心操作

读取数据集pd.read_csv(“csv_file”)pd.read_excel("excel_file")保存数据到csv文件,且不带索引df.to_csv("data.csv", sep=",", index=False)基本的数据集特征信息删除缺失数据df.dropna(axis=0, how='any')替换缺失数据df.replace(to_replace=No...

2018-10-25 17:06:23

深入浅出SQL

创建数据库CREATE DATABASE 数据库名称;使用数据库use 数据库名称;SQL命令语句本身不区分大小写,但是命令大写是良好的SQL编程习惯。需要注意的是分号表示命令的结束。创建表:CREATE TABLE 表名称(doughnut_name VARCHAR(10),doughnut_type VARHAR(6)); --'VARCHAR'是可变动字符的意思,用...

2018-10-24 09:58:09

统计学基础

为什么要学统计学是一门收集、整理和分析统计数据的科学方法其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识统计学研究随机现象,以推断为特征,由部分推及全体的思想贯穿于统计学的始终未完待续~...

2018-10-18 17:16:23

特征工程是什么?

原文来自:http://www.cnblogs.com/jasonfreak/p/5448385.html

2018-10-18 10:31:06

特征工程

特征工程其实是一个如何展示和表现数据的问题,在实际工作中需要把数据以一种“良好”的方式展示出来,使得能够使用各种各样的机器学习模型来得到更好的效果。如何从原始数据中去除不佳的数据,展示合适的数据就成为了特征工程的关键问题。

2018-10-18 10:22:28

常用的特征选择方法

特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解去掉取值变化小的特征假如说头一个特征值只有0和1,并且在所有的输入样本中,95%以上的取值都是0,那其实我们可以认为这个特征作用不大,可分析性不大没啥意义。一般会把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。单变量...

2018-10-18 10:14:07

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-3: ordinal not in range(128)解决方法:在文件开头添加:import sys;reload(sys);sys.setdefaultencoding(“utf8”)...

2018-10-11 10:52:01

Python编码错误的解决办法SyntaxError: Non-ASCII character '\xe5' in file

错误在编写Python时,当使用中文输出或注释时运行脚本,会提示错误信息:SyntaxError: Non-ASCII character '\xe5' in file *******查找原因python的默认编码文件是用的ASCII码,而你的python文件中使用了中文等非英语字符。解决在Python源文件的最开始一行,加入一句:coding=UTF-8(等号换为”:“也可以)...

2018-10-11 09:17:50

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。