5 猪逻辑公园

尚未进行身份认证

数据分析 机器学习 NLP 风控 营销推荐

等级
TA的排名 2w+

PySpark︱DataFrame操作指南

pyspark系列--字符串函数增/删/改/查/合并/统计与数据处理《SparkPythonAPI官方文档中文版》之pyspark.sql(一)《SparkPythonAPI官方文档中文版》之pyspark.sql(二)...

2019-07-26 13:52:12

台湾-李宏毅教授的深度学习视频教程

李宏毅老师简介:主要研究领域为机器学习(特别是深度学习)、口语语义理解和语音识别。2012年从台北NationalTaiwanUniversity(NTU)博士毕业。2012年9月—2013年8月,在SinicaAcademia的ResearchCenterforInformationTechnologyInnovation做博士后。2013年9月—2014年7月...

2019-07-14 22:14:50

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

转载自-张俊林的文章-知乎https://zhuanlan.zhihu.com/p/49271699Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任...

2019-07-14 21:42:11

sklearn的自定义转换器transformer以及使用pipeline对数据进行处理

摘要在很多机器学习场景中,需要我们对数据进行预处理,sklean提供的pipeline接口方便我们将数据预处理与模型训练等工作进行整合,方便对训练集、验证集、测试集做相同的转换操作,极大的提高了工作效率。但是在不同场景下往往预处理的方法会出现多样性,然而sklearn所提供的预处理接口(Transformers)数量有限,有的时候往往需要我们自己编写函数对数据进行预处理。为了让我们自定义的数据...

2019-07-14 12:25:19

AI研习社技术分享

AutoML在IEEE-ISIWorldCup2019竞赛中的应用:冠军团队DeepBlueAI技术分享GitHub项目推荐|awesome-bert:BERT相关资源列表【CVPR2019全部论文合集】https://ai.yanxishe.com/page/resourceDetail/845【CVPR2019Oral论文精选】https://ai.yanxis...

2019-07-09 18:39:41

Spark集群安装和部署(六)-----pyspark更新Python版本、Notebook安装配置、安装pip

默认安装好spark后,pyspark环境中Python为2,需要更新为3Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoopSpark集群安装和部署(四)-----ubuntu16.0.4安装...

2019-07-08 18:41:53

Spark集群安装和部署(五)-----ubuntu16.0.4安装Spark

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoopSpark集群安装和部署(四)-----ubuntu16.0.4安装ScalaSpark集群安装和部署(五)-----ubuntu16.0.4安...

2019-07-08 17:44:57

Spark集群安装和部署(四)-----ubuntu16.0.4安装Scala

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoopSpark集群安装和部署(四)-----ubuntu16.0.4安装ScalaSpark集群安装和部署(五)-----ubuntu16.0.4安...

2019-07-08 16:02:57

Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoopSpark集群安装和部署(四)-----ubuntu16.0.4安装ScalaSpark集群安装和部署(五)-----ubuntu16.0.4安...

2019-07-08 12:50:24

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoopSpark集群安装和部署(四)-----ubuntu16.0.4安装ScalaSpark集群安装和部署(五)-----ubuntu16.0.4安...

2019-07-08 12:45:02

Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoopSpark集群安装和部署(四)-----ubuntu16.0.4安装ScalaSpark集群安装和部署(五)-----ubuntu16.0.4安...

2019-07-05 17:21:50

DeepFM原理及源码解析

1、DeepFM原理回顾先来回顾一下DeepFM的模型结构:DeepFM包含两部分:因子分解机部分与神经网络部分,分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的嵌入层输入。DeepFM的预测结果可以写为:嵌入层嵌入层(embeddinglayer)的结构如上图所示。通过嵌入层,尽管不同field的长度不同(不同离散变量的取值个数可能不同),但是embedd...

2019-06-29 20:06:42

PCA异常检测

PrincipleComponentAnalysis是主成分分析,简称PCA。它的应用场景是对数据集进行降维。降维后的数据能够最大程度地保留原始数据的特征(以数据协方差为衡量标准)。PCA的原理是通过构造一个新的特征空间,把原数据映射到这个新的低维空间里。PCA可以提高数据的计算性能,并且缓解"高维灾难"。高维灾难详见https://www.leiphone.com/news/201706/...

2019-06-29 18:20:47

spark 将DataFrame所有的列类型改为double

前言由于spark机器学习要求输入的DataFrame类型为数值类型,所以如果原始数据读进来的列为string类型,需要一一转化,而如果列很多的情况下一个转化很麻烦,所以能不能一个循环或者一个函数去解决呢。1.单列转化方法importorg.apache.spark.sql.types._valdata=Array(("1","2","3","4","5"),(...

2019-06-20 15:02:27

R语言【漫画】数据PCA主成分分析报告

数据基本探查数据框包含1714个样本,20个变量: 序号 变量 序号 变量 1 漫画名称 11 是否完结 2 标签 12 更新时间 ...

2019-06-19 17:50:36

R语言:缺失值处理

前言  一个完整的处理方法通常包含以下几个步骤:  (1)识别缺失数据;  (2)检查导致数据缺失的原因;  (3)删除包含缺失值的实例或用合理的数值代替(插补)缺失值。  但遗憾的是,仅有识别缺失数据是最清晰明确的步骤。知道数据为何缺失依赖于你对数据生成过程的理解,而决定如何处理缺失值则需要判断哪种方法的结果最为可靠和精确。  统计学家通常将缺失数据分为三类。它们都...

2019-06-18 14:42:50

一元线性回归及Excel回归分析

摘要一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析。这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理。什么是一元线性回归回归分析(RegressionAnalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可...

2019-06-08 19:26:54

Scikit-learn——LogisticRegression与SGDClassifier

1.sklearn.linear_model.logisticregression一般来说,逻辑回归用梯度下降算法来求解参数比较常见;所以这也导致一开始误以为LogisticRegression模型就是用梯度下降算法来实现的,当遇到SGDClassifier(StochasticGradientDescent)随机梯度下降分类器的时候,就有点蒙了。梯度下降明明是一个求解算法,怎么就和分...

2019-06-04 20:57:24

GBDT+LR产生新的特征

1、背景CTR预估,广告点击率(Click-ThroughRatePrediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(LogisticRegression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR,逻辑回归模型,这种线性...

2019-06-03 15:49:12

XGBoost:参数解释

XGBoost参数在运行XGboost之前,必须设置三种类型成熟:generalparameters,boosterparameters和taskparameters:Generalparameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster有树模型(tree)和线性模型(linearmodel)。 Boosterparamete...

2019-05-30 23:13:31

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。