12 曾先森~~

尚未进行身份认证

我要认证

AI 学习与生活

等级
TA的排名 8k+

[数据处理] Pandas利用groupby拆分csv

关键步骤:1、利用pandas的pd.read_csv读取csv内容到pandas dataframe结构里;2、利用groupby按共同元素聚合;3、提取groupby后的dataframe对象信息并输出。df=pd.read_csv(pathDir+"//"+"xx.csv",sep=",",engine='python',header=0)grouped=df.groupby(by="apply_ym")for value,group in grouped: filen

2020-06-29 12:04:27

[机器学习] PMML实现模型上线

机器学习在用于产品的时候,经常会遇到跨平台的问题。比如用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如Java,为了上一个机器学习模型去大动干戈修改环境配置很不划算,此时我们就可以考虑用预测模型标记语言(Predictive Model Markup Language,以下简称PMML)来实现跨平台的机器学习模型部署。1. PMML概述PMML是数据挖掘的一种通用的规范,它用统一的XML格式来描.

2020-06-17 11:05:26

[HIVE] shell调用hive客户端导致nohup后台进程stopped

nohup启动java进程调用shell执行hive客户端命令导致nohup进程stopped,java进程消失了。环境变量增加如下之后解决。export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Djline.terminal=jline.UnsupportedTerminal"看网上说:如果后台程序试图读取终端,这并不是一个错误,但是终端驱动程序将检测这种情况,并向后台作业发送一个特定信号SIGTTIN,该信号会停止此后台程序,并向用户发送通知。.

2020-06-16 12:24:32

【Docker】Centos7 安装docker-18.03.1-ce(离线安装)

一、引言为了实现离线安装docker-18.03.1-ce这个想法,我遍寻网络,什么 RPM 搜索大法啦,yum local install 方法啦,都是复杂到不行。二、终极解决直接上网址:Install Docker CE from binaries (官方文档:通过二进制包安装 docker 社区版)简单介绍下安装步骤:1. 通过 FileZilla 等文件传输工具将 docker-18.03.1-ce.tar 放到用户目录下,并移动到该目录执行下述命令解压二进制包$ ...

2020-05-26 11:04:34

[机器学习]给机器学习面试者的十项建议

原文:https://towardsdatascience.com/giving-some-tips-for-data-science-interviews-after-interviewing-60-candidates-at-expedia-395fff7e073b声明 本博客来源于: 磐创AI在过去的一年里,我采访了一些在Expedia Group担任数据科学职位的人,职位从入...

2020-04-17 11:35:59

[机器学习]10个实用的机器学习建议

原文:https://medium.com/modern-nlp/10-great-ml-practices-for-python-developers-b089eefc18fc作者:Pratik Bhavsar声明 本博客来源于: 算法猿的成长导语有时候作为一名数据科学家,我们可能会忘记自己的主要职责。我们首先是开发者,接着是研究者,最后还可能是数学家。因此,我们最重要的责任就是...

2020-04-17 08:26:44

[深度学习] 面试常见问题+解析汇总

一、为什么深层神经网络难以训练?1、梯度消失。梯度消失是指通过隐藏层从后向前看,梯度会变得越来越小,说明前面层的学习会显著慢于后面层的学习,所以学习会卡主,除非梯度变大。梯度消失的原因:学习率的大小,网络参数的初始化,激活函数的边缘效应等。在深层神经网络中,每一个神经元计算得到的梯度都会传递给前一层,较浅层的神经元接收到的梯度受到之前所有层梯度的影响。如果计算得到的梯度值非常小,随着...

2020-04-07 17:14:55

理解熵,交叉熵和交叉熵的应用

自信息"你对结果感到惊讶的程度"一个低概率的结果与一个高概率的结果相比,低概率的结果带来的信息量更大。现在,如果yi是第i个结果的概率,那么我们可以把自信息s表示为: 熵现在我知道一个事件产生某个结果的自信息,我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率,所以用概率作为权重是有意义的,因为这是每个结果...

2020-03-17 17:37:29

Ubuntu16.04安装Python3.7及其pip3并切换为默认版本

0.配置依赖环境,如果不进行这步可能会出现一些问题中间可能有多余空格,去除下再运行,一般都能安装成功,如果不能可以先更新下sudo apt-get updatesudo apt-get install zlib1g-dev libbz2-dev libssl-dev libncurses5-dev libsqlite3-dev libreadline-dev tk-dev libgdbm...

2020-02-20 16:15:36

[深度学习] 自然语言处理 --- 从BERT, XLNet, RoBERTa, ERNIE2到ALBERT2

谷歌Lab发布了一个新的预训练模型"ALBERT"全面在SQuAD 2.0、GLUE、RACE等任务上超越了BERT、XLNet、RoBERTa再次刷新了排行榜!ALBERT是一种轻量版本的BERT,利用更好的参数来训练模型,但是效果却反而得到了很大提升!ALBERT的核心思想是采用了两种减少模型参数的方法,比BERT占用的内存空间小很多,同时极大提升了训练速度,更重要的是效果上也有很大的提升!...

2020-01-11 10:13:47

[深度学习] 自然语言处理 --- ALBERT 介绍

一、简介随着Transfomer结构的普及,一时间大语料、大参数量的预训练模型成为主流。当在实际部署BERT等模型时,往往需要使用蒸馏、压缩或其他优化技术对模型进行处理。ALBERT模型来自论文 Google 最近公布的论文 《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》从名字就可...

2020-01-06 18:28:22

[深度学习] 自然语言处理 --- Bert 开发实战 (huggingface-transformers)

本文主要介绍如果使用huggingface的transformers 2.0 进行NLP的模型训练除了transformers,其它兼容tf2.0的bert项目还有:我的博客里有介绍使用方法 [深度学习] 自然语言处理--- 基于Keras Bert使用(上)keras-bert(Star:1.4k) 支持tf2,但它只支持bert一种预训练模型 bert4keras (Sta...

2020-01-06 17:14:24

[深度学习] 自然语言处理--- 基于Keras Bert使用(下)

bert4keras 使用最新版本本文所用bert4keras时间:2019-12-23https://github.com/bojone/bert4keras使用bert4keras(TF2.0)import os#使用tf2.0.0 版本os.environ['TF_KERAS'] = '1' import numpy as npimport jsoni...

2019-12-27 16:10:46

[深度学习] 自然语言处理--- 基于Keras Bert使用(上)

1. bert ---- keraskeras_bert 是 CyberZHG 封装好了Keras版的Bert,可以直接调用官方发布的预训练权重。github:https://github.com/CyberZHG/keras-bert快速安装:pip install keras-bertbert4keras是封装好了Keras版的Bert,可以直接调用官方发布的预训...

2019-12-23 18:29:51

[机器学习] 模型稳定度指标PSI

群体稳定性指标(population stability index)由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,...

2019-12-19 16:54:03

[深度学习] 自然语言处理 --- NLP入门指南

NLP的全称是Natuarl Language Processing,中文意思是自然语言处理,是人工智能领域的一个重要方向自然语言处理(NLP)的一个最伟大的方面是跨越多个领域的计算研究,从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机如何准确并快速地处理大量的自然语言语料库。什么是自然语言语料库?它是用现实世界语言表达的语言学习,是从文本和语言...

2019-12-15 11:01:55

[深度学习] 自然语言处理 --- 理解Google最强NLP模型: BERT

BERT简介NLP:自然语言处理(NLP)是信息时代最重要的技术之一。理解复杂的语言也是人工智能的重要组成部分。Google AI 团队提出的预训练语言模型 BERT(Bidirectional Encoder Representations from Transformers)BERT,全称是 Pre-training of Deep Bidirectional Transformers...

2019-12-12 16:34:14

[Linux]Centos 6.3 下源代码安装gcc 4.8.2/4.9.2

CentOS6.3 自带的gcc版本为4.4.71.首先把旧的gcc相关的编译工具安装好yuminstallgccgcc-c++glibc-static-y2.下载gcc 4.8.2 源代码wget https://ftp.gnu.org/gnu/gcc/gcc-4.8.2/gcc-4.8.2.tar.bz2 tar jxvf gcc-4.8.2.tar.bz2...

2019-12-04 14:11:27

[深度学习] 深度可分离卷积

一 深度可分离卷积深度可分离卷积之所以如此命名,是因为它不仅处理空间维度,还处理深度维度-通道的数量。通常输入图像可以有3个通道:RGB。经过几次卷积后,一个图像可能有多个通道。你可以把每个频道想象成那个图像的一个特殊解释;例如,“红色”通道解释每个像素的“红色”,“蓝色”通道解释每个像素的“蓝色”,“绿色”通道解释每个像素的“绿色”。一个有64个频道的图像有64种不同的解释。深度可分离卷...

2019-12-04 12:11:12

[Kubernetes] Taint和Toleration(污点和容忍)

Taint(污点)和 Toleration(容忍)可以作用于 node 和 pod 上,其目的是优化 pod 在集群间的调度,这跟节点亲和性类似,只不过它们作用的方式相反,具有 taint 的 node 和 pod 是互斥关系,而具有节点亲和性关系的 node 和 pod 是相吸的。另外还有可以给 node 节点设置 label,通过给 pod 设置 nodeSelector 将 pod 调度...

2019-11-28 10:43:09

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证(专家版)
    技术圈认证(专家版)
    博客专家完成年度认证,即可获得
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享达人
    分享达人
    成功上传6个资源即可获取