6 MachineLP

尚未进行身份认证

成功收获成果,失败收获智慧,投入收获快乐!

等级
TA的排名 832

Python | Mac下matplotlib中文显示乱码

解决matplotlib中文显示乱码找到一个简单的方法对Mac来说,一部分字体放在了这里:/Library/Fonts/还有一部分在这里:/System/Library/Fonts/在使用的时候直接指定字体就好了:# coding=utf-8from matplotlib.font_manager import FontPropertiesfont = FontProp...

2020-02-23 22:48:47

[天池比赛] 新冠疫情相似句对判断

比赛链接:https://tianchi.aliyun.com/competition/entrance/231776/introduction?spm=5176.12281949.1003.2.4d7c2448gPLYCN下面提供base和训练结果:# 绘图案例 an example of matplotlibimport numpy as npimport matplot...

2020-02-23 21:40:58

[中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

维基百科的中文语料库质量高、领域广泛而且开放,其每月会将所有条目打包供大家下载使用,可以点击: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版(也可以访问:https://dumps.wikimedia.org/zhwiki/ 获取历史版本)。1、维基百科数...

2020-02-21 14:56:23

ELMO/BERT/Transformer笔记 (备用)

学习路线:

2020-02-20 16:19:39

[pytorch] 一种加速dataloder的方法

一位不错的小伙给的代码 (前同事)。这里实现主要是使用:nvidia.dali代码如下:from __future__ import divisionimport torchimport typesimport joblibimport collectionsimport numpy as npimport pandas as pdfrom random import ...

2020-02-20 16:03:47

[pytorch] 图像分类tricks (持续更新...)

data augmentationauto-augment:https://github.com/DeepVoltaire/AutoAugment/blob/master/autoaugment.pyfast-autoaugment:https://github.com/kakaobrain/fast-autoaugmentaugmix:https://github.com/goog...

2020-02-07 22:13:45

[pytorch] 图像识别之augmix

augmix:https://github.com/google-research/augmix论文:https://arxiv.org/abs/1912.02781效果展示:使用方法:import augmentationsimport numpy as npfrom PIL import Imagedef apply_op(image, op, severity...

2020-02-07 22:11:33

[pytorch] 图像识别之GridMask

GridMask:https://arxiv.org/abs/2001.04086albumentations:https://github.com/albumentations-team/albumentationskaggle的qishenha大佬分享链接:https://www.kaggle.com/c/bengaliai-cv19/discussion/128592。...

2020-02-07 21:51:39

[pytorch] 图像识别之mixup/cutout/Margin loss....简单实现

本人kaggle分享链接:https://www.kaggle.com/c/bengaliai-cv19/discussion/128592Mixupfrom torchtoolbox.tools import mixup_data, mixup_criterionalpha = 0.2for i, (data, labels) in enumerate(train_data...

2020-02-07 21:41:18

[pytorch] 图像识别之label smoothing (+mixup/cutmix)

本人kaggle分享链接:https://www.kaggle.com/c/bengaliai-cv19/discussion/128115def onehot_encoding(label, n_classes): return torch.zeros(label.size(0), n_classes).to(label.device).scatter_( 1...

2020-02-07 21:37:30

[pytorch] 图像识别之focal loss (+ohem)

本人kaggle分享链接:https://www.kaggle.com/c/bengaliai-cv19/discussion/128665import torchimport torch.nn as nnimport torch.nn.functional as Ffrom torch.autograd import Variabledevice = torch.device...

2020-02-07 21:34:58

[pytorch] 图像识别之ohem loss (+mixup/cutmix)

本人kaggle分享链接:https://www.kaggle.com/c/bengaliai-cv19/discussion/128637def ohem_loss( rate, cls_pred, cls_target ): batch_size = cls_pred.size(0) ohem_cls_loss = F.cross_entropy(cls_pred...

2020-02-07 21:32:24

[pytorch] 图像识别之mixup/cutmix

本人kaggle分享链接:https://www.kaggle.com/c/bengaliai-cv19/discussion/126504效果图: (目标检测中)代码如下:def rand_bbox(size, lam): W = size[2] H = size[3] cut_rat = np.sqrt(1. - lam) cut_w = ...

2020-02-07 21:28:48

pandas速查表

统计特征:https://zhuanlan.zhihu.com/p/82394380描述性统计:差值:https://www.jianshu.com/p/4e9801c74f01

2019-12-12 14:10:13

CTR中tricks

2019-12-06 14:29:29

pandas减少数据内存使用率/提高计算效率方法

数据量大的时候、或者内存紧张、想着提高计算效率, 加一下这个(可节省50%+内存同时提高计算效率):def reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage...

2019-12-05 20:36:25

scala-sparkML学习笔记:Scala并发编程实战:Executor线程池

原文地址:https://liam-blog.ml/2019/09/22/Scala-Concurrency-Executor/创建线程是一个重量级操作,因为需要调用操作系统内核的API,所以最好不要频繁的创建和销毁线程,为了能够复用创建的线程,常用的办法的就是创建线程池。Executorjava.util.concurren包中提供了若干接口和类来实现线程池,最常用的有Executo...

2019-11-15 15:04:26

scala-sparkML学习笔记:迁移文件/ 通过 .!! 隐式方法直接执行系统命令

Scala作为script使用也是非常的方便。原文地址:https://www.yangbajing.me/2019/03/22/scala实战:迁移文件/还可以参考:Scala-通过ProcessBuilder执行hive命令:https://blog.csdn.net/qq_16038125/article/details/86682405浅析ProcessBuilder:http...

2019-11-13 17:48:54

MachineLP好文推荐

MachineLP:其实事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。但是时代的浪潮犹如海滩上的浪花,总是一浪接着一浪,只要你站在海边,身处这个行业之中,下一个浪潮很快又会到来。你需要敏感而...

2019-11-02 10:17:57

scala-sparkML学习笔记:struct type tinyint size int indices array int values array double type

错误类型:CSV data source does not support struct<type:tinyint,size:int,indices:array<int>,values:array<double>> data type.predictPredict.select("user_id", "probability", "label")...

2019-10-29 22:14:20

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。