MXuDong-CSDN博客

转载提升深度学习模型的表现，你需要这20个技巧

原文：https://www.jiqizhixin.com/articles/2016-09-26-2 提升深度学习模型的表现，你需要这20个技巧By机器之心2016年9月26日 15:12本文原文的作者 Jason Brownlee 是一位职业软件开发者，没有博士学位的他通过「从应用中学习」的方法自学了机器学习，他表示对帮助职业开发者应用机器学习来解决复杂问题很有热情，也为机器学...

2019-07-25 09:12:07 1756

原创 Keras实现LeNet网络参考

模型论文地址Yann LeCun(1998)的论文《Gradient-Based Learning Applied to Document Recognition》，用于MNIST数据集。模型结构说明输入为32X32的灰度图像，第一层为6个5X5卷积核，不扩展边界；第二层为2X2的最大值池化层，步进为2X2；第三层为16个5X5卷积核，不扩展边界；第四层为2X2的最大值池化...

2019-06-10 22:26:44 2967 2

原创连续特征离散化参考地址

连续特征离散化：https://blog.csdn.net/ztf312/article/details/53991329https://blog.csdn.net/hellozhxy/article/details/80675229https://blog.csdn.net/oppo62258801/article/details/79271762...

2019-04-06 16:41:53 704

原创 CNN层调参经验与Drop层、BN层的使用经验

转载地址：https://www.cnblogs.com/bonelee/p/8534560.htmlhttps://blog.csdn.net/sean2100/article/details/83834565两篇文章主要给了两个结论：结论一：CNN 文本分类模型优化经验——关键点：加卷积层和FC可以提高精度，在FC前加BN可以加快收敛，有时候可以提高精度，FC后加...

2019-04-06 16:38:57 4398

原创 PyTorch实现的各类论文和代码参考（安利供保存收藏）

文章地址机器之心： https://www.jiqizhixin.com/articles/102101一篇翻译，主要是关于PyTorch的内容，提供了代码支持，项目地址：https://github.com/bharathgs/Awesome-pytorch-list具体的列表如下注意：主要还是参考原文，内容还是很有意义的自然语言处理和语音处理该...

2019-04-06 14:39:06 5030 1

原创 Python中from from future import *的用法

from __future__ import *参考：https://blog.csdn.net/zzc15806/article/details/81133045我们在读代码的时候，总是会看到代码开头会加上from __future__ import *这样的语句。这样的做法的作用就是将新版本的特性引进当前版本中，也就是说我们可以在当前版本使用新版本的一些特性。开头加上from _...

2019-02-23 15:10:34 3138

转载机器学习NLP参考文章

本站整理了一些NLP的入门资料参考，建议初学者看看。需要复制链接在浏览器里打开。 1.通过kaggle比赛学习机器学习文本分类方法https://zhuanlan.zhihu.com/p/34899693?utm_medium=social&utm_source=wechat_session&from=groupmessage&isappinstalled=0&...

2019-02-23 15:00:41 381

原创 loss问题——工作中对出现的loss问题描述与解决参考

问题一：loss跑飞如下图描述1、学习率（lr）过大，可以自定义一个学习率的值（较小）开始学习。参考blog：https://blog.csdn.net/CHNguoshiwushuang/article/details/81784299也就是说，学习率如果设置过大，会导致其直接跑到另外一边，从而导致loss跑飞。当然真实的loss变化是在一个奇异空间里的，不是图上的那种二...

2019-02-23 14:49:07 8619 2

原创数据不平衡问题——SMOTE算法赏析

春节前后好久没有总结问题了，这一段时间一直在做NLP的文本分类（二分类）问题，遇到了各种问题。分别如下：1、数据打标问题。运营人手不够可把兄弟们累坏了，是我给兄弟们分的任务，别打我嘿嘿。打标问题主要是业务不熟悉，主观上分类很容易分错，在分类的时候一定要让运营方来确定分类标准。2、数据不平衡问题。T:F为1:10，重新筛选样本以后达到了T:F为1:17。实在是数...

2019-02-23 13:52:13 19290 1

转载算法工程师（机器学习）部分面试题（转载参考）

其他参考：https://www.jianshu.com/p/980efc8105b2?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendationhttps://www.jianshu.com/p/4a7f7127eef1?utm_campaign=male...

2019-01-27 13:32:46 7948

原创 Xgboost参数以及调优

现实工作中遇到了xgboost来做基准，原因主要是由于用它来做预测分类效果很理想。后面做深度学习很难能有比他好的。线上往往还是使用的xgboost训练出来的model！参考：https://blog.csdn.net/han_xiaoyang/article/details/52665396目录优势1、正则化2、并行处理3、高度的灵活性4、缺失值处理5、剪枝6、...

2019-01-27 13:19:07 1789

原创 Keras—猫狗数据集进行卷积（Conv2D）训练以及图像数据增强

数据增强不可以增强验证集和测试集！！# !/user/bin/env python# -*- coding:utf-8 -*-"""@author:MXD@file: 小型数据集训练卷积神经网络.py@time: 2019/01/20 14:36@software: PyCharm"""import os, shutil###将数据分别存到各个文件夹# 原始数据集的...

2019-01-20 16:44:53 2843

原创样本不平衡问题分析与部分解决办法

最近工作中在处理文本分类问题遇到了分类不均衡的问题，主要还是样本太少还同时非常的不均衡正负样本1:10（类别不平衡比例超过4:1，就会造成偏移），就使用了SMOTE方法。注意：在进行数据增广的时候一定要将测试集和验证集单独提前分开，扩张只在训练集上进行，否则会造成在增广的验证集和测试集上进行验证和测试，在实际上线后再真实数据中效果可能会非常的差。目录什么是样本类别分布不均衡？问题描...

2019-01-20 14:11:03 24208 6

转载深度学习中的特征工程——不同数据类型与采用的处理方式

之前关于特征工程的blog：https://blog.csdn.net/qq_33472765/article/details/86422199什么是特征工程？顾名思义，特征工程是一种工程活动，目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据和特征决定了机器学习的上限，算法和模型不过是逼近这个上限。不过深度学习不用像传统机器学习那样人为合成高级复杂特征，只需利用人类的先验知...

2019-01-20 13:48:07 2873

转载大规模文本分类参考（转发）

前几天在网上看到了一个blog关于大规模文本分类的内容，在这里转发保存一下。大规模文本分类实践-知乎看山杯总结原文地址：http://coderskychen.cn/2017/08/20/zhihucup/本文主要介绍了我在知乎看山杯机器学习挑战赛中的一些实验和总结，代码已公开，传送门。阅读本篇大约需要10分钟。尊重原创，转载请注明出处。先晒一发排名，9th，有小遗憾，但是...

2019-01-20 13:43:35 1077

原创 Keras—embedding嵌入层的使用

最近在工作中进行了NLP的内容，使用的还是Keras中embedding的词嵌入来做的。Keras中embedding层做一下介绍。中文文档地址：https://keras.io/zh/layers/embeddings/参数如下：其中参数重点有input_dim,output_dim,非必选参数input_length.初始化方法参数设置后面会单独总结一下。demo...

2019-01-20 13:38:25 21542 6

原创 Keras ：MNIST数字图像识别示例（卷积神经网络）

Keras：MNIST数字图像识别示例 # !/user/bin/env python# -*- coding:utf-8 -*-from keras.datasets import mnistfrom keras.utils import to_categoricalfrom keras import layersfrom keras import models# imp...

2019-01-13 20:07:15 1166

转载 Keras部分源码赏析

Keras 源码分析此文档中，凡代码里用pass，均系省略源码以便阅读，起“本枝百世”之用。此注明者，乃pass非源码所有，勿叫读者疑心不解也。[TOC]Keras 概览我们从一个简单的全连接分类器来看Keras的设计原则和阅读源代码。在Keras的官网上有这样一个简单全连接网络的示例The Sequential model API：import kerasfrom ker...

2019-01-13 18:35:50 4268 5

原创 pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址

pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址参考地址： https://ptorch.com/news/50.html跳转地址：PytorchTorchPytorch视频MatplotlibOpenCV-PythonPytorch0.4Numpy...

2019-01-13 18:19:21 798

转载 Pandas速查手册

原文：https://cloud.tencent.com/developer/article/1094110对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas，建议先看两个网站。（1）官网： P...

2019-01-13 18:11:12 395

原创 Gensim介绍

参考：https://blog.csdn.net/duinodu/article/details/76618638https://www.cnblogs.com/iloveai/p/gensim_tutorial.htmlGensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2...

2019-01-13 18:09:07 2817 1

原创结巴分词参考地址

Git参考：https://github.com/fxsjy/jiebajieba 是一个python实现的中文分词组件，在中文分词界非常出名，支持简、繁体中文，高级用户还可以加入自定义词典以提高分词的准确率。它支持三种分词模式精确模式：试图将句子最精确地切开，适合文本分析；全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式：在精确模式...

2019-01-13 18:02:20 1036

原创 Python读取大文件与内存占用检测（常用的分步调试pdb）

大文件读取问题顺便记录一下vim的配置：https://blog.csdn.net/sinat_33741547/article/details/74781591https://blog.csdn.net/zwbill/article/details/78475705这个很简单但是这里重复写一下，主要是记录一下后面的内存检测和分部调试！！！1.read()与readlines()：...

2019-01-13 17:26:03 1079 1

原创机器学习：伦敦出租车示例（数据分析，数据处理）

原地址：http://ju.outofmemory.cn/entry/299056记得有一个出租车对于数据分析是很好的参考范例。找找转发过来以后参考！在纽约，出租车分为两类：黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区（布朗克斯区、布鲁克林区、曼哈顿、皇后区、斯塔滕岛）内任何地点搭载乘客。绿色出租车(Green TAXI)则被规定只允许在上曼哈顿、布朗克斯区、皇后...

2019-01-13 17:02:45 8595 2

原创特征：什么是特征和特征选择？

机器学习很重要的过程就是特征工程。在深度学习神经网络中需要特征工程吗？理论上是不需要的，基于端到端的特点深度学习神经网络中会在训练中自行的学习特征。但是实际情况中往往和理论中是有些不一样的，在遇到数据量较少和需要减少运算资源的情况下就需要做一下特征工程。后面是正文，关于特征和特征选择的几种方式！在machine learning （机器学习）中，特征工程是重中之重，我们今天就来简单介绍...

2019-01-13 16:54:02 2592

原创 Keras使用分批迭代（fit_generate）的方式训练数据

文章参考：https://blog.csdn.net/lujiandong1/article/details/54869170 说明：我是在keras的官方demo上进行修改https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py1、几点说明，从文件中读入数据，会降低GPU的使用率，如果能够直接将数据载入内存，...

2019-01-06 20:49:39 9317 3

原创 L0、L1与L2范数、核范数分析

L0、L1与L2范数、核范数范数结合参考正则化博客——https://blog.csdn.net/qq_33472765/article/details/85946710参考：https://www.cnblogs.com/MengYan-LongYou/p/4050862.htmlhttps://blog.csdn.net/shijing_0214/article/details/517...

2019-01-06 20:41:46 1015

原创关于keras中使用CPU/GPU的配置（包含tensorboard使用）

参考：keras分批训练指定GPU：https://blog.csdn.net/github_36326955/article/details/79910448 kerasGPU配置:https://blog.csdn.net/sinat_26917383/article/details/75633754GPU参考:https://blog.csdn.net/qq_3642...

2019-01-06 20:36:41 4574 1

转载 [深度学习]更好地理解正则化：可视化模型权重分布

在机器学习中，经常需要对模型进行正则化，以降低模型对数据的过拟合程度，那么究竟如何理解正则化的影响？本文尝试从可视化的角度来解释其影响。首先，正则化通常分为三种,都是在loss函数的基础上外加一项：L0：，即不等于0的元素个数L1：，即所有元素的绝对值之和L2：，即所有元素的绝对值平方和训练模型的时候，模型将在保证loss主体损失下降的情况下，尽量保证权重往这些方向走，从...

2019-01-06 20:05:58 927

原创 pandas中时间序列的处理（获得时间特征：年月日周分秒等时间）

关于描述：在项目中遇到了特征的提取，因为数据的变化和时间有直接的关系，就考虑这个时间能提取出那些特征？我的数据示例：200101010100。年月日时分秒的这个里面提取数据，我很明显可以看出来需要尝试提取：日时分特征参考：https://www.jianshu.com/p/93734eeed9b3获取每周几的时间参考：https://blog.csdn.net/qq_36076233/...

2019-01-06 19:49:47 39189 5

原创机器学习中数据预处理——标准化/归一化方法（scaler）

由于工作问题比较忙，有两周没有总结一下工作学习中遇到的问题。这篇主要是关于机器学习中的数据预处理的scaler变化。工作中遇到的问题是：流量预测问题，拿到的数据差距非常大，凌晨的通话流量很少几乎为0；但是在早上8点以后数据就会激增最高常常是500以上的情况。通常，在Data Science中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明...

2019-01-06 19:32:29 35601 3

原创深度学习VS机器学习——到底什么区别

深度学习VS机器学习——到底什么区别看过很多关于这些区别的文章，无意中看到了这个这个文章，决定转发一下作为科普！自己看的书上也有很清楚的解释和区别，懒得写了！只写个大概：1.数据集大小。2.特征工程在机器学习中需要大量的工作量来处理但是深度学习这个过程可以完全自动化。3.深度学习可以解决问题的范围更大更复杂。等等于是Google了一下，发现一篇很棒的科普文，这里翻译一下，分享给大家...

2018-12-23 21:29:53 650

原创时序数据的分析

最近工作中遇到了时序预测问题，查询了部分博客找到部分特征工程的处理过程，感觉还可以分享一下：参考地址：https://www.cnblogs.com/bradleon/p/6832867.html原始数据的检测（波动，平稳性，周期，方差等）和时间序列的预测代码参考：https://blog.csdn.net/qq_33472765/article/details/85226361时间序...

2018-12-23 21:20:51 11668

原创时间序列的分析及滚动预测代码

注意：参考地址http://www.cnblogs.com/foley/p/5582358.html部分代码可能因为版本问题出现bug！什么是时间序列时间序列简单的说就是各时间点上形成的数值序列，时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是，时间序列分析并不是关于时间的回归，它主要是研究自身的变化规律的（这里不考虑含外生变量的时间序列）。为什么...

2018-12-23 21:19:02 27875 6

原创数据的平滑处理函数——log1p和exmp1

参考： https://blog.csdn.net/qq_36523839/article/details/82422865 https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.log1p.html数据平滑处理 -- log1p( ) 和 exmp1( )1. 数据预处理时首先可以对偏度...

2018-12-08 21:17:35 4068

原创 Numpy大纲——函数，属性，运算等

　　NumPy是高性能科学计算和数据分析的基础包。部分功能如下： ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及傅里叶变换功能。用于集成C、C++、Fortran等语言编写的代码的工具。　　首...

2018-12-08 21:09:23 369

原创 Python之Numpy数组拼接--组合--连接--切分--变形(stack,hstack,vstack,dstack,vsplit,concatenate等)

Python之Numpy数组拼接，组合，连接转自：https://www.douban.com/note/518335786/?type=likestack()，hstack()，vstack() dstack() vsplit()、concatenate()参考（推荐）：https://blog.csdn.net/csdn15698845876/article/details/73...

2018-12-08 20:55:39 2304

原创基于卷积的神经网络的时间序列预测——WaveNet

基于卷积的神经网络的时间序列预测——WaveNet原文博客的参考地址：https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_conv/项目参考地址：https://github.com/JEddy92/TimeSeries_Seq2Seq/blob/master/notebooks/TS_Seq2Seq_Conv_Intro.ipyn...

2018-12-02 16:19:38 24160 3

原创 numpy和pandas简单快速入门

由于部分代码需要和数据文件配合，将项目和文件个人的GitHub——地址：https://github.com/1769172502/machine-learning 关于numpy参考菜鸟地址：http://www.runoob.com/numpy/numpy-tutorial.html关于pandas参考地址：https://blog.csdn.net/jiangjiang_jian...

2018-12-02 15:42:51 849

原创 Python3 configparse模块（配置）

Python3 configparse模块（配置）参考：https://www.cnblogs.com/bert227/p/9326313.html https://www.cnblogs.com/dion-90/p/7978081.htmlpython2： https://blog.csdn.net/zhouzhiwengang/article/details/723...

2018-12-02 14:44:28 796

timeseriesSeq2Seq_cove_info数据集

scrapy分布式爬虫（爬虫项目与总结资料）

Python代理ip（代理池）

禅道、Gitlab的安装

Python安装scrapy框架的twisted文件（twisted.rar，Twisted-17.9.0.dist-info.rar）

空空如也