小飞猪666-CSDN博客

原创 Mac 安装 nginx

Mac 安装 brewhttps://blog.csdn.net/zbc415766331/article/details/104128351/确认homebrew是否安装成功，在终端输入：brew -v安装nginx，在终端输入：brew install brew检查nginx是否安装成功，在终端输入：brew -v启动nginx，在终端输入：brew services start nginx检查nginx是否启动成功，在浏览器输入：localhost:80

2020-06-18 08:36:22 285

原创 Linux服务器环境部署搭建

一、安装git1. 下载githttps://github.com/git/git/archive/v2.23.0.tar.gz2. 解压下载好的安装包tar -zxvfv2.23.0.tar.gz3.安装编译源码所需依赖，以上安装依赖时，出现提示按‘y’即可yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker4.进入解...

2020-06-16 22:40:24 311

转载 Python3 网络爬虫

https://cuijiahua.com/blog/2020/04/spider-6.html

2020-06-16 00:22:01 281

原创 pandas指南-6.数据重命名和合并

目录重命名合并我们还是先来加载一下数据import pandas as pdpd.set_option('max_rows', 5)import numpy as npmelbourne_data = pd.read_csv('melb_data.csv') melbourne_data.head()重命名通常，数据将通过列名，索引名或我们不满意的其他命名约定来获取。在这种情况下，我们可能会使用pandas重命名实用程序函数来更改有问题的条目的名称。我们在这里介绍的第

2020-06-16 00:04:00 2316

原创 pandas指南-5.数据类型和缺失值

目录数据类型缺失数据我们还是先来加载一下数据import pandas as pdpd.set_option('max_rows', 5)import numpy as npmelbourne_data = pd.read_csv('melb_data.csv') melbourne_data.head()数据类型DataFrame或Series中列的数据类型称为dtype。你可以使用dtype属性来获取特定列的类型：melbourne_data.Price.dt

2020-06-15 14:39:22 577

原创 pandas指南-4.数据分组聚合和排序

目录数据分组聚合和排序多索引排序数据分组聚合和排序分组聚合非常重要，它在官方pandas文档中有自己的部分：Groupby：split-apply-combine。import pandas as pdpd.set_option('max_rows', 5)import numpy as npmelbourne_data = pd.read_csv('melb_data.csv') melbourne_data.head()映射map允许我们一次为整个列转换DataFr

2020-06-15 00:05:09 3731

原创 pandas指南-3.数据摘要与映射

数据摘要与映射import pandas as pdpd.set_option('max_rows', 5)import numpy as npmelbourne_data = pd.read_csv('melb_data.csv') melbourne_data.head()摘要功能pandas提供了许多简单的“汇总函数”（不是正式名称），它以某种有用的方式重构数据。例如，考虑describe方法：melbourne_data.Price.describe()此.

2020-06-14 01:26:05 444

原创 pandas指南-2.数据索引，选择与赋

索引，选择与赋值选择要处理的pandas DataFrame或Series的特定值几乎是你将研究的任何数据操作中的隐式步骤。因此，对如何切分数据集的充分理解至关重要。在这个案例里，我们将查看澳大利亚墨尔本的房价数据。点击这里下载数据集我们将使用read_csv函数将数据读入DataFrame。这样做：import pandas as pdmelbourne_data = pd.read_csv('melb_data.csv') pd.set_option("display.

2020-06-12 14:26:20 461

原创 pandas指南-1.数据创建与读写

数据创建，读写指南任何数据分析项目的第一步都可能是从某个文件中读取数据，因此我们需要首先考虑这一点。在本节中，我们将介绍有关创建pandas Series和DataFrame对象的练习官方pandas文档的IO Tools部分提供了有关此主题的全面概述首先我们来导入pandas库import pandas as pd创建数据 pandas中有两个核心对象：DataFrame和Series。DataFrame是一个表。它包含一系列单独的条目，每个条目都有一定的值。每个条目对应一

2020-06-12 00:04:16 330

原创 mysql5.7 解决中文乱吗问题

cat /etc/my.cnfvi/etc/my.cnf

2020-05-25 14:16:32 247

原创机器学习实战——kaggle 泰坦尼克号生存预测——六种算法模型实现与比较

一、初识 kagglekaggle是一个非常适合初学者去实操实战技能的一个网站，它可以根据你做的项目来评估你的得分和排名。让你对自己的能力有更清楚的了解，当然，在这个网站上，也有很多项目的教程，可以跟着教程走，慢慢熟悉各种操作。在平时的学习中，我们了解到的知识更多的是理论，缺少一个实战的平台，项目的练习。我对kaggle的了解也是基于实战的需要，想做一些项目来巩固我的认知，发现更多有用的技能。kaggle 竞赛，里面有很多项目，对熟悉数据处理与学习各种算法帮助很大。二、项目介绍完整代码见k.

2020-05-24 15:08:57 14835 9

原创深度学习（五）序列模型-循环神经网络（RNN）（3） -Andrew Ng

一、基础知识1.1二、测验三、编程

2020-05-14 11:09:06 1159

原创深度学习（五）序列模型-循环神经网络（RNN）（2） -Andrew Ng

一、基础知识1.1 单词表征（one-hot表示）上节我们学习了RNN、GRU单元和LSTM单元。本节你会看到我们如何把这些知识用到NLP上，用于自然语言处理，深度学习已经给这一领域带来了革命性的变革。其中一个很关键的概念就是词嵌入（word embeddings），这是语言表示的一种方式，可以让算法自动的理解一些类似的词，比如男人对女人，比如国王对王后，还有其他很多的例子。通过词嵌入的概念你就可以构建NLP应用了，即使你的模型标记的训练集相对较小。最后我们会消除词嵌入的偏差，就是去除不想要的特性，

2020-05-13 12:40:32 1357

原创深度学习（五）序列模型-循环神经网络（RNN）（1） -Andrew Ng

一、基础知识1.1 为什么选择序列模型？序列模型能够应用在许多领域，例如：语音识别音乐发生器情感分类 DNA序列分析机器翻译视频动作识别命名实体识别这些序列模型基本都属于监督式学习，输入x和输出y不一定都是序列模型。如果都是序列模型的话，模型长度不一定完全一致。...

2020-05-07 23:20:55 1690

原创深度学习（四）卷积神经网络-人脸识别和神经风格转换（4） -Andrew Ng

一、基础知识1.1什么是人脸识别？首先简单介绍一下人脸验证（face verification）和人脸识别（face recognition）的区别。人脸验证：输入一张人脸图片，验证输出与模板是否为同一人，即一对一问题。人脸识别：输入一张人脸图片，验证输出是否为K个模板中的某一个，即一对多问题。一般地，人脸识别比人脸验证更难一些。因为假设人脸验证系统的错误率是1%，那么在人脸...

2020-05-07 00:29:52 1686

原创深度学习（四）卷积神经网络-卷积神经网络（3） -Andrew Ng

一、基础知识1.1目标定位前两节课程中，我们介绍的是利用CNN模型进行图像分类。除此之外，本周课程将继续深入介绍目标定位和目标检测（包含多目标检测）。图片分类问题你已经并不陌生了，如：输入一张图片到多层卷积神经网络。这就是卷积神经网络，它会输出一个特征向量，并反馈给 softmax 单元来预测图片类...

2020-04-28 23:50:40 1637

原创深度学习（四）卷积神经网络-卷积神经网络（2） -Andrew Ng

一、基础知识1.1为什么要进行实例探究?本文将主要介绍几个典型的CNN案例。通过对具体CNN模型及案例的研究，来帮助我们理解知识并训练实际的模型。典型的CNN模型包括： LeNet-5 AlexNet VGG 除了这些性能良好的CNN模型之外，我们还会介绍Residual Network（ResNet）。其特点是可以构建很深很深的神经网络（目前最深的好像...

2020-04-27 11:19:32 4281

转载深度学习-np.pad 填充详解

参考博客：https://blog.csdn.net/weixin_43619146/article/details/89600078大家伙在学习深度学习的卷积网络里有一个填充的问题是难免遇到的所以np给了pad（）这个函数来实现填充但是多维度（大多数情况下是三维的）的pad函数却很难理解博主就稍微写一点自己的理解试图帮助大家理解不喜勿喷谢谢！对一维数组的填充import...

2020-04-20 23:58:20 2441 1

原创深度学习（四）卷积神经网络-卷积神经网络（1） -Andrew Ng

一、基础知识1.1 计算机视觉计算机视觉是一个飞速发展的一个领域，这多亏了深度学习。深度学习与计算机视觉可以帮助汽车，查明周围的行人和汽车，并帮助汽车避开它们。还使得人脸识别技术变得更加效率和精准，你们即将能够体验到或早已体验过仅仅通过刷脸就能解锁手机或者门锁。当你解锁了手机，我猜手机上一定有很多分享图片的应用。在上面，你能看到美食，酒店或美丽风景的图片。有些公司在这些应用上使用了深...

2020-04-20 00:00:46 6707

原创深度学习（二）改善深层神经网络:超参数调试、正则化以及优化-（超参数调试、Batch正则化和程序框架及课后作业） -Andrew Ng

一、基础知识1.1调试处理关于训练深度最难的事情之一是你要处理的参数的数量，从学习速率???? 到Momentum（动量梯度下降法）的参数????。如果使用Momentum或Adam优化算法的参数????1，????2和????，也许你还得选择层数，也许你还得选择不同层中隐藏单元的数量，也许你还想使用学习率衰减。所以，你使用的不是单一的学习率????，当然你可能还需要选择mini-batch的大小。结果证实一些...

2020-04-18 00:24:59 2128

原创深度学习（二）改善深层神经网络:超参数调试、正则化以及优化-优化算法及课后作业 -Andrew Ng

fff

2020-04-16 10:28:11 2128

原创深度学习（二）改善深层神经网络:超参数调试、正则化以及优化-实用层面以及课后作业 -Andrew Ng

课后测验1. 如果你有10,000,000个例子，你会如何划分训练/开发/测试集？训练集占98% ，开发集占1% ，测试集占1% 。2. 开发和测试集应该：来自同一分布。3. 如果你的神经网络模型似乎有很高的方差，下列哪个尝试是可能解决问题的？添加正则化，获取更多的训练数据。4. 你在一家超市的自动结帐亭工作，正在为苹果，香蕉和橘子制作分类器。假设您的分类器在...

2020-04-14 18:29:35 2111

原创深度学习（三）结构化机器学习项目-机器学习策略2 -Andrew Ng

一、机器学习策略(2)1.1 进行误差分析如果你希望让学习算法能够胜任人类能做的任务，但你的学习算法还没有达到人类的表现，那么人工检查一下你的算法犯的错误也许可以让你了解接下来应该做什么。这个过程称为错误分析，我们从一个例子开始讲吧。假设你正在调试猫分类器，然后你取得了90%准确率，相当于10%错误，，在你的开发集上做到这样，这离你希望的目标还有很远。也许你...

2020-04-07 00:02:07 786

原创深度学习（三）结构化机器学习项目-机器学习策略1 -Andrew Ng

一、机器学习策略（1）1、1 什么是机器学习策略我们从一个启发性的例子开始讲，假设你正在调试你的猫分类器，经过一段时间的调整，你的系统达到了 90%准确率，但对你的应用程序来说还不够好。你可能有很多想法去改善你的系统，比如，你可能想我们去收集更多的训练数据吧。或者你会说，可能你的训练集的多样性还不够，你应该收集更多不同姿势的猫咪图片，或者更多样化的反例集。...

2020-04-06 15:08:22 954

原创深度学习Python (三）使用Python实现简单的神经网络

一、搭建基本模块—神经元在说神经网络之前，我们讨论一下神经元（Neurons），它是神经网络的基本单元。神经元先获得输入，然后执行某些数学运算后，再产生一个输出。在这个神经元里，输入总共经历了3步数学运算，先将输入乘以权重（weight）：x1→x1∗w1x2→x2∗w2(x1∗w1)+(...

2020-03-31 12:25:17 4244 1

转载深度学习笔记目录大全（吴恩达）

https://blog.csdn.net/red_stone1/article/details/80207815第一周：深度学习引言(Introduction to Deep Learning)1.1 欢迎(Welcome)1.2 什么是神经网络？(What is a Neural Network)1.3 神经网络的监督学习(Supervised Learning with Ne...

2020-03-27 22:11:29 1035

原创深度学习Python (二) pytorch、Keras、TensorFlow之间的区别

一、Keras、TensorFlow关系TensorFlow是最著名的用于深度学习生产环境的框架。它有一个非常大非常棒的社区。然而，TensorFlow的使用不那么简单。另一方面，Keras是在TensorFlow基础上构建的高层API，比TF（TensorFlow的缩写）要易用很多。Keras的底层库使用Theano或TensorFlow，这两个库也称为Keras的后端。无论是Thean...

2020-03-26 23:09:53 5890

原创深度学习Python (一) 使用Colaboratory的免费GPU训练神经网络

一、使用Colaboratory的免费GPU训练神经网络1 Colaboratory 介绍Colaboratory 是一个 Google 研究项目，旨在帮助传播机器学习培训和研究成果。它是一个 Jupyter 笔记本环境，不需要进行任何设置就可以使用，并且完全在云端运行。2 搭建 Colaboratory打开谷歌，使用邮箱登陆你的 Google 账号。（没有帐号的使用邮箱注册一...

2020-03-26 18:53:04 721 1

原创机器学习实战（十一）使用FP-growth算法来高效发现频繁项集

一、前言上次提到可以用Apriori算法来提取频繁项集，但是Apriori算法有个致命的缺点，那就是它对每个潜在的频繁项集都需要扫描数据集判定其是否频繁，因而在时间消耗上是巨大的。据说在实际应用上一般都不用Apriori算法。 FP算法的核心就是将数据集存储在一个特定的称作FP树的结构当中。构建完FP树之后，就可以递归地在FP树上挖掘频繁项集。FP-growth算法只...

2020-03-25 20:07:59 211

原创机器学习实战（十）Apriori算法进行关联分析

一、前言在去杂货店买东西的过程，实际包含了许多机器学习的当前及未来应用，这包括物品的展示方式、购物之后优惠券的提供以及用户忠诚度计划，等等。它们都离不开对大量数据的分析。通过查看哪些商品经常在一起购买，可以帮助商店了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品定价、市场促销、存货管理等环节。从大规模数据集中寻找物品间的隐含关系被称作关联分析(associa...

2020-03-22 00:19:39 1402

原创机器学习实战（九）K均值聚类算法

一、引言先说个K-means算法很高大上的用处，来开始新的算法学习。我们都知道每一届的美国总统大选，那叫一个竞争激烈。可以说，谁拿到了各个州尽可能多的选票，谁选举获胜的几率就会非常大。有人会说，这跟K-means算法有什么关系？当然，如果哪一届的总统竞选，某一位候选人是绝对的众望所归，那自然能以压倒性优势竞选成功，那么我们的k-means算法还真用不上。但是，我们应该知道2004年...

2020-03-19 20:39:52 2181 1

原创机器学习实战（八）02-树回归基础篇之树模型

一、模型树在回归树的基础上，叶子节点是常数值，如果这些叶子结点设定为分段线性函数，这里的所谓的分段线性是指模型有多个线性片段组成。该算法的关键在于误差的计算：怎么找到最佳切分点，应该怎样计算误差，首先对于给定的数据集，应该先用线性的模型对它拟合，然后计算真实目标值和模型预测值的差值，最后将这些差值的平方和得到所需的误差。注：线性回归（最小二乘）通过最小化平方误差，求解回归系数w。即平方误...

2020-03-19 13:12:51 1321

原创 Python 切片

列表的切片操作切片操作不是列表特有的，python中的有序序列都支持切片，如字符串，元组。切片的返回结果类型和切片对象类型一致，返回的是切片对象的子序列，如：对一个列表切片返回一个列表，字符串切片返回字符串。切片生成的子序列元素是源版的拷贝。因此切片是一种浅拷贝。 li=["A","B","C","D"] 格式： li[start : ...

2020-03-16 15:53:31 192

转载机器学习实战（八）01-树回归基础篇之CART算法与树剪枝

一、前言本篇文章将会讲解CART算法的实现和树的剪枝方法，通过测试不同的数据集，学习CART算法和树剪枝技术。二、将CART（Classification And Regression Trees）算法用于回归在之前的文章，我们学习了决策树的原理和代码实现，使用使用决策树进行分类。决策树不断将数据切分成小数据集，直到所有目标标量完全相同，或者数据不能再切分为止。决策树是一种贪心算法，它...

2020-03-15 23:50:35 541

原创 ELK6.5.1 版本 (Logstash＋Elasticsearch＋Kibana+filebeat)的原理和详细搭建

前言、Elastic Stack　　Elastic Stack是ELK的官方称呼，网址：https://www.elastic.co/cn/products ，其作用是“构建在开源基础之上, Elastic Stack 让您能够安全可靠地获取任何来源、任何格式的数据，并且能够实时地对数据进行搜索、分析和可视化。”它主要包括三个元件：Beats +Logstash：采集任何格式，任何...

2020-03-13 16:40:57 706

原创 ELK6.2.2 版本 (Logstash＋Elasticsearch＋Kibana+filebeat)的原理和详细搭建

Linux环境CentOS6.9安装配置Elasticsearch6.2.2最全详细教程前言操作系统版本：CentOS6.9 64位（CentOS7及其他Linux系统都没有问题）Elasticsearch版本：6.2.2这里默认你已经安装配置好了JDK1.8，如果没有的话请自行安装配置注意，如无特殊说明以下操作都是在root用户下操作的（一开始的时候搞大数据，都是用普通用户+sudo...

2020-03-12 18:58:22 1615

转载机器学习实战（七）02-线性回归提高篇之乐高玩具套件二手价预测

https://blog.csdn.net/c406495762/article/details/82967529

2020-03-01 20:42:38 599

转载机器学习实战（七）01-线性回归基础篇之预测鲍鱼年龄

一前言前面的文章介绍了很多分类算法，分类的目标变量是标称型数据，而本文将会对连续型的数据做出预测。主要讲解简单的线性回归和局部加权线性回归，并通过预测鲍鱼年龄的实例进行实战演练。二什么是回归？回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。假如你想预测小姐姐男友汽车的功率，可能会这么计算：HorsePower = 0.0015 * annualS...

2020-03-01 20:18:02 3126

原创大数据Hive和Impala经典分析

一、Impala是什么？？？ Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。 Im...

2020-02-29 17:05:13 1579

原创大数据CDH(ClouderaManager)使用Oozie进行任务的可视化调度

一、创建workFlowWorkFlow创建的方式很多种，创建完成后进行保存操作。二、给WorkFlow添加定时任务1、选择要添加定时任务的workflow名称2、添加任务执行的频率和 linux 的crontab类似3、设置时间区域4、设置定时任务开始和结束执行的时间 Note：如果设置的时间比当前时间小会重新执行以前的数据，否则等到...

2020-02-28 15:04:16 2008

oozie调度脚本.docx

空空如也