沫嫣子-CSDN博客

转载特征工程(七)：图像特征提取和深度学习

来源：https://mp.weixin.qq.com/s/pZWKECYyvLlkB-Qt8wi0fw视觉和声音是人类固有的感觉输入。我们的大脑是可以迅速进化我们的能力来处理视觉和听觉信号的，一些系统甚至在出生前就对刺激做出反应。另一方面，语言技能是学习得来的。他们需要几个月或几年的时间来掌握。许多人天生就具有视力和听力的天赋，但是我们所有人都必须有意训练我们的大脑去理解和使用语言。有趣的是，机器学习的情况是相反的。我们已经在文本分析应用方面取得了比图像或音频更多的进展。以搜索问题为例。人们.

2020-05-28 17:00:55 9344

转载特征工程(六): 非线性特征提取和模型堆叠

来源：https://mp.weixin.qq.com/s/vEWP-xej_aEcyu_9dy5XwQ当在数据一个线性子空间像扁平饼时 PCA 是非常有用的。但是如果数据形成更复杂的形状呢？一个平面（线性子空间）可以推广到一个流形（非线性子空间），它可以被认为是一个被各种拉伸和滚动的表面。如果线性子空间是平的纸张，那么卷起的纸张就是非线性流形的例子。你也可以叫它瑞士卷。（见图 7-1），一旦滚动，二维平面就会变为三维的。然而，它本质上仍是一个二维物体。换句话说，它具有低的内在维度，这是我...

2020-05-28 16:56:41 903

转载特征工程(五): PCA 降维

来源：https://mp.weixin.qq.com/s/Zdb_fIb5-zpvq4sTeu3Dww通过自动数据收集和特征生成技术，可以快速获得大量特征，但并非所有这些都有用。我们前面讨论了基于频率的滤波和特征缩放修剪无信息的特征。现在我们来仔细讨论一下使用主成分分析（PCA）进行数据降维。本章标志着进入基于模型的特征工程技术。在这之前，大多数技术可以在不参考数据的情况下定义。对于实例中，基于频率的过滤可能会说“删除所有小于n的计数“，这个程序可以在没有进一步输入的情况下进行数据本身。另.

2020-05-28 16:54:47 811

转载特征工程(四): 类别特征

来源：https://mp.weixin.qq.com/s/Ub-bnil-DvMFNB4np3nOhQ一个类别特征，见名思义，就是用来表达一种类别或标签。比如，一个类别特征能够表达世界上的主要城市，一年四季，或者说一个公司的产品(石油、路程、技术)。在真实世界的数据集中，类别值的数量总是无限的。同时这些值一般可以用数值来表示。但是，与其他数值变量不一样的是，类别特征的数值变量无法与其他数值变量进行比较大小。(作为行业类型，石油与旅行无法进行比较)它们被称之为非序的。一个简单的问题可以作为测试.

2020-05-28 16:51:37 1222

转载特征工程(三):特征缩放,从词袋到 TF-IDF

来源：https://mp.weixin.qq.com/s/vyJSH3bYTi8B9UOnzzhftw字袋易于生成，但远非完美。假设我们平等的统计所有单词，有些不需要的词也会被强调。在第三章提过一个例子，Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中，“Eama”和“raven”都出现了3词，但是“the”的出现高达8次，“and”出现了次，另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计，两个主要角色并不突出。这是有问题的。其他的像是“mag

2020-05-28 16:35:14 389

转载特征工程(二) :文本数据的展开、过滤和分块

https://mp.weixin.qq.com/s/4WobY9h8A3OOm0VdmFQj6g如果让你来设计一个算法来分析以下段落，你会怎么做？Emma knocked on the door. No answer. She knocked again and waited. There was a large maple tree next to the house. Emma looked up the tree and saw a giant raven perched at the tr

2020-05-28 16:32:32 405

原创特征工程（一）数据预处理

1、二值化当某个特征数据分布偏态明显时（如下图：99%的数据为24以内，最大值达到9667），将数据做二值化处理，如：将小于1的数据记为0，将大于1的数据记为1。2、固定宽度装箱对于固定宽度装箱, 每个 bin 都包含一个特定的数值范围。范围可以是定制设计或自动分割, 它们可以线性缩放或指数缩放。例如, 我们可以将一个人的年龄分组为十年: 0-9 岁归纳到bin 1, 10-19 年归纳到 bin 2 等。要从计数映射到 bin, 只需除以 bin 的宽度并取整部分。也经常看到定制设计的

2020-05-28 16:27:47 779

原创 anaconda如何更新TensorFlow版本

打开anaconda自带的命令行窗口查看当前版本pythonimport tensorflow as tfprint(tf.version.VERSION)# 退出Pythonexit()卸载当前的版本pip uninstall tensorflow安装tensorflow2pip install tensorflow==2.0.0

2020-05-17 22:32:58 6535

原创 TF Girls——总结（20）

GitHub：https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial/blob/master/Season1/20/load.py### load.py# encoding:utf-8# Python2 兼容from __future__ import print_function, divisionfrom scipy.io import loadmat as loadimport m.

2020-05-12 16:04:11 178

原创 TF Girls——模型调优（16-19）

GitHub：https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial/tree/master/Season1/16-19本文内容：Regularization Dropout follow the Gradient与优化学习率衰减### load.py# encoding:utf-8# Python2 兼容from __future__ import print_function, .

2020-05-12 15:50:02 415

原创 TF Girls——卷积神经网络（12-15）

github:https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial/tree/master/Season1/12-15视频：https://space.bilibili.com/16696495/channel/detail?cid=1588<<<<<<< HEAD 关于卷积神经网络的理论知识，请一定阅读 cs231n 的课件。虽然是英文的，但是内容浅显易读，又不.

2020-05-12 15:30:50 203

原创 TF Girls——TensorBoard可视化（10-11）

数据下载：http://ufldl.stanford.edu/housenumbers/load.py# encoding:utf-8# Python2 兼容from __future__ import print_function, divisionfrom scipy.io import loadmat as loadimport matplotlib.pyplot as pltimport numpy as npdef reformat(samples, labe

2020-05-12 15:12:35 114

原创 TF Girls——神经网络（7-9）

GitHub：https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial/tree/master/Season1/7-9本文内容：神经网络dp.pyfrom __future__ import print_function, divisionimport tensorflow as tffrom sklearn.metrics import confusion_matriximport nu.

2020-05-12 14:58:25 146

原创 TF Girls——数据探索（4-6)

本文内容：4、机器学习5、数据预处理6、数据分布#《TF Girls 修炼指南》第四期# 正式开始机器学习# 首先我们要确定一个目标: 图像识别# 我这里就用Udacity Deep Learning的作业作为辅助了# 1. 下载数据 http://ufldl.stanford.edu/housenumbers/# 2. 探索数据# 3. 处理数据# 4. 构建一个基本网络, 基本的概念+代码， TensorFlow的世界...

2020-05-12 14:40:43 124

原创 TF Girls——tensorflow基本使用

视频：https://space.bilibili.com/16696495/channel/detail?cid=1588github:https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial/blob/master/Season2/1%20Word2Vec/word2vec_tf.py# encoding: utf-8# 为了 Python3 的兼容，如果你用的 Python2.7from ..

2020-05-12 14:36:02 217

原创 TF Girls——Work2vec

视频：https://space.bilibili.com/16696495/channel/detail?cid=1588github:https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial/blob/master/Season2/1%20Word2Vec/word2vec_tf.py# Copyright 2015 The TensorFlow Authors. All Rights Reserved.#

2020-05-11 22:07:34 176

转载 hive支持sql大全（1-3:关系运算/数学运算/逻辑运算）

一、关系运算：1.等值比较: = 语法：A=B 操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE 举例： hive>select 1 from lxw_dual where 1=1; 12.不等值比较: <&...

2019-05-16 11:46:04 2379

转载协同过滤推荐算法：UserCF、ItemCF

目录一、协同过滤算法二、基于邻域的算法：UserCF、ItemCF三、UserCF、ItemCF的改进一、协同过滤推荐算法协同过滤算法是指基于用户行为数据设计的推荐算法，主要包括：1.基于邻域的算法：UserCF（基于用户的协同过滤算法）、ItemCF（基于物品的协同过滤算法）2.隐语义模型：LFM3.基于图的随机游走算法：PersonalRank本文主要讲解基于...

2019-05-04 22:18:39 1153

翻译 np.dot()详细说明，通俗易懂

首先，这是官方对该函数的解释https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html#numpy.dot需要明确的是，np.dot()函数不光只进行2-D矩阵运算。np.dot(a,b) a,b 是1-D 向量这时计算np.dot(）则是向量内积，还应该注意，不止array格式可以进行运算，list...

2019-05-04 10:32:45 1027

转载 np.linalg.norm(求范数)

2019-05-04 10:29:07 232

原创推荐系统学习

https://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6340129.htmlhttps://zhuanlan.zhihu.com/p/59528983https://zhuanlan.zhihu.com/p/45679290https://zhuanlan.zhihu.com/p/58160982https://zhuanlan.z...

2019-03-30 23:49:33 148

转载 FM算法及FFM算法

转自：http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.htmlhttp://blog.csdn.net/google19890102/article/details/45532745https://www.cnblogs.com/ljygoodgoodstudydaydayup/p/634...

2019-03-30 18:08:49 743

转载 hive之collect_list/collect_set

Hive中collect相关的函数有collect_list和collect_set。它们都是将分组中的某列转为一个数组返回，不同的是collect_list不去重而collect_set去重。做简单的实验加深理解，创建一张实验用表，存放用户每天点播视频的记录： 1 2 3 4 5 create table t_visi...

2019-03-27 10:53:07 242

转载局部线性嵌入(LLE)原理总结

https://www.cnblogs.com/pinard/p/6266408.html局部线性嵌入(Locally Linear Embedding，以下简称LLE)也是非常重要的降维方法。和传统的PCA，LDA等关注样本方差的降维方法相比，LLE关注于降维时保持样本局部的线性特征，由于LLE在降维时保持了样本的局部特征，它广泛的用于图像图像识别，高维数据可视化等领域。下面我们就对L...

2019-03-21 15:21:20 1024

转载从SNE到t-SNE再到LargeVis

0x00 前言本文谢绝转载，如有需要请联系bindog###outlook.com，###换成@数据可视化是大数据领域非常倚重的一项技术，但由于业内浮躁的大环境影响，这项技术的地位渐渐有些尴尬。尤其是在诸如态势感知、威胁情报等应用中，简陋的可视化效果太丑，过于华丽的可视化效果只能忽悠忽悠外行，而给内行的感觉就是刻意为之、华而不实。曾几何时，可视化技术不过是一种数据分析的手段罢了。惭愧的...

2019-03-19 18:57:58 961

原创 hadoop 、hive入门（Windows环境）

下载安装教程https://www.cnblogs.com/yifengjianbai/p/8258898.html环境配置问题教程https://blog.csdn.net/ITBigGod/article/details/81051157hive语言教程易百教程https://www.yiibai.com/hive/hive_installation.html小象学院《...

2019-03-15 16:53:31 943

转载不平衡学习（Imbalanced learning）

数据不平衡在很多真实场景下，数据集往往是不平衡的。也就是说，在数据集中，有一类含有的数据要远远多于其他类的数据（类别分布不平衡）。在这里，我们主要介绍二分类中的类别不平衡问题，对于多类别的不平衡只做简单的介绍。考虑一个简单的例子，假设我们有一个关于医院患者的数据集（里面包含很多患者的图片），我们把其中患有癌症的病人标记为正例，把健康的患者标记为负例。众所周知，健康的人的数量肯定远远大于癌症患...

2019-03-14 11:30:11 786

原创 AUC的本质

AUC的本质：一个正例，一个负例，预测为正的概率值比预测为负的概率值还要大的可能性。理解二分类的准确率为100%那么你就可以找到一个很好的阈值，将这两类分割开则正类的预测概率永远比负类的大也就是AUC=1你想一下，如果这个可能性为100%的话你计算出来的正样本的这个值（概率）比负样本（概率）大的可能性（其实也是概率）这里是说给你一个正样本和一个负样本就是我们比如logist...

2019-03-14 10:19:42 1675

转载 L1正则化与L2正则化的理解

1. 为什么要使用正则化我们先回顾一下房价预测的例子。以下是使用多项式回归来拟合房价预测的数据：可以看出，左图拟合较为合适，而右图过拟合。如果想要解决右图中的过拟合问题，需要能够使得x3，x4x3，x4的参数θ3，θ4θ3，θ4尽量满足θ3≈0，θ4≈0θ3≈0，θ4≈0。而如何使得θ3,θ4θ3,θ4尽可能接近00呢？那就是对参数施一惩罚项。我们...

2019-03-13 16:36:14 437

转载 scikit-learn 梯度提升树(GBDT)调参小结

转：http://www.cnblogs.com/pinard/p/6143927.html　　　在梯度提升树(GBDT)原理小结中，我们对GBDT的原理做了总结，本文我们就从scikit-learn里GBDT的类库使用方法作一个总结，主要会关注调参中的一些要点。1.scikit-learn GBDT类库概述　　　　在sacikit-learn中，GradientBoostin...

2019-03-12 17:15:27 159

原创使用SVM模型进行分类预测时的参数调整技巧

SVM是一种在小样本低维度下比较适用的非线性建模方法，相对比其他常用的算法（比如决策树），模型根据调参的好坏所表现的性能波动非常大。当我们决定使用SVM模型，模型的效果非常差，甚至还不如传统的线性模型的时候，很有可能使我们设置的参数范围不合理。数据分析以下是一些个人的调参经验：一：如何判断调参范围是否合理正常来说，当我们参数在合理范围时，模型在训练集和测试集的准确率都比较高；当模型在训练...

2019-03-12 16:43:45 7583

转载 SVM 的核函数选择和调参

2019-03-12 16:03:47 4838

转载随机森林如何评估特征重要性

序集成学习模型的一大特点是可以输出特征重要性，特征重要性能够在一定程度上辅助我们对特征进行筛选，从而使得模型的鲁棒性更好。随机森林中进行特征重要性的评估思想为：判断每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。RF评估特征重要性--基于基尼指数基尼指数计算方法：k 代表 k 个类别...

2019-03-11 11:56:33 8998

原创互联网数据分析指标CPC、MAU、DAU....

DAU: daily active user，日活跃用户数量MAU:月活跃用户量ARPU: (Average Revenue Per User)即每用户平均收入，用于衡量电信运营商和互联网公司业务收入的指标。KPI:关键绩效指标法，是企业绩效考核的方法之一，其特点是考核指标围绕关键成果领域进行选取MOU:平均每户每月通话时间(minutesof usage)OTT: “...

2019-03-06 21:36:56 4434

转载 Mysql操作索引FORCE INDEX完整知识点：

1.创建索引索引的创建可以在CREATE TABLE语句中进行，也可以单独用CREATE INDEX或ALTER TABLE来给表增加索引。以下命令语句分别提示了如何创建主键索引（PRIMARY KEY），联合索引（UNIQUE）和普通索引（INDEX）的方法。mysql>ALTER TABLE `table_name` ADD INDEX `index_name` (column ...

2019-03-06 14:34:37 357

转载 mysql 日志滚动

日志滚动解决日志文件过大问题，比如我开启了general_log，这个日志呢是记录mysql服务器上面所运行的所有sql语句；比如我开启了mysql的慢查询。1，查看一开log情况查看复制打印?mysql>showglobalvariableslike'%log%'; +---------------------------------+-------------...

2019-03-05 14:09:58 538

转载 mysql分表，分区的区别和联系

一，什么是mysql分表，分区什么是分表，从表面意思上看呢，就是把一张表分成N多个小表，具体请看mysql分表的3种方法什么是分区，分区呢就是把一张表的数据分成N多个区块，这些区块可以在同一个磁盘上，也可以在不同的磁盘上，具体请参考mysql分区功能详细介绍，以及实例二，mysql分表和分区有什么区别呢1，实现方式上a），mysql的分表是真正的分表，一张表分成很多表后，每一个...

2019-03-05 13:42:17 101

转载 mysql分区功能详细介绍，以及实例

一，什么是数据库分区前段时间写过一篇关于mysql分表的的文章，下面来说一下什么是数据库分区，以mysql为例。mysql数据库中的数据是以文件的形势存在磁盘上的，默认放在/mysql/data下面（可以通过my.cnf中的datadir来查看），一张表主要对应着三个文件，一个是frm存放表结构的，一个是myd存放表数据的，一个是myi存表索引的。如果一张表的数据量太大的话，那么myd,myi...

2019-03-05 13:41:14 638

转载 SQL执行计划

引言：实际项目开发中，由于我们不知道实际查询的时候数据库里发生了什么事情，数据库软件是怎样扫描表、怎样使用索引的，因此，我们能感知到的就只有sql语句运行的时间，在数据规模不大时，查询是瞬间的，因此，在写sql语句的时候就很少考虑到性能的问题。但是当数据规模增大，如千万、亿的时候，我们运行同样的sql语句时却发现迟迟没有结果，这个时候才知道数据规模已经限制了我们查询的速度。所以，查询优...

2019-03-05 11:12:28 83

转载 SQL语句执行顺序

查询语句中select from where group by having order by的执行顺序1.查询中用到的关键词主要包含六个，并且他们的顺序依次为select--from--where--group by--having--order by其中select和from是必须的，其他关键词是可选的，这六个关键词的执行顺序与sql语句的书写顺序并不是一样的...

2019-03-05 10:39:58 116

空空如也

空空如也