wuxiaosi808-CSDN博客

原创常用的sql函数（语法）

sql处理交叉链接，展开数组字段等

2022-09-15 15:09:05 857 1

称硬币问题-Python：一. 问题描述现在有27枚硬币，其中有一枚假币，假币跟真币长得一摸一样，但是稍微重一些。摆在桌上有一个称重天平，要求用最小的次数找出假币，并写出算法代码。二. 解题思路首先，思考一下这个问题的解法，很多人开始想到的都说对开。就是把硬币分成两份，比如假如我们有9个硬币，每4一份，分成4,4,1三份，再对前两份进行称重。那么可能有3个结果：1).两份完全相等，剩下的1个就是假币2).第一组更重，然后继续二分称重3).第二组更重，然后继续类似上面第二种情况进行称重我们需

2020-08-17 17:37:43 1346

转载硬核干货算法文章汇总

17. 持续更新...16. 目标检测算法(第16期)--YOLO-V2算法结构详解15. 目标检测算法(第15期)--YOLO-V1损失函数详解14. 目标检测算法(第14期)--YOLO-V1检测算法详解13. 目标检测算法(第13期)--SSD检测算法必须知道的几个关键点12. 目标检测算法(第12期)--SSD检测算法结构详解11. 目标检测算法(第11期)--Faster RCNN的损失函数以及如何训练？10. 目标检测算法(第10期)--Faster RCNN检测算法

2020-08-06 10:50:40 320

转载数据维度爆炸怎么办？详解5大常用的特征选择方法

数据维度爆炸怎么办？详解5大常用的特征选择方法Datawhale干货作者：Edwin Jarvis，cnblog博客整理在许多机器学习相关的书里，很难找到关于特征选择的内容，因为特征选择要解决的问题往往被视为机器学习的一个子模块，一般不会单独拿出来讨论。但特征选择是一个重要的数据预处理过程，特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这...

2020-08-04 13:49:31 1718

转载机器学习高频面试题(41道)

Q1: What’s the trade-off between bias and variance?问题1: 什么是偏差（bias）、方差（variable）之间的均衡？Bias 是由于你使用的学习算法过度简单地拟合结果或者错误地拟合结果导致的错误。它反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，即算法本身的拟合能力。Bias 可能会导致模型欠拟合，使其难以具有较高的预测准确性，也很难将你的知识从训练集推广到测试集。Variance 是由于你使用的学习算法过于复杂而产生的错

2020-07-02 15:08:03 44385 1

原创用数据分析搭配肯德基早餐

今天看到一个好玩的数据分析小case，通过对KFC的早餐爬取部分数据，并做简单处理，查看肯定早餐搭配原数据集及初始代码网址如下：https://www.kesci.com/home/project/5ecf10d0162df90036dd6bc9/code。首先读取数据#数据导入，探查数据缺失data = pd.read_csv(r'D:\ML_data\kfca8585\kfc.csv')data.head()查看数据0 1元安心大油条产品实付满49元（不含外送费），可1元.

2020-06-28 15:00:43 518

原创 GDBT模型有缺失值处理

在训练GDBT是，执行model.fit(X_train, y_train)语句报错，报错如下：ValueError: Input contains NaN, infinity or a value too large for dtype('float64').说明数据中有缺失值。from sklearn.ensemble import GradientBoostingClassifiermodel = GradientBoostingClassifier(learning_rate=0.02,

2020-06-02 15:54:02 1757

原创 impala 时间格式转换

最近在impala中遇到一些时间格式问题，目标：取当前日期的前两天日期。一种做法是from_unixtime(unix_timestamp()-60*60*24*2,'yyyyMMdd')，当前时间戳减去两天的秒数，60秒*60分*24小时*2天，在更改一下格式。还有一种做法是substr( regexp_replace(cast(date_sub(now(),2) as string),...

2019-12-11 12:00:45 15092

原创 impala使用-数据类型转换

今天在使用impala查询数据的时候，发现price字段是string类型，不能进行sum计算，需要转换格式。第一种方法：由于price字段中的数值是类似0.24这样的小数，不能转换成int类型，使用了cast()函数转换成float类型，具体如cast(price as float)。但是和price对比发现转换float类型后，会自动补上小数点后几位，如果进行累加，也是积少成多，可能会不准...

2019-11-26 11:38:02 13695 1

原创短信文本分类的实践

由于最近接触到一些短信内容，本着想要做一个模板提取和分类，先试试水。开局就遇到一堆问题，也可能是我自己太菜。所以想把遇到的问题进行记录，以备不时之需。第一部分①由于我拿到的数据是没有标签的，就是只有短信内容，没有短信标签，是分为那个类。所以我打算只添加两类标签，就用0和1区分。问题出来了，pandas可以把标签都赋值成一类，data1['score']=1。但是就没有负标签，也不能人工去标...

2019-11-07 20:15:54 472

转载 hive sql数据分析面试整理

1.写作目的说明hive sql是从事数据分析的同学的基本功。无论是秋招、春招或者是实习，sql都是面试官考察的重点，拿刚刚过去的19秋招来说，搜狐、网易、京东等在数据分析师岗位面试时都考了sql，而拼多多在数据分析笔试时就安排了四到五道复杂的sql题，虽然实习的难度会比秋招要小，可是sql仍然是重头戏。因此可以说数据分析的敲门砖之一就是sql在工作中，也有人戏称数据分析师是sql提数机，也...

2019-09-03 19:46:09 4501 1

转载算法工程师 -常见面试题

▌1. LDA(线性判别分析) 和 PCA 的区别与联系首先将LDA 扩展到多类高维的情况，以和问题1 中PCA 的求解对应。假设有N 个类别，并需要最终将特征降维至d 维。因此，我们要找到一个d 维投影超平面，使得投影后的样本点满足LDA 的目标—最大化类间距离和最小化类内距离。回顾两个散度矩阵，类内散度矩阵在类别增加至 N 时仍满足定义，而之前两类问题的类间散度矩阵在...

2019-09-03 11:38:52 10425

转载 Logistic Regression（逻辑回归）模型实现二分类和多分类

一、逻辑回归二、判定边界当将训练集的样本以其各个特征为坐标轴在图中进行绘制时，通常可以找到某一个判定边界去将样本点进行分类。例如：线性判定边界：非线性判定边界：三、二分类和sigmoid函数sigmoid函数图像如下：四、损失函数1. 定义2. 极大似然估计上面是一种求损失函...

2019-09-03 10:15:11 4112 2

原创 Titanic幸存预测

import numpy as npimport pandas as pdfrom sklearn import preprocessingimport matplotlib.pyplot as pltplt.rc("font", size=14)import seaborn as snssns.set(style="white") #设置seaborn画图的背景为白色...

2019-07-05 14:25:25 342

原创 KNN学习笔记

k近邻（k-nearest neighbor,k-NN）是一种基本分类与回归的方法。实现简单，直观：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分为到这个类里。 k近邻算法使用的模型实际上有三个基本要素，分别是距离度量，k值的选择和分类决策规则。下面分别简述三要素。 1、距离度量空间中两个实例点的距离反应...

2019-06-27 18:01:43 229 1

原创线性回归实例学习

# -*- coding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressiondata = pd.read_csv('height.vs.temperature.csv')# pr...

2019-06-26 14:42:07 184

原创 MNIST训练数字识别-Keras

端到端的MNIST训练数字识别# -*- coding:utf-8 -*-import numpy as npfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense,Dropout,Flattenfrom keras.layers.convol...

2019-06-14 16:02:57 166

转载 python推荐系统库-surprise

@ 2018-01-24Surprise简单易用同时支持多种推荐算法其中基于近邻的方法协同过滤可以设定不同的度量准则支持不同的评估准则使用示例基本使用方法如下载入自己的数据集方法算法调参让推荐系统有更好的效果在自己的数据集上训练模型首先载入数据使用不同的推荐系统算法进行建模比较建模和存储模型用协同过滤构建模型并进行预测1 movielens的例子2 音乐预测的例子...

2019-06-05 11:03:01 962

转载单向链表每k个元素翻转一次

给出一个链表，每k个节点一组进行翻转，并返回翻转后的链表。k是一个正整数，它的值小于或等于链表的长度。如果节点总数不是k的整数倍，那么将最后剩余节点保持原有顺序。示例 :给定这个链表：1->2->3->4->5当k= 2 时，应当返回:2->1->4->3->5当k= 3 时，应当返回:3->2-&gt...

2019-05-16 16:13:50 1927

原创 K-means原理及Python实现

K-means方法是一种非监督学习的算法，它解决的是聚类问题。1、算法简介：K-means方法是聚类中的经典算法，数据挖掘十大经典算法之一；算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高，而不同聚类中的对象相似度较小。2、算法思想：以空间中k个点为中心进行聚类，对最靠近他们的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直到得到...

2019-05-14 16:25:31 21278 2

转载 Python关键字

今天依旧在啃:《笨方法学python》，其中习题37是复习各种关键字。我本想百度一下记一下就ok了，但是百度出来第一个就Hongten的博客。我才意识到我也有博客，我应该学习他，把这些积累的东西都放到博客中。主要参考：http://www.cnblogs.com/hongten/p/hongten_python_keywords.html#undefinedpython2.7关键字详解：...

2019-05-10 10:31:04 135

转载 Hive SQL优化

本章只是从HQL层面介绍一下，日常开发HQL中需要注意的一些优化点，不涉及Hadoop层面的参数、配置等优化。1 使用分区剪裁、列剪裁在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤，比如：SELECT a.idFROM lxw1234_a a...

2019-05-08 10:02:34 315

原创 TensorFlow实现简单卷积神经网络-MNIST手写数字识别

# -*- coding:utf-8 -*-import tensorflow as tfimport numpy as npfrom tensorflow.examples.tutorials.mnist import input_data#加载数据集mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)# x...

2019-04-02 13:53:21 679

转载 AI必知的十大深度学习算法

首先先让我们来定义一下什么是“深度学习”。对很多人来说，给“深度学习”下一个定义确实很有挑战，因为在过去的十年中，它的形式已经慢慢地发生了很大的变化。先来在视觉上感受一下“深度学习”的地位。下图是AI、机器学习和深度学习三个概念的一个关系图。AI的领域要相对较广泛，机器学习是AI的一个子领域，而深度学习是机器学习领域中的一个子集。深度学习网络与“典型”的前馈多层网络之间是有一些区别...

2019-03-13 09:50:00 1106

转载机器学习算法介绍

前言谷歌董事长施密特曾说过：虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注，但是这家公司真正的未来在于机器学习，一种让计算机更聪明、更个性化的技术。也许我们生活在人类历史上最关键的时期：从使用大型计算机，到个人电脑，再到现在的云计算。关键的不是过去发生了什么，而是将来会有什么发生。工具和技术的民主化，让像我这样的人对这个时期兴奋不已。计算的蓬勃发展也是一样。如今，作为一名数据科学家，...

2019-03-13 09:36:53 5225

转载 FM算法(一)：算法理论

主要内容：动机 FM算法模型 FM算法VS 其他算法一、动机在传统的线性模型如LR中，每个特征都是独立的，如果需要考虑特征与特征直接的交互作用，可能需要人工对特征进行交叉组合；非线性SVM可以对特征进行kernel映射，但是在特征高度稀疏的情况下，并不能很好地进行学习；现在也有很多分解模型Factorization model如矩阵分解MF、SVD++等，这些模型可以学习到特征...

2019-03-06 10:24:15 492

转载 sklearn.classification_report预测准确率

SKLearn中预测准确率函数介绍1、在使用Sklearn进行机器学习算法预测测试数据时，常用到classification_report函数来进行测试的准确率的计算输#开始预测y_pred = clf.predict(X_test)print("done in %0.3fs" % (time() - t0))#通过该函数，比较预测出的标签和真实标签，并输出准确率print(cla...

2019-03-04 14:30:34 1461

原创 Python机器学习实践指南-第四章（1）

由于第三章的国外网站无法翻墙，拿不到数据。故跳过第三章，直接进行第四章.由于篇幅较长，故分篇章实现。PS：这次下周的数据截止到2019年2月的数据，和书上的数据相比数据有小量增加。出现的问题也比较多，在尝试处理。如果有做的不对或者不合理的地方，还希望各位老师、小伙伴指正。有更好的想法也可以给我留言。# -*- encoding:utf-8 -*-import numpy as np...

2019-02-15 17:08:13 329

原创 Python机器学习实践指南-第二章

# # -*- coding:utf-8 -*-#准备数据import pandas as pdimport reimport numpy as npimport matplotlib.pyplot as pltplt.style.use(('ggplot'))pd.set_option("display.max_columns",30)pd.set_option("displ...

2019-01-25 11:10:12 389

原创 Pyhon机器学习实践指南-第一章

# # -*- coding:utf-8 -*-import osimport pandas as pdimport requests"""先下载iris.data数据集，并写入path目录。实际上下载的是.csv文件，但是通过pandas操作，给文件添加了一列标题。读出来的结果类似Excel，pandas其实就是操作的行和列，数据列Series，表格DataFrame."""...

2019-01-21 19:13:37 262

转载 word2vec中数学原理详解以及原理思考

很久没有写博客了，也没有写过相关总结。最近，工作中又开始用到了word2vector，正好就做个相关总结。这方面相关的博客有很多，我看过的讲的最清楚的就是@peghoty的博客。要理解wordvector的原理，有些知识还是需要提前了解一下。预备知识：http://blog.csdn.net/itplus/article/details/37969635...

2018-08-27 17:14:26 333

转载协同算法总结

　　　　推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括总结，后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述　　　　推荐算法是非常古老的，在机器学习还没有兴起的时候就有需求和应用了。概括来说，可以分为以下5种：　　　　1）基于内容的推荐：这...

2018-08-27 14:02:06 8535

原创 Spark 快速大数据分析 -垃圾邮件分类示例

垃圾邮件分析是一个用来快速了解MLlib的例子。这个程序用了两个函数：HashingTF与LogisticRegressionWithSGD，前者从文本数据构建词频（termfrequency）特征向量，后者使用随机梯度下降法实现逻辑回归。机器学习算法尝试根据训练数据（training data）使得表示算法行为的数学目标最大化，并以此来进行预测或作出决定。机器学习问题分为几种，包括分类、回...

2018-08-23 20:18:32 3253 1

转载十分钟上手sklearn：特征提取，常用模型，交叉验证

更多干货就在我的个人博客 http://blackblog.tech 欢迎关注！这一篇虽然叫做：十分钟上手sklearn：特征提取，常用模型，但是写着写着我就想把每一个模型都详细说一下，所以也可以看作是机器学习算法概述了。上一篇我们讲解了如何安装sklearn,导入自带数据集，创建数据，对数据进行预处理，通过上一篇的讲解，相信大家能够感受到sklearn的强大之处。这一篇，我们将对skl...

2018-08-14 20:01:48 510

转载机器学习数据预处理-标准化/归一化方法

机器学习数据预处理——标准化/归一化方法通常，在Data Science中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。首先，我要引用我自己的文章Feature Preprocessing on Kaggle里面关于Scaling的描述Tree-based models...

2018-08-06 16:29:27 2907

转载拉链表简介

拉链表简介(转载，以mysql为例)在数据仓库中，经常会用历史数据和时间维度做数据分析。而保存历史数据最常见的方案是使用拉链表进行存储。首先创建测试表：create table deal_order( order_id varchar(20) comment '订单ID', order_updatetime date comment '订单更新时间', ...

2018-04-13 09:45:22 767

转载 Linux常用命令大全

Linux常用命令大全（非常全！！！）最近都在和Linux打交道，感觉还不错。我觉得Linux相比windows比较麻烦的就是很多东西都要用命令来控制，当然，这也是很多人喜欢linux的原因，比较短小但却功能强大。我将我了解到的命令列举一下，仅供大家参考：系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmi...

2018-04-12 10:47:00 182

转载 Lateral View用法与 Hive UDTF explode

Lateral View是Hive中提供给UDTF的conjunction，它可以解决UDTF不能添加额外的select列的问题。1. Why we need Lateral View？当我们想对hive表中某一列进行split之后，想对其转换成1 to N的模式，即一行转多列。hive不允许我们在UDTF函数之外，再添加其它select语句。如下，我们想将登录某个游戏的用户id放在一个字段use...

2018-04-11 17:20:42 548

转载 Hive join操作

JOIN是子句用于通过使用共同值组合来自两个表特定字段。它是用来从数据库中的两个或更多的表组合的记录。它或多或少类似于SQL JOIN。语法join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_refer...

2018-03-08 14:41:08 294

空空如也

空空如也