柚子一只-CSDN博客

原创大数据类面试题二

一、关系型数据库和非关系型数据库比较关系型数据库：Mysql，Oracle非关系型数据库：Redis，MongoDB，HBASE类SQL数据库：hive关系型数据库（Mysql和Oracle）1.表和表、表和字段、数据和数据存在着关系优点:1.数据之间有关系，进行数据的增删改查的时候是非常方便的2.关系型数据库是有事务操作的，保证数据的完整性和一致性。缺点：...

2019-08-24 18:40:06 243

原创大数据类面试题一

一、面试中linux常见的20个命令1.查找文件find / -name filename.txt根据名称查找/目录下的filename.txt文件。2.查看一个程序是否运行ps –ef|grep tomcat查看所有有关tomcat的进程3.终止线程kill -9 19979终止线程号位19979的线程4.查看文件，包含隐藏文件ls -al5.当前工作目录pw...

2019-08-23 15:14:59 310

原创 HDFS dfs常用命令大全

根据官方文档的提示我们能够知道可以通过shell的方式访问hdfs中的数据，对数据进行操作。那么首先让我们看一下hdfs的版本，使用命令hdfs version。-mkdir创建目录Usage：hdfs dfs -mkdir [-p] < paths>选项：-p很像Unix mkdir -p，沿路径创建父目录。-ls查看目录下内容，包括文件名，权限，所有者，大小和...

2019-07-17 11:27:45 3684

原创 SQLite的系统表SQLITE_MASTER

一、SQLITE_MASTER的简介 SQLite数据库中有一个内置表，名为SQLITE_MASTER，此表中存储着当前数据库中所有表的相关信息，比如表的名称、用于创建此表的sql语句、索引、索引所属的表、创建索引的sql语句等。每一个 SQLite 数据库都有一个叫 SQLITE_MASTER 的表，它定义数据库的模式。二、SQLITE_MASTER的表结构...

2019-06-10 22:40:50 738

原创 Python中insert、append、extend函数的分析

insert()、append()、extend()都是在列表的尾部插入数据。但是insert()不可对二维的列表进行操作。一、insert（）1、函数描述insert() 函数用于将指定对象插入列表的指定位置。2、函数语法list.insert(index, obj)3、参数介绍index -- 对象 obj 需要插入的索引位置。 obj -- 要插入列表中的...

2019-06-05 15:00:58 1059

原创谈谈MySQL中常用的强制性操作

对于经常使用oracle的朋友可能知道，oracle的hint功能种类很多，对于优化sql语句提供了很多方法。同样，在mysql里，也有类似的hint功能。下面介绍一些常用的。一、强制索引 FORCE INDEXSELECT * FROM TABLE1 FORCE INDEX (FIELD1)以上的SQL语句只使用建立在FIELD1上的索引，而不使用其它字段上的索引。二、忽略索引...

2019-06-04 11:05:23 173

原创 SQL去重：distinct和row_number（）over（）的区别

1 前言在咱们编写 SQL 语句操作数据库中的数据的时候，有可能会遇到一些不太爽的问题，例如对于同一字段拥有相同名称的记录，我们只需要显示一条，但实际上数据库中可能含有多条拥有相同名称的记录，从而在检索的时候，显示多条记录，这就有违咱们的初衷啦！因此，为了避免这种情况的发生，咱们就需要进行“去重”处理啦，那么何为“去重”呢？说白了，就是对同一字段让拥有相同内容的记录只显示一条记录。那么，...

2019-05-27 19:07:31 2160

原创认识PV、UV、UV价值

PV(访问量)：即Page View, 具体是指网站的是页面浏览量或者点击量。 UV(独立访客)：即Unique Visitor,访问您网站的一台电脑客户端为一个访客。根据IP地址来区分访客数，在一段时间内重复访问，也算是一个UV。 UV价值 = 销售额 / 访客数。意思是每位访客带来多少销售额。例如今天该宝贝的销售额为10000元，该宝贝有50个访客。就意味着...

2019-05-24 15:45:42 15893

转载数据分析报告包含哪些指标？

1、首先你需要根据活动目标确定你的目标达成率，完成百分比，提升百分比。这是这次活动取得的成果，在一开始就写。如：本次活动 uv 24w（20w，↑ 20%），uv价值 3.6（3，↑ 20%）2、如果是发周报、月报之类的数据，接下来就应该是核心数据走势图在这张图里，要对每个数据的拐点做分析，比如图中11月7日、8日两天的uv价值有明显提升，这个的原因，要找到并写在报告里。...

2019-05-24 15:10:56 4520

原创进行数据分析时如何提高留存？

一、留存与流失用户留存率，这同样是互联网创业者们不得不共同关注的一大核心指标。互联网产品的“留存用户”是相对于“流失用户”的一个概念。归根到底，真正的用户增长就是增长与流失的差值。造成用户留存率低的原因可能是以下几种：1、存在程序漏洞、性能瓶颈影响使用正常流程的程序漏洞是最容易引发用户流失的原因。人人都痛恨在正常操作的过程中遭遇意外麻烦。试想在电子表格软件...

2019-05-20 18:49:35 311

原创如何创造正确的产品？

一、什么是PMF？ PMF（Produce Market Fit），探寻产品与市场的完美契合。有些人，创业的目标就是“把我脑海中的那个产品做出来”。在他们的想象中，这必将是一个全世界人人想要的产品。似乎接下来就该顺理成章地迎接用户的蜂拥而至，至于用户增长和营收提升只是时间问题。然而他们忽略了一点：这一切美好愿望必须首先建立在这样的前提之下——市场愿意接纳这款产品...

2019-05-20 12:06:48 205

一、什么是增长黑客？增长黑客，这是一群以数据驱动营销、以市场指导产品，通过技术化手段贯彻增长目标的人。他们通常既了解技术，又深谙用户心理，擅长发挥创意、绕过限制，通过低成本的手段解决初创公司产品早起的增长问题。二、增长目标增长的对象不仅包含用户量的累加，还囊括了产品生命周期中各个阶段的重要指标。根据不同阶段用户参与行为的深度和类型，我们可以将增长目标拆分并概括为“AARRR"转化漏斗模型，即...

2019-05-17 16:16:35 3267

原创数据处理时如何解决噪声数据？

一、什么是噪声在机器学习中我们在独立随机抽样的时候会出现一些搞错的信息，这些错误的数据我们称之为杂讯（或者噪音 noise），一般可以归结为一下两种（以二分为例）：输出错误：1.同样的一笔数据会出现两种不同的评判 2.在同样的评判下会有不同的后续处理。输入错误：1.在收集数据的时由于数据源的随机性会出现错误（比如说，客户在填信息的时候出现的误填）实际应...

2019-04-30 10:08:05 34914 1

原创准确率(Precision)、召回率(Recall)、F值对于模型的评估

一、有哪些模型评估方法？在机器学习、数据挖掘、推荐系统完成建模之后，需要对模型的效果做评价。业内目前常常采用的评价指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)等，下图是不同机器学习算法的评价指标。下文讲对其中某些指标做简要介绍。倾向于使用准确率，是因为熟悉它的定义，而不是因为它是评估模型的最佳工具！精度（查准率）和召回率（查全率）...

2019-04-15 16:32:12 4199

转载 SQL 排名函数面试宝典

本文转载自sql 四大排名函数---（ROW_NUMBER、RANK、DENSE_RANK、NTILE）简介1.ROW_NUMBER()定义：ROW_NUMBER()函数作用就是将select查询到的数据进行排序，每一条数据加一个序号，他不能用做于学生成绩的排名，一般多用于分页查询，比如查询前10个查询10-100个学生。实例：1.1对学生成绩排序这里number就...

2019-04-13 11:46:05 341

转载基于用户的协同过滤推荐算法原理和实现分析

本文转载自nieson 基于用户的协同过滤推荐算法原理和实现在推荐系统众多方法中，基于用户的协同过滤推荐算法是最早诞生的，原理也较为简单。该算法1992年提出并用于邮件过滤系统，两年后1994年被 GroupLens 用于新闻过滤。一直到2000年，该算法都是推荐系统领域最著名的算法。本文简单介绍基于用户的协同过滤算法思想以及原理，最后基于该算法实现园友的推荐，即根据你关注...

2019-04-08 11:58:33 3615 1

转载机器学习之推荐系统的基础知识

本文转载至博客园的小编周旭龙：初探机器学习之推荐系统的基础知识一、推荐系统是神马维基百科这样解释道：推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好的资讯或实物（例如：电影、电视节目、音乐、书籍、新闻、图片、网页）推荐给使用者。　　推荐系统的基本流程有哪些：　　Step1.首先收集用户的历史行为数据　　Step2.然后通过预处理的方法得到用户-评价矩阵　　St...

2019-04-08 11:37:30 511

原创 Python实现常见排序算法下

一、快速排序　　快速排序（Quick Sort），又称为划分交换排序（Partition-exchange Sort），通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要笑，然后在按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。　　　　1、快速排序过程：　　　　①从数列中选出一个元素，称为...

2019-04-07 15:20:35 378

原创 Python实现常见排序算法上

一、选择排序　　选择排序（ Selection Sort ）是一种简单直观的排序算法，基本原理：首先在未排序中找到最小（大）的元素，存放在排序序列的起始位置，然后在从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序的末尾，一次类推，直到所有元素均排序完毕。　　选择排序的主要优点与数据移动有关。如果某个元素位于正确的最终位置上，则它不会被移动。选择排序每次交换一对元素，它们当中至少有一...

2019-04-07 15:08:09 129

转载机器学习常见算法思想的面试宝典

本文转载自机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面...

2019-04-06 16:09:06 324

转载什么是大数定律？

目录1 小数定律2 什么是大数定律3 小数定律和大数定律的动态演示要理解大数定律，就必然先要理解小数定律。我会从下面3个方面聊聊：1）什么是小数定律？2）什么是大数定律？3）小数定律和大数定律的动态演示案例1 小数定律喜欢总结规律是人类的天性。例如，人们抱着娱乐或者认真的态度总结了世界杯足球赛的各种“定律”，其中比较著名的有“巴西队的礼物”。“巴西队的...

2019-03-31 20:27:04 21287

原创中心极限定理的基本概念和应用场景

一、中心极限定理的基本概念中心极限定理是说：样本的平均值约等于总体的平均值。不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈正态分布。接下来，我们用通俗易懂的话来解读这个定理。假设有一个群体，如我们之前提到的清华毕业的人，我们对这类人群的收入感兴趣。怎么知道这群人的收入呢？我会做这样4步：第1步：随机抽取1个样本，求该样本的平均值。例如我...

2019-03-31 19:49:41 24262 4

转载机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）

本文转载至机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归...

2019-03-28 20:24:28 535

原创解析损失函数、代价函数、目标函数

一、损失函数、代价函数、目标函数定义首先给出结论：损失函数（Loss Function ）是定义在单个样本上的，算的是一个样本的误差。代价函数（Cost Function ）是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。目标函数（Object Function）定义为：最终需要优化的函数。等于经验风险+结构风险（也就是Cost Function + 正则化项）...

2019-03-27 19:22:28 1860

原创《剑指offer》-- 重建二叉树

一、题目描述输入某二叉树的前序遍历和中序遍历的结果，请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6}，则重建二叉树并返回。二、算法思想本题主要采用递归的思想。首先介绍一下根据前序遍历和中序遍历来构建二叉树的思路：前序遍历的第一个则是二叉树的根，找到根在中序遍历中...

2019-03-22 16:59:25 83

原创《剑指offer》 -- 变态跳台阶

一、题目描述一只青蛙一次可以跳上1级台阶，也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种跳法（先后次序不同算不同的结果）。二、解题思想其实就是费布拉奇数列的翻版。只有一个台阶时有1种跳法，有两个台阶时有2中跳法。其余的台阶数可以化为比自己晚一个台阶+1跳和比自己晚两个台阶+2跳两种方式。三、Python实现代码# -*- coding:utf-8 -*-clas...

2019-03-22 16:57:00 130

原创计算机网络常考知识点

一、OSI、TCP/IP、五层协议的体系结构OSI分层（7层）：物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。TCP/IP分层（4层）：网络接口层、网际层、运输层、应用层。五层协议（5层）：物理层、数据链路层、网络层、运输层、应用层。二、各层协议每一层的协议如下：物理层：RJ45、CLOCK、IEEE802.3 （中继器，集线器）数据链路：PPP、FR...

2019-03-22 16:52:17 408

原创《剑指Offer》反转链表 Python实现

一、题目描述输入一个链表，反转链表后，输出新链表的表头。二、解题思路把listNode中的next改为null可以，但是想把listnode=null就麻烦了。因为你自己定义的listnode=head的话，listnode=null时head并不是空。这个也是清理对象时的经验，只能把最原始的对象赋值为空，要不然原始对象指针会一直占用这个对象。用temp保存pHead的下一个节点。...

2019-03-22 11:00:57 320

原创《剑指offer》-- 字符串

题目描述请实现一个函数，将一个字符串中的空格替换成“%20”。例如，当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。分析将长度为1的空格替换为长度为3的“%20”，字符串的长度变长。如果允许我们开辟一个新的数组来存放替换空格后的字符串，那么这道题目就非常简单。设置两个指针分别指向新旧字符串首元素，遍历原字符串，如果碰到空格就...

2019-03-19 19:01:04 70

转载互联网公司面试必问的MySQL题目(下）

什么是数据库索引？索引有哪几种类型？什么是最左前缀原则？索引算法有哪些？有什么区别？索引是对数据库表中一列或多列的值进行排序的一种结构。一个非常恰当的比喻就是书的目录页与书的正文内容之间的关系，为了方便查找书中的内容，通过对内容建立索引形成目录。索引是一个文件，它是要占据物理空间的。主键索引:数据列不允许重复，不允许为NULL.一个表只能有一个主键。唯一索引:数据列不允许重复，允许为NU...

2019-03-13 11:15:53 145

转载互联网公司面试必问的MySQL题目(上)

01什么是数据库事务？如果没有事物会有什么后果？事务的特性是什么？事务是指作为单个逻辑工作单元执行的一系列操作，可以被看作一个单元的一系列SQL语句的集合。要么完全地执行，要么完全地不执行。如果不对数据库进行并发控制，可能会产生脏读、非重复读、幻像读、丢失修改的异常情况。事务的特性（ACID）A, atomacity 原子性事务必须是原子工作单元；对于其数据修改，要么全都执...

2019-03-13 11:03:26 144

原创京东秋招数据分析对现有testfile文件内容求和

不定项选择题例题：现有testfile文件内容如下所示12122135434312312334对所有数字求和，以下做法正确的是:A. awk 'BEGIN{sum}{sum+$1}END{print sum}' testfileB. awk 'BEGIN{sum =0}{sum+=$1}END{print sum}' testfileC. awk '{sum+...

2019-03-12 20:15:47 379

原创数据预处理之数据标准特征化

Standardization即标准化，尽量将数据转化为均值为零，方差为一的数据，形如标准正态分布（高斯分布）。实际中我们会忽略数据的分布情况，仅仅是通过改变均值来集中数据，然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的singlearray-like数据集操作。一、标准化，均值去除和按方差比例缩放（Standardization, or mean remo...

2019-03-02 13:30:46 953

转载 Sklearn-RandomForest随机森林参数及实例

本文转载至Sklearn-RandomForest随机森林参数及实例在scikit-learn中，RandomForest的分类类是RandomForestClassifier，回归类是RandomForestRegressor，需要调参的参数包括两部分，第一部分是Bagging框架的参数，第二部分是CART决策树的参数。sklearn官网地址（RandomForestClassifier...

2019-03-02 12:50:00 1181

原创利用Python进行数据预处理

数据导入到python环境：http://pandas.pydata.org/pandas-docs/stable/io.html（英文版）IO Tools (Text, CSV, HDF5, ...)The pandas I/O API is a set of top level reader functions accessed like pd.read_csv() that gene...

2019-02-27 16:49:54 8515

原创随机森林算法工作原理

随机森林是一种灵活且易于使用的机器学习算法，即便没有超参数调优，也可以在大多数情况下得到很好的结果。它也是最常用的算法之一，因为它很简易，既可用于分类也能用于回归任务。在这篇文章中，你将了解到随机森林算法的工作原理以及适用范围。机器学习算法之随机森林算法工作原理随机森林是一种有监督学习算法。就像你所看到的它的名字一样，它创建了一个森林，并使它拥有某种方式随机性。所构建的“森...

2019-02-27 16:42:55 7799 1

原创利用Pandas中pivot_table函数生成数据透视表

一、介绍也许大多数人都有在Excel中使用数据透视表的经历，其实Pandas也提供了一个类似的功能，名为pivot_table。虽然pivot_table非常有用，但是我发现为了格式化输出我所需要的内容，经常需要记住它的使用语法。所以，本文将重点解释pandas中的函数pivot_table，并教大家如何使用它来进行数据分析。如果你对这个概念不熟悉，wikipedia上对它做了详细的解释。...

2019-02-27 11:44:14 2215 1

原创机器学习--Logistic回归之梯度上升算法

一、Logistic回归与梯度上升算法Logistic回归是众多分类算法中的一员。通常，Logistic回归用于二分类问题，例如预测明天是否会下雨。当然它也可以用于多分类问题，不过为了简单起见，本文暂先讨论二分类问题。首先，让我们来了解一下，什么是Logistic回归。1、Logistic回归假设现在有一些数据点，我们利用一条直线对这些点进行拟合(该线称为最佳拟合直线)，这个拟合过程就...

2019-02-22 11:28:54 358

原创数据仓库中Hive、Mysql、Hadoop之间的关联

1. Hive 与 HDFS 之间的联系（1）hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。（...

2019-01-09 16:33:52 2771

原创深入浅出之dtype( )和astype( )函数

NumPy最重要的一个特点就是其N维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算，ndarray是一个通用的同构数据多维容器，也就是说，其中的所有元素必须是相同类型的。1. 属性dtype用于说明数组中的数据类型的对象2. 函数dtype( )作用：结构化数组类型并加以使用语法：numpy.dtype(...

2018-12-25 11:34:16 22325 2

空空如也

空空如也