视界IT-CSDN博客

原创 SQL(1) 查找二度好友（mysql）、累积求和、每个班级的及格率

sql 刷题1、查找二度好友（mysql）2、实现累积求和1、查找二度好友（mysql）好友的好友（1）自己的好友的好友（2）不包括自己的好友（3）好友的好友不包括自己DROP TABLE IF EXISTS FRIEND;CREATE TABLE friend( uid BIGINT NOT NULL COMMENT '用户标识', fri...

2020-09-13 14:30:32 1186

原创 SQL(2) 行转列，列转行

sql 刷题1、行转列（sql sever）2、列转行1、行转列（sql sever）-- 建表CREATE TABLE StudentScores( UserName NVARCHAR(20), -- 学生姓名 Subject NVARCHAR(30), -- 科目 Score FL...

2020-09-13 14:30:17 277

原创 SQL(8) one-hot（多值列拆分成二值）

sql 刷题1、多值列拆分成二值1、多值列拆分成二值-- (1) 拆分列SELECT id, INSTR(fruits, 'apple') AS apple, INSTR(fruits, 'banana') AS bananaFROM consume_fruits;-- (2)去重 distinct/group by-- (3) 求和SELECT t.id, SUM(apple...

2019-08-26 23:47:12 1354

原创 SQL(11) 留存率+流失率！=100%

留存率+流失率1、留存率2、平均登陆和连续登陆3、次日留存率，3日留存率，7日留存率1、留存率在解释“DAU（日活跃用户）/MAU（月活跃用户）”的时候，我们科学的认为“用户不可能天天登陆”，但在判定新用户是否留存的时候我们却很武断的认为“只有在取样点（第二、三或七天）登陆才算是流存”，这显然是没有把理智的思维观贯穿始终。我们过去一直说的次日留存率、三日留存率、七日留存率并不是严格意...

2019-08-26 23:46:23 7048 1

原创推荐系统冷启动问题——如何给新用户推荐商品，如何将新商品推荐给老用户

推荐系统冷启动问题——如何给新用户推荐商品，如何将新商品推荐给老用户1、推荐系统2、冷启动2.1 用户冷启动2.2 物品冷启动2.3 系统冷启动1、推荐系统推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣，因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件。很多在开始阶段就希望有个性化推荐应用的网站来说，如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐...

2019-08-04 13:22:41 1876

原创统计学（1）二项分布几何分布泊松分布指数分布正态分布 gamma分布 beta分布

分布与分布关系1、二项分布2、几何分布3、泊松分布4、二项分布转化泊松分布，泊松转化正态分布1、二项分布 n次独立重复试验，每次事件出现的结果只有两个，出现同一结果的概率相同为p；抛硬币，假设硬币不平整，抛出正面的概率为p，那么在n次抛硬币的实验中，出现k次正面的概率:P=Cnk×pk×(1−p)n−kP=C_{n}^{k} \times p^{k} \times(1-p)^{n-...

2019-08-02 12:53:33 3773 1

原创面试（11） A/B test

A/B test1、概念2、统计学应用3、中心极限定理4、ABTest实验结果举例1、概念 A/B测试目的：快速验证新版本是否比旧版本好。例如：对于商品详情页进行改版，希望提升商详版到支付页的比例。采用抽样验证：选一定比例的用户（对照组）使用A版本统计日均PV，UV，日均页面转化率，再选一定比例的用户（实验组）使用B版本统计日均PV，UV，日均页面转化率。用样本去体现总体。2、...

2019-07-29 10:58:35 3114

原创面试（10）：欧氏距离和曼哈顿距离、K-means和EM算法对比

欧氏距离和曼哈顿距离、K-means和EM算法对比1、欧式距离和曼哈顿距离2、K-means和EM算法比较1、欧式距离和曼哈顿距离欧式距离用于计算两点或多点之间的距离。d(x,y)=(x1−y1)2+(x2−y2)2+⋯+(xn−yn)2=∑i=1n(xi−yi)2d(x, y) =\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}...

2019-07-28 20:39:37 6085

转载 SQL(12) 抽样取数

sql 刷题1、抽样取数1、抽样取数表结构为user_id,reg_time,age, 写一句sql按user_id随机抽样2000个用户写一句sql取出按各年龄段（每10岁一个分段，如（0,10））分别抽样1%的用户1）随机抽样2000个用户select * from table order by rand() limit 20002）取出各年龄段抽样1%的用户set @tar...

2019-07-28 11:21:20 5397

原创面试（9）：朴素贝叶斯

特征选择与特征提取（降维）1、朴素贝叶斯为什么”朴素“2、简要说说贝叶斯定理（推导）3、半朴素贝叶斯与朴素贝叶斯1、朴素贝叶斯为什么”朴素“ 因为它假定所有特征在数据集中的作用是同样重要和相互独立的。这个假设在现实世界中是很不真实的，因此，说朴素贝叶斯很“朴素”。朴素贝叶斯模型假设样本特征彼此独立。这个假设现实中基本上不存在, 但特征之间有较小的相关性，这在现实生活中普遍存在，因此朴素贝叶...

2019-07-24 17:39:27 292

sql 刷题1、对同一产品用户评分的内积1、对同一产品用户评分的内积我们把用户对商品的评分用稀疏向量表示，保存在数据库表t里面： t的字段有：uid，goods_id，star uid是用户id；goodsid是商品id；star是用户对该商品的评分，值为1-5。现在我们想要计算向量两两之间的内积，内积在这里的语义为：对于两个不同的用户，如果他们都对同样的一批商品打了分，那么对于这里面的每个...

2019-07-24 11:12:29 680

原创面试（8）：非平衡数据

特征选择与特征提取（降维）1、非平衡数据2、处理非平衡数据3、数据层面3.1 过采样3.2 欠采样3.3 过采样与欠采样结合4、算法层面1、非平衡数据常见的分类模型中一般假设分类类别的比例是均衡的，但是现实中常出现正负样本数量不均衡的情况，比如对广告点击情况进行预测（广告点击率是比较少的），商品推荐（推荐商品被购买的数量比较少），贷款违约预测（违约的情况比较少），那么就需要对非平衡数据进行...

2019-07-24 11:06:21 485

转载 PV、UV、访问次数、跳出率、转化率、平均访问时长

PV、UV、访问次数、跳出率、转化率、平均访问时长1、展现量、点击量、点击率2、如何用好展现量、点击率让推广更高效？3、访客数(UV)4、访问次数5、浏览量(PV)6、转化次数（重要）7、转化率：8、平均访问时长9、平均访问页数10、跳出率：跳出率是反映网站流量质量的重要指标1、展现量、点击量、点击率在网民搜索查询时，如果您账户内符合网民搜索需求的关键词被触发，该关键词所对应的创意将出现在...

2019-07-22 14:05:49 2579

原创面试（7）：归一化

归一化1、归一化的类型2、为什么要进行归一化3、哪些模型需要归一化，哪些不需要归一化？1、归一化的类型1）线性归一化x′=x−min⁡(x)max⁡(x)−min⁡(x)x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)}x′=max(x)−min(x)x−min(x)这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷，如果max和...

2019-07-21 23:10:38 288

原创面试（6）：特征选择与特征提取（降维）

特征选择与特征提取（降维）1、相同点与不同点2、特征选择2.1 过滤型（Filter）2.2 包裹型（Wrapper）2.3 嵌入型（Embedded）3、特征提取（降维）3.1 主成分分析法（PCA）3.2 线性判别分析法（LDA）1、相同点与不同点相同点：特征选择和特征提取二者达成的效果相似，都是试图减少数据集中属性（特征）的数量，找出最有效（同类样本的不变性、不同样本的鉴别性、对噪声的...

2019-07-13 16:44:07 6583 1

原创面试（5）：L1正则与L2正则

L1正则与L2正则1、概述2、区别1、概述 L1正则和L2正则是为了防止模型过拟合，添加在损失函数后面，构成对模型复杂的惩罚项。结构风险 = 经验风险+惩罚项（正则化）Lasso回归，L1正则：J(θ)=12n(Xθ−Y)T(Xθ−Y)+α∥θ∥1J(\theta)=\frac{1}{2 n}(\mathbf{X} \theta-\mathbf{Y})^{T}(\mathbf{X} ...

2019-07-12 14:15:16 823

原创用户行为分析模型——RFM模型

用户行为分析模型——RFM模型1. RFM模型1. RFM模型 RFM模型根据客户活跃程度和交易金额的贡献，进行客户价值细分的一种方法。R（Recency）——最近一次交易时间间隔。基于最近一次交易日期计算的得分，距离当前日期越近，得分越高。如5分制。反映客户交易活跃度。F（Frequency）——客户在最近一段时间内交易次数。基于交易...

2019-07-10 16:34:54 35992 4

转载用户行为分析模型——漏斗分析模型（转化率）

用户行为分析模型1、漏斗分析模型——从注册到购买的转化率1.1 什么是漏斗分析？1.2 漏斗分析模型的特点与价值1.3 在漏斗分析模型中，科学归因、属性关联的重要性1.4 漏斗分析场景1、漏斗分析模型——从注册到购买的转化率现代营销观念认为：** “营销管理重在过程，控制了过程就控制了结果。”** 用户行为分析之漏斗分析模型是企业实现精细化...

2019-07-09 15:40:48 18235

转载 Matplotlib借助ImageMagick或ffmpeg生成动图（.gif）或视频可能遇到的问题和解决方案

准备工作首先保证要安装matplotlib。假如按照以下流程并且在网上寻求解答依然没能成功运行，可能在于matplotlib版本太旧导致。更新使用pip:pip install -U matplotlib或者使用conda:conda update conda或者conda update matplotlib.生成动图（.gif）ImageMagick先下载ImageMagick (ht...

2019-07-08 14:23:25 449

翻译 Python 的基础和爬虫(1)

Python 的基础和爬虫 1、全局变量和局部变量i=10def func(): j=10 j+=1 print(j) func()#调用函数 print(i)i就为全局变量，j为局部变量，加一个global可以将局部变量变成局部变量。i=10def func(): global j j=10 j+=1func()p...

2019-07-08 14:15:40 148

翻译 python基础和爬虫（3）

1.urllib基础，要系统学习urllib模块，我们从urllib基础开始，首先讲解urlretrieve()、urlcleanup()、info()、getcode()、geturl()等 urlretrieve()直接把网页抓到本地import urllib.requestdata1=urllib.request.urlretrieve(&amp;amp;quot;http://www.baidu.com...

2019-07-08 14:13:21 88

翻译 Python 的基础和爬虫(2)

Python 的基础和爬虫正则表达式——进行数据筛选的表达式 a普通字符作为原子 b非打印字符作为原子——\n,\timport re #正则表达式的包pat="abc"#正则表达式,查找规则string="http://yum.iqianyue.com"#字符串rst1=re.search(pat,string)print(rst1)pat2="\n"#\n换行符st...

2019-07-07 16:35:13 107

转载面试（4）：参数模型与非参数模型

参数模型与非参数模型1、概述2、参数机器学习算法3、非参数机器学习算法1、概述 LR是参数模型，SVM是非参数模型。参数模型、非参数模型（以及半参数模型）的概念应该源自于统计学中。统计专业课程《非参数统计》研究的对象就是秩检验、核密度估计等。在统计学中，参数模型通常假设总体（随机变量）服从某一个分布，该分布由一些参数确定（比如正态分布由均值和方差确定），在此基础上构建的模型称...

2019-06-25 14:05:56 723

转载面试（3）：集成学习bagging和boosting的区别

逻辑回归（LR）与支持向量机（SVM）的区别和联系1、为什么常比较这两个算法2、Bagging3、Boosting4、Bagging与Boosting的区别5、总结1、为什么常比较这两个算法 Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将...

2019-06-24 15:36:54 551

转载面试（2）：LR逻辑回归与损失函数理解

LR逻辑回归与损失函数理解1、LR的推导2、损失函数2.1 对数损失函数：2.2 平方损失函数：2.3 指数损失函数：2.4 Hinge损失函数：2.5 0-1损失函数：2.6 绝对值损失函数：1、LR的推导 LR逻辑回归是一种监督学习分类算法，其实现了给定数据集到0,1的一种映射。给定数据集D={(x1,y1),(x2,y2)…(xm,ym)}\mathrm{D}=\{(x 1, y...

2019-06-23 13:59:27 6484

原创面试（1）：逻辑回归（LR）与支持向量机（SVM）的区别和联系

逻辑回归（LR）与支持向量机（SVM）的区别和联系1、为什么常比较这两个算法2、二者相同点3、二者不同点1、为什么常比较这两个算法（1）这两个算法是基础算法，常被使用。（2）LR与SVM之间有很多相似点，因此常被放在一起比较。2、二者相同点第一，LR和SVM都是分类算法。 LR和S...

2019-06-23 10:04:39 4912

原创链表，二叉树，堆，栈等增删改查的时间复杂度

链表，二叉树，堆，栈等增删改查的时间复杂度一、常用数据结构增删查时间复杂度1、数组1.1 正常数组:1.2 无下标数组:1.3 有序无下标数组:2、链表2.1 单向无序链表:2.2 单向有序链表:2.3 二叉排序树:一、常用数据结构增删查时间复杂度https://blog.csdn.net/MOMONGA/article/details/51578602https://blog.csdn.n...

2019-06-20 18:02:20 5048

原创常见排序算法及其时间复杂度

常见排序算法及其时间复杂度一、内部排序：1.稳定的排序算法1.1 冒泡排序1.1.1 冒泡排序流程1.1.2 冒泡排序的实现1.2 插入排序1.2.1 插入排序流程1.2.2 插入排序的实现1.3 归并排序1.3.1 归并排序流程1.3.2 归并排序的实现1.4 桶排序1.4.1 桶排序流程1.4.2 桶排序的实现1.5 基数排序1.5.1 基数排序流程1.5.2 基数排序的实现1.6 二叉树排...

2019-06-20 18:00:18 25158 3

原创机器学习西瓜书（周志华）第七章贝叶斯分类器

第七章贝叶斯分类器1. 贝叶斯决策论1.1 先验分布1.2 后验分布1.3 似然估计1.4 四大概率在贝叶斯分类中指代含义1. 朴素贝叶斯7. 课后练习参考答案1. 贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯...

2019-06-03 21:25:08 3164

原创数据结构 13.递归、回溯、分治、动态规划

Leetcode部分递归、回溯、分治、动态规划相关练习一、递归二、回溯1.回溯的概念2. 回溯相关练习51.N皇后利用回溯算法求解 0-1 背包问题三、分治1.分治的概念2.分治算法的基本步骤3.分治相关练习利用分治算法求一组数据的逆序对个数四、动态规划1. 动态规划的概念2.基本思想与策略3. 适用的情况4.动态规划相关练习利用动态规划求解 0-1 背包问题2.2 实现模糊二分查找算法（比如大...

2019-05-25 21:01:38 368

原创数据结构 12.图

Leetcode部分图相关练习一、图1. 定义2. 实现有向图、无向图、有权图、无权图的邻接矩阵和邻接表表示方法2.1 邻接矩阵2.2 邻接表3. 实现图的深度优先搜索、广度优先搜索3.1 深度优先搜索3.2 广度优先搜索4. 实现 Dijkstra 算法、A* 算法4.1 Dijkstra 算法4.2 实现A* 算法6. 练习36. 有效的数独200. 岛屿数量一、图1. 定义图...

2019-05-24 21:07:15 349

转载 Markdown 公式指导手册

#Cmd Markdown 公式指导手册点击跳转至 Cmd Markdown 简明语法手册，立刻开始 Cmd Markdown 编辑阅读器的记录和写作之旅！本文为 MathJax 在 Cmd Markdown 环境下的语法指引。Cmd Markdown 编辑阅读器支持 LaTeX\LaTeXLATEX 编辑显示支持，例如：∑i=1nai=0\sum_{i=1}^n a_i...

2019-05-23 17:02:59 590

原创机器学习西瓜书（周志华）第四章决策树

第四章决策树1. 概述2. 特征选择2.1 信息增益2.2 信息增益率2.3 基尼指数3. 决策树生成4. 决策树剪枝4.1 预剪枝2. 对数几率回归（logistic regression）2.1 对数几率函数（logistic function）2.2 用极大似然求解2.3 LR的多分类问题3. 线性判别分析4. 多分类学习4.1 利用二分类学习器解决多分类问题4.2 最经典的拆分策略（Ov...

2019-05-22 21:44:54 10337

原创数据结构 11. 堆

Leetcode部分堆相关练习一、堆1. 定义2. 实现一个小顶堆、大顶堆、优先级队列2.1 小顶堆2.2 大顶堆2.3 优先级队列3. 实现堆排序4. 利用优先级队列合并 K 个有序数组5. 求一组动态数据集合的最大 Top K6. 练习112. 路径总和一、堆1. 定义1、堆是一棵完全二叉树，这棵二叉树需要满足堆序：任何分支结点（即除去叶结点所剩余的结点）的值都大于等于（或小于等于）其左...

2019-05-22 11:56:13 283

原创数据结构 10. 二叉树

Leetcode部分二叉树相关练习一、二叉树1. 定义2. 实现一个二叉查找树，并且支持插入、删除、查找操作2.1 查找和插入2.2 删除3. 实现二叉树前、中、后序以及按层遍历3.1 先序遍历3.2 中序遍历3.3 后序遍历4. 练习98. 验证二查搜索树102. 二叉树的层次遍历107. 二叉树的层次遍历 II226. Invert Binary Tree（翻转二叉树）104. Maximum...

2019-05-22 11:03:22 266

原创数据结构 9. 字符串

Leetcode部分字符串相关练习一、字符串1. 字符串相关结构的实现1.1 实现一个字符集，只包含 a～z 这 26 个英文字母的 Trie 树1.2 实现朴素的字符串匹配算法2. 练习344. 反转字符串151. 翻转字符串里的单词8. 字符串转换整数 (atoi)一、字符串1. 字符串相关结构的实现1.1 实现一个字符集，只包含 a～z 这 26 个英文字母的 Trie 树tire ...

2019-05-18 13:45:33 281

原创数据结构 8.散列表（哈希表）

Leetcode部分散列表（哈希表）相关练习一、散列表（哈希表）1. 散列表（哈希表）的定义2. 散列表和 LRU 缓存淘汰算法的实现2.1 实现一个基于链表法解决冲突问题的散列表2.2 实现一个 LRU 缓存淘汰算法2.2.1 LRU原理2.2.2 LRU实现8.2.3 用python实现LRU一、散列表（哈希表）1. 散列表（哈希表）的定义哈希表（Hash table，也叫散列表），是根...

2019-05-18 13:19:20 423

原创数据结构 7.二分查找

Leetcode部分二分查找相关练习一、二分查找1.栈的定义2.栈的实现2.1 实现一个有序数组的二分查找算法2.2 实现模糊二分查找算法（比如大于等于给定值的第一个元素）3. 练习x 的平方根一、二分查找1.栈的定义二分查找算法也称折半查找算法，是在有序数组中用到的较为频繁的一种查找算法。在未接触二分查找算法时，最通用的一种做法是，对数组进行遍历，跟每个元素进行比较，即顺序查找。二分查...

2019-05-18 09:36:36 459

原创数据结构 6.排序

Leetcode部分排序相关练习一、排序1. 稳定的排序算法1.1 冒泡排序的实现1.2 插入排序的实现1.3 归并排序的实现2. 不稳定的排序算法2.1 选择排序的实现2.2 堆排序的实现2.3 快速排序的实现一、排序在待排序的文件中，若存在多个关键字相同的记录，经过排序后这些具有相同关键字的记录之间的相对次序保持不变，该排序方法是稳定的；若具有相同关键字的记录之间的相对次序发生改变，则称这...

2019-05-17 21:18:41 564

原创机器学习西瓜书（周志华）第三章线性模型（LR 对数几率函数\LDA\类别不平衡）

第三章线性模型1. 线性回归1.1 基本形式：1.2 对数线性回归2. 对数几率回归（logistic regression）2.1 对数几率函数（logistic function）3. 线性判别分析5. 课后练习参考答案1. 线性回归1.1 基本形式：许多功能更为强大的非线性模型可通过在线性模型的基础上通过引入层级结构或者高维映射得到。若将无序属性连续化，则会不恰当的引入序关系，对...

2019-05-16 21:57:29 1738

空空如也

空空如也