DreamStar_w-CSDN博客

转载 DataWhale组队学习-9月-SQL-task6 - 更新中

练习一: 各部门工资最高的员工（难度：中等）创建Employee 表，包含所有员工信息，每个员工有其对应的 Id, salary 和 department Id。+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80

2021-09-27 21:34:27 129

转载 DataWhale组队学习-9月-SQL-task5

文章目录1. 窗口函数2. 窗口函数种类2.1 专用窗口函数2.2 窗口函数应用 - 聚合函数2.3 窗口函数应用 - 计算移动平均2.4 窗口函数的注意事项3. GROUPING运算符3.1 ROLLUP - 计算合计及小计练习题1. 窗口函数窗口函数也称为OLAP函数。OLAP 是 OnLine AnalyticalProcessing 的简称，意思是对数据库数据进行实时分析处理。常规的SELECT语句都是对整张表进行查询，而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序。窗口函数

2021-09-24 22:40:16 142

转载 DataWhale组队学习-9月-SQL-task4

文章目录1. 表的加法1.1 UNION1.2 UNION与OR谓词1.3 包含重复行的集合运算UNION ALL1.4 隐式数据类型转换1.2 差集1.3 交集2.连结JOIN2.1 内连接2.1.1 结合 WHERE 子句使用内连结2.1.2 结合 GROUP BY 子句使用内连结2.2 自连接2.3 自然连接2.4 外连接2.5 多表连结2.6 非等值连结2.7 交叉连结3. 练习题集合在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录

2021-09-22 21:32:49 152

转载 DataWhale组队学习-9月-SQL-task3

文章目录一、视图1.1 创建视图1.2 修改视图结构1.3 更新视图1.4 删除视图二、子查询2.1 嵌套子查询2.2 标量子查询2.3 关联子查询三、函数3.1 算术函数3.2 字符串函数3.3 日期函数3.4 转换函数四、谓词4.1 谓词LIKE4.2 谓词BETWEEN4.3 谓词IS NULL、IS NOT NULL4.4 谓词IN使用子查询作为谓词IN的参数4.5 谓词EXIST五、CASE表达式六、练习题一、视图视图是一个虚拟的表，不同于直接操作数据表，视图是依据SELECT语句来创建的（会

2021-09-19 21:22:15 98

转载 DataWhale组队学习之SQL编程-9月-task2

文章目录一、SELECT语句1.1 select语句1.2 where语句1.3 一些规定二、算术运算符和比较运算符2.1 算术运算符2.2 比较运算符2.3 一些规定三、逻辑运算符3.1 NOT、AND、OR运算符NOT运算符AND运算符OR运算符通过括号优先处理3.2 真值表含有NULL时的真值四、聚合查询4.1 聚合函数用聚合函数删除重复值4.2 一些规定五、对表分组GROUP BY5.1 GROUP BY书写位置5.2 常见错误5.3 为聚合结果指定条件六、对查询结果进行排序ORDER BY6.1

2021-09-16 23:03:40 106

转载 DataWhale组队学习之SQL编程-9月-task1

Task1 初识数据库一、基础SQL语句1.1 创建数据库语法：CREATE DATABASE < 数据库名称 > ;1.2 创建数据表语法：CREATE TABLE < 表名 >( < 列名 1> < 数据类型 > < 该列所需约束 > , < 列名 2> < 数据类型 > < 该列所需约束 > , < 列名 3> < 数据类型 > < 该列所需约束 &

2021-09-14 19:14:59 130

转载 DataWhale 组队学习异常检测 task5 集成方法

文章目录1、引言2、Feature Bagging3、Isolation Forests4、总结5、练习参考资料1、引言在实际场景中，很多数据集都是多维度的。随着维度的增加，数据空间的大小（体积）会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性，但是，在高维空间中，所有点对的距离几乎都是相等的（距离集中），这使得一些基于距离的方法失效。在高维场景下，一个常用的方法是子空间方法

2021-05-23 16:56:48 167

转载 DataWhale 组队学习异常检测 task4 基于邻近度的方法

文章目录1、概述2、基于距离的度量2.1 基于单元的方法2.2 基于索引的方法3、基于密度的度量3.1 k-距离（k-distance(p)）：3.2 k-邻域（k-distance neighborhood）：3.3 可达距离（reachability distance）：3.4 局部可达密度（local reachability density）：3.5 局部异常因子：参考资料1、概述 “异常”通常是一个主观的判断，什么样的数据被认为是“异常”的，需要结合业务背景和环境来具体分析确定。实际上

2021-05-20 22:41:06 182

转载 DataWhale 组队学习异常检测 task3 线性模型

文章目录1、引言2、线性回归2.1 基于自变量与因变量的线性回归2.1.1 最小二乘法2.1.2 梯度下降法2.2 基于异常检测的线性回归3、主成分分析3.1 原理推导3.2 归一化问题4、回归分析的局限性5、总结参考资料1、引言真实数据集中不同维度的数据通常具有高度的相关性，这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中，这被称为——回归建模，一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值，另一类方法用一些潜在变量来代表整个数据。前者

2021-05-17 21:57:06 114

转载 DataWhale 组队学习异常检测 task2 基于统计学的方法

异常检测——基于统计学的方法文章目录异常检测——基于统计学的方法1、概述2、参数方法3、非参数方法4、基于角度的方法5、HBOS5、总结参考资料1、概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。即利用统计学方法建立一个模型，然后考虑对象有多大可能符合该

2021-05-14 23:20:31 118

转载 DataWhale组队学习异常检测 task1

文章目录1、什么是异常检测1.1 异常的类别1.2 异常检测任务分类1.3 异常检测场景1.4 异常检测的难点2、异常检测方法简介2.1 基础方法2.1.1 基于统计学的方法2.1.2 线性模型2.1.3 基于邻近度的方法2.1.4 图形方法2.2 集成方法2.3 机器学习参考资料1、什么是异常检测异常检测（Outlier Detection），顾名思义，是识别与正常数据不同的数据，与预期行为差异大的数据。识别如信用卡欺诈，工业生产异常，网络流里的异常（网络侵入）等问题，针对的是少数的事件。虽然说是

2021-05-11 11:35:24 201

转载 DataWhale第23期组队集成学习 - Task 11

文章目录XGBoost的优缺点1. 精确贪心算法2. Level-wise迭代方式3. 对cache优化不友好LightGBM1. 基于Histogram的决策树算法2. 带深度限制的Leaf-wise的叶子生长策略3. 直方图做差加速4. 直接支持类别特征(Categorical Feature)5. 直接支持高效并行6. 网络通信优化XGBoost的优缺点1. 精确贪心算法每轮迭代时，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数

2021-04-26 20:58:50 191

转载 DataWhale第23期组队集成学习 - Task10

一、向前分步与AdaBoost的关系二、调用sklearn来使用GBDT2.1 GradientBoostingRegressorclass sklearn.ensemble.GradientBoostingRegressor(*, loss=‘ls’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=‘friedman_mse’, min_samples_split=2, min_samples_leaf=1, min

2021-04-23 13:55:39 148

转载 DataWhale第23期组队集成学习-Task9

文章目录1. 导论2. Boosting方法的基本思路2.1 弱学习与强学习2.2 Boosting3. Adaboost算法3.1 Adaboost的一般使用流程3.2 Adaboost的基本原理3.3 例子4. 使用sklearn对Adaboost算法进行建模1. 导论在前面的学习中，我们探讨了一系列简单而实用的回归和分类模型，同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。 Bagging思想的实质是：通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集

2021-04-19 16:01:29 171

转载 DataWhale第23期组队集成学习-Task8

文章目录一、bagging的思路二、bagging的原理分析三、bagging的案例分析(基于sklearn，介绍随机森林的相关理论以及实例)3.1 树模型3.2 BaggingClassifier3.3 BaggingRegressior4. 例子一、bagging的思路与投票法不同的是，Bagging不仅仅集成模型最后的预测结果，同时采用一定策略来影响基模型训练，保证基模型可以服从一定的假设。在上一章中我们提到，希望各个模型之间具有较大的差异性，而在实际操作中的模型却往往是同质的，因此一个简单的

2021-04-17 13:03:48 137

转载 DataWhale第23期组队集成学习-Task7

文章目录一、投票法的思路二、投票法的原理分析三、投票法的案例分析(基于sklearn，介绍pipe管道的使用以及voting的使用)3.1 VotingRegressor3.2 VotingClassifier3.3 例子一、投票法的思路投票法是集成学习中针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。这可以帮助我们提高模型的泛化能力，减少模型的错误率。举个例子:在航空航天领域，每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号：

2021-04-13 12:57:36 201

转载 DataWhale第23期组队集成学习上-Task6

DataWhale第23期组队集成学习上-Task6还没完成，明天继续修改一、评估模型的性能并调参# 使用网格搜索进行超参数调优：# 方式1：网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_time = time.time()pipe_svc = make_pipeline(StandardScaler(),SVC(r

2021-03-29 17:07:51 195

转载 DataWhale第23期组队集成学习上-Task5

文章目录使用sklearn构建完整的分类项目一、收集数据集并选择合适的特征二、选择度量模型性能的指标三、选择具体的模型并进行训练1. 逻辑回归Logistic regression1.1 推导1.2 小结又改变一下1.3 其他：梯度上升法与梯度下降法1.3.1 梯度上升法1.3.2 梯度下降法2. 基于概率的分类模型2.1 有关贝叶斯2.2 线性判别分析2.2.1 基于贝叶斯公式对线性判别分析的理解2.2.2 推导2.2.3 降维分类的思想理解线性判别分析2.3 朴素贝叶斯2.3.1 代码示例2.4 决策树

2021-03-27 14:10:26 269

转载 DataWhale第23期组队集成学习上-Task4

对模型超参数进行调优(调参)(!tips:蓝色字今天依旧是转跳惊喜)文章目录对模型超参数进行调优(调参)1. 参数与超参数2. 网格搜索GridSearchCV()3. 随机搜索RandomizedSearchCV()4. 其他的优化方法4.1 贝叶斯优化4.2 基于梯度的优化4.2.1 批量梯度下降法BGD4.2.2 随机梯度下降法SGD4.2.3 小批量梯度下降法MBGD5. 例子5.1 网格搜索5.2 随机搜索6. 小结在上一次的讨论中，我们似乎对模型的优化都是对模型算法本身的改进，比如：岭

2021-03-24 13:56:49 185

转载 DataWhale第23期组队集成学习上-Task3

(!tips:依旧是蓝色字有转跳惊喜)文章目录优化基础模型1. 训练均方误差与测试均方误差1.1 过拟合1.1.1 提前终止1.1.2 数据集扩增1.1.3 寻找最优参数2. 偏差 - 方差的权衡2.1 模型的方差2.2 模型的偏差2.3 偏差 - 方差的权衡3. 特征提取3.1 训练误差修正3.2 交叉验证3.2.1 最优子集选择3.2.2 向前逐步选择3.3 压缩估计(正则化)3.3.1 岭回归(L2正则化的例子)3.3.2 Lasso回归(L1正则化的例子)4. 降维4.1 主成分分析(PCA)5.

2021-03-22 16:49:32 203

转载 DataWhale第23期组队集成学习上-Task2

基本的回归模型(ps.点蓝色字体有跳转惊喜!)一、学习和使用机器学习算法开发应用程序应遵循的步骤收集数据；准备输入数据。得到数据后，需要确保数据格式符合要求，还需要为机器学习算法准备特定的数据格式；分析输入数据。这一步的主要作用是确保数据集中没有垃圾数据。此步骤需要人工干预，若在自动化系统中还需要人工干预，显然就降低了系统的价值；训练算法。将前两步得到的格式化数据输入算法，从中抽取知识或信息。若使用无监督学习算法，由于不存在目标变量值，故而不需要训练算法；测试算法。对于监督学习，必须已知用于

2021-03-18 15:14:03 161

转载 Datawhale第23期组队集成学习上-Task1

Datawhale第23期组队集成学习上-Task1机器学习的三大主要任务机器学习的一个重要的目标就是利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。数据通常由一组向量组成，这组向量中的每个向量都是一个样本，一般用xix_ixi来表示一个样本，而其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N，共有N个样本。每个样本xi=(xi1,xi2,...,xip,yi)x_i=(x_{i1},x_{i2},...,x_{ip},y_i)xi=(xi

2021-03-15 16:10:34 282

转载【Datawhale】go语言组队学习 Task13.并发编程

12.1 并发与并行Erlang 之父 Joe Armstrong曾经以下图解释并发与并行。并发在图中的解释是两队人排队接咖啡，两队切换。并行是两个咖啡机，两队人同时接咖啡。“Concurrency is about dealing with lots of things at once. Parallelism is about doing lots of things at once.” — Rob Pike并发使并行变得容易,并发提供了一种构造解决方案的方法,并行一般伴随这多核。并发一般伴

2020-12-23 11:39:24 97

转载【DataWhale】go语言组队学习 Task12.单元测试

在日常开发中，我们通常需要针对现有的功能进行单元测试，以验证开发的正确性。在go标准库中有一个叫做testing的测试框架，可以进行单元测试，命令是go test xxx。测试文件通常是以xx_test.go命名，放在同一包下面。11.1 初探Go单元测试现在假设现在需求是：完成两个复数相加,我们只需要一个函数便可以完成该任务。在开发中，我们需要对该函数进行功能测试，如何快速进行单元测试呢？鼠标放在函数上右键，选择GO:Generate Unit Tests For Function即可生成fi

2020-12-23 11:03:29 97

转载【Datawhale】go语言组队学习 Task11.反射机制

10.1 反射是什么反射的概念是由Smith在1982年首次提出的，主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。Go 语言提供了一种机制在运行时更新变量和检查它们的值、调用它们的方法，但是在编译时并不知道这些变量的具体类型，这称为反射机制。Go语言反射巧妙地借助了实例到接口的转换所使用的数据结构，首先将实例传递给内部的空接口，实际上是将一个实例类型转换为接口可表述的数据结构eface，反射基于这个转换后的数据结构来访问和操作实例的值和类型。10.2 反射的作用1.在编写不定

2020-12-23 10:31:35 90

转载【Datawhale】go语言组队学习 Task10.异常处理

9.1 errorGo语言内置了一个简单的错误接口作为一种错误处理机制，接口定义如下：type error interface { Error() string}它包含一个 Error() 方法，返回值为string。任何类型只要实现Error() string方法，都可以传递error接口类型变量。Go语言典型的错误处理方式是将error作为函数最后一个返回值。Go的error构造有两种方式，分别是第一种：errors.New() 可返回一个错误信息：err := errors.New

2020-12-23 10:05:29 86

转载【Datawhale】go语言组队学习 task9.包管理包引用

8.包管理8.1 Go Modules是什么？Go语言通过包管理来封装模块和复用代码，这里我们只介绍Go Modules管理方法Go Modules于Go语言1.11版本时引入，在1.12版本正式支持，是由Go语言官方提供的包管理解决方案Modules是相关Go包的集合，是源代码交换和版本控制的单元。go命令直接支持使用Modules，包括记录和解析对其他模块的依赖性8.2 Go Modules的使用方法8.2.1 环境变量首先需要设置环境变量，可以使用go env命令查看当前配置。$ go

2020-12-21 11:10:22 96

转载【Datawhale】go语言组队学习 task8.结构体、方法、接口

7.1.结构体Go 语言中没有“类”的概念，也不支持像继承这种面向对象的概念。但是Go 语言的结构体与“类”都是复合结构体，而且Go 语言中结构体的组合方式比面向对象具有更高的扩展性和灵活性。7.1.1 结构体定义结构体一般定义如下：type identifier struct { field1 type1 field2 type2 ...}例如我们想声明一个学生的结构体类型：type Student struct { Name string Age int}结构体中字

2020-12-21 10:24:45 77

转载【Datawhale】go语言组队学习 task7 函数

6.1 函数定义在go语言中函数定义格式如下：func functionName([parameter list]) [returnTypes]{ //body}函数由func关键字进行声明。functionName：代表函数名。parameter list：代表参数列表，函数的参数是可选的，可以包含参数也可以不包含参数。returnTypes：返回值类型，返回值是可选的，可以有返回值，也可以没有返回值。body：用于写函数的具体逻辑例1:下面的函数是用于求两个数的和fun

2020-12-20 11:10:05 104 1

转载【Datawhale】go语言组队学习 task6.数组、切片

5.1 数组5.1.1 如何定义数组数组是具有相同类型且长度固定的一组连续数据。在go语言中我们可以使用如下几种方式来定义数组。//方式一var arr1 = [5]int{}//方式二var arr2 = [5]int{1,2,3,4,5}//方式三var arr3 = [5]int{3:10}输出以上三个变量的值如下所示：arr1 [0 0 0 0 0]arr2 [1 2 3 4 5]arr3 [0 0 0 10 0]方法一在声明时没有为其指定初值，所以数组内的值被初始化

2020-12-19 16:15:50 147 1

转载【DataWhale】go语言组队学习 task5.字典、字符串

4.1 字典map是一种较为特殊的数据结构，在任何一种编程语言中都可以看见他的身影，它是一种键值对结构，它的类型格式为map[K]T，其中K可以是任意可进行比较的类型，T是值类型。通过给定的key可以快速获得对应的value。4.1.1 如何定义字典map的创建：使用字面量创建var m0 map[string]intm1 := map[string]int{"a":1,"b":2}fmt.Println(m1["a"])fmt.Println(m1["b"])m2 := map

2020-12-18 15:27:17 116 1

转载【Datawhale】Go语言组队学习 task4.运算符、控制语句

3.1 运算符假定 A 值为 10，B 值为 20。3.1.1 算数运算符运算符描述实例+相加A + B 输出结果 30-相减A - B 输出结果 -10*相乘A * B 输出结果 200/相除B / A 输出结果 2%求余B % A 输出结果 0++自增A++ 输出结果 11–自减A-- 输出结果 93.1.2 关系运算符运算符描述==检查两个值是否相等，如果相等返回 True 否则返

2020-12-17 16:06:11 131 1

转载【Datawhale】go语言组队学习 task3.变量、常量、枚举

2.1 变量变量，计算机语言能存储计算结果或表示值的抽象概念。可以通过变量名访问，变量名由字母、数字、下划线组成，其中首个字符不能为数字。声明变量的一般形式是使用 var 关键字：var identifier typevar identifier1, identifier2 type变量声明方式：指定变量类型，若没有初始化，数值类型（包括complex64/128）默认零值，bool默认false，字符串默认“”，“var a *int、var a []int、var a map[strin

2020-12-16 10:34:00 103

转载【Datawhale】Go语言组队学习task2.数据类型、关键字、标识符

【Datawhale】Go语言组队学习task2.数据类型、关键字、标识符1.1 数据类型1.1.1 按类别布尔型：只可以是常量 true 或者 false。若不指定初始化值，默认false。eg:var b bool = true或b := false 数字类型：整型和浮点型。位的运算采用补码字符串类型：字符串就是一串固定长度的字符连接起来的字符序列，Go 的字符串是由单个字节连接起来。Go 语言的字符串的字节使用 UTF-8 编码标识 Unicode 文本（它编码的

2020-12-15 15:58:12 111

原创【DataWhale】go语言组队学习task1-linux下go语言的配置

【DataWhale】go语言组队学习task1linux下go语言的配置一、下载下载golangGolang官网下载地址：https://studygolang.com/dl选择适合自己系统的下载。在自己喜欢的位置上创建一个go文件夹，并在go文件夹里解压下载好的go压缩包tar -C 文件路径 -zxvf 压缩包名字官方推荐把文件解压到/usr/local目录下将go语言的文件路径添加到环境变量中（1）打开并编辑环境变量：vim /etc/profile（2）

2020-12-14 10:33:52 121

转载 DataWhale NLP组队学习 Task6 基于深度学习的文本分类3

文章目录文本表示方法Part4Transformer原理基于预训练语言模型的词表示基于Bert的文本分类Bert PretrainBert Finetune本章小结本章作业后记文本表示方法Part4Transformer原理Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两

2020-08-04 16:37:54 139

转载 DataWhale NLP组队学习 Task5 基于深度学习的文本分类2

文章目录文本表示方法 Part3词向量TextCNNTextRNN基于TextCNN、TextRNN的文本表示TextCNNTextRNN使用HAN用于文本分类本章小结本章作业后记文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线

2020-07-31 23:21:38 245

转载 DataWhale NLP组队学习 Task4 基于深度学习的文本分类1

文章目录基于深度学习的文本分类一、文本表示方法 Part21.现有文本表示方法的缺陷2.FastText二、基于FastText的文本分类三、如何使用验证集调参四、本章小结五、本章作业六、后记基于深度学习的文本分类与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。一、文本表示方法 Part21.现有文本表示方法的缺陷在上一章节，我们介绍几种文本表示方法：One-hotBag of WordsN-gramTF-IDF

2020-07-27 21:43:31 97

原创 DataWhale NLP组队学习 Task3 基于机器学习的文本分类

Task3 基于机器学习的文本分类一、基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广，且包括多个分支，本章侧重使用传统机器学习，从下一章开始是基于深度学习的文本分类。1.机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程，机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支，对于学习者来说应该优先掌握机器学习算法的分类，然后再其中一种机器

2020-07-25 22:14:25 225 1

原创 DataWhale NLP组队学习 Task2 数据读取与数据分析

文章目录学习目标数据读取数据分析句子长度分析新闻类别分布字符分布统计数据分析的结论本章小结本章作业后记学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=100)这里的read_csv

2020-07-22 22:00:20 106

空空如也

空空如也