自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 Python3《机器学习实战》学习笔记(七):支持向量机原理篇之手撕线性SVM

SVM的英文全称是Support Vector Machines,我们叫它支持向量机。支持向量机是我们用于分类的一种算法。可以参考大佬博客链接:关于对SVM的介绍。SVM就是试图把棍放在最佳位置,好让在棍的两边有尽可能大的间隙。这个间隙就是球到棍的距离。再之后,把这些球叫做data,把棍子叫做classifier, 找到最大间隙的trick叫做,拍桌子叫做kernelling, 那张纸叫做hyperplane。概况问题。

2023-04-23 11:57:18 316

原创 JUC底层的详细学习(狂神JUC笔记)(全网最全)---8锁问题 集合类问题 Callable

8锁现象如何判断锁的是谁!锁到底锁的是谁?锁会锁住:对象、Class深刻理解我们的锁问题1:多个线程使用同一把锁-顺序执行package com.whf.juc.lock8;/** * @ClassName Test1 * @Description Test1 * @Author 德鲁大叔 * @Date 2021/1/14 16:17 * @Version 1.0 */import java.util.concurrent.TimeUnit;/** * 8锁就是关于锁的

2023-04-23 11:55:16 152

原创 Python3《机器学习实战》学习笔记(十):ANN人工神经网络代码详解(数字识别案例以及人脸识别案例)

学习了ANN,手动实现正反向传播,但是准确率很差,浮动在70-80之间。手动实现的感觉就这水平了,没有pytorch框架运行的准确率高。希望继续加油2022快点过去吧。

2022-11-16 20:45:45 1671 1

原创 Python3《机器学习实战》学习笔记(九):ANN人工神经网络基础详解

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重。

2022-11-16 20:28:55 1088

原创 Programming Differential Privacy第十五章Synthetic Data合成数据

1、数据集的综合表示形式允许回答有关原始数据的查询2、合成表示的一个常见示例是直方图,可以通过在其计数中添加噪声来使其差分隐私3、直方图表示可用于生成与原始数据形状相同的合成数据,方法是将其计数视为概率:将计数归一化为 1,然后使用相应的归一化计数作为概率从直方图条柱中采样4、归一化直方图是单向边际分布的表示形式,它孤立地捕获单个列中的信息5、单向边际不捕获列之间的相关性6、要生成多个列,我们可以使用多个单向边际,或者我们可以构造一个 n 位边际的表示形式,其中 n>1。

2022-11-02 18:24:20 491

原创 Python中stack和unstack函数(附加reset_index,set_index函数)

在用pandas进行数据重排时,经常用到stack和unstack两个函数。,我对两个函数是这样理解和区分的。常见的数据的层次化结构有两种,一种是“花括号”(下图左),一种是表格(下图右),即下面这样的这两种形式:花括号结构只有“(类似于层次化的Series),结构更加偏向于堆叠(Series-stack,方便记忆)。表格在行列方向上均有索引(类似于DataFrame)。会将数据从”表格结构“变成”花括号结构“,即将其,将数据从”花括号结构“变成”表格结构“,即要将其中一层的。

2022-11-02 17:36:19 1784 1

原创 Python中map、apply、applymap的用法

假设在数据统计的过程中,年龄age列有较大误差,需要对其进行调整(加上或减去一个值),由于这个加上或减去的值未知,故在定义函数时,需要加多一个参数。中axis的概念,在DataFrame对象的大多数方法中,都会有axis这个参数,它控制了你指定的操作是沿着0轴还是1轴进行。是非常重要的数据处理方法,它可以接收各种各样的函数(Python内置的或自定义的),处理方式很灵活,下面通过几个例子来看看。一起看看下面的例子。的操作,这时可以用apply进行相应的操作,因为是对列进行操作,所以需要指定。

2022-11-02 16:07:33 896

原创 Programming Differential Privacy第十四章Local Differential Privacy本地化差分隐私

例如,我们想知道有多少参与者与每个职业相关,所以我们的领域是职业集。

2022-11-02 00:16:27 538

原创 Programming Differential Privacy第十三章MACHINE LEARNING机器学习

什么是模型,以及它如何对已经编码的信息作预测。有许多不同类型的模型,但我们将在这里探讨的是线性模型。对于带有𝑘-维度特征向量𝑥1,…。然后取它的符号(即,如果上面的数量为负,我们预测标签为-1;如果为正,我们预测为1)。然后,模型本身可以由包含值的向量𝑤1,…,𝑤𝑘 和值𝑏𝑖𝑎𝑠来表示。该模型被称为线性模型,因为我们在预测标签时计算的数量是1次多项式。变量𝑤1,…,𝑤𝑘 通常称为模型的权重或系数,𝑏𝑖𝑎𝑠 通常称为偏差项或截距。

2022-11-01 17:59:45 265

原创 Python中zip函数的使用方法

zip()函数是Python的内置函数,将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的list(Python3为了节约内存,zip()返回的是zip对象,需要通过list()手动转换成列表)如果zip()没有可迭代的元素,则它将返回一个空的迭代器,如果每个迭代器的元素个数不一致,则返回的列表长度与最短的一致。利用 * 号操作符,可以将元组解压为列表。

2022-10-31 11:57:40 5695 2

原创 Programming Differential Privacy第十二章EXERCISES IN ALGORITHM DESIGN算法设计练习

首先使用SVT在𝑓(𝑥)上为整个数据集找到好的上界和下界。𝑐𝑙𝑖𝑝(𝑓(𝑥)𝑙𝑜𝑤𝑒𝑟,𝑢𝑝𝑝𝑒𝑟)的结果有有界限的敏感性,所以我们可以使用这个查询SVT。想法2. 计算所有级别的计数,对每个级别使用并行组合。也许我们需要更精确的层次结构的较小级别。想法3. 作为(2),还可以使用后处理,以更高的层次为基础重新缩放较低的层次;你的算法应该产生总体。设计一个不需要分析人员指定查询输出范围的样本和聚合的变体𝑓函数。-我们应该使用顺序组合,高级组合,还是差异隐私的变体?需要多少查询,我们可以使用什么样的组合?

2022-10-30 16:48:26 340

原创 Programming Differential Privacy第十一章The Sparse Vector Technique稀疏向量技术

稀疏向量技术对数据集上的敏感度为1的查询流进行操作。它释放流中第一个通过测试的查询的标识,而不是其他任何内容。SVT的优点是,无论考虑多少查询,它都会产生固定的总隐私成本。在这种情况下,我们希望通过放弃对明显低于阈值的查询的数字答案,而仅报告这些查询确实低于阈值,从而获得本质的分析。(如果我们这样选择的话,我们也将能够获得阈值以上查询的数字值,而只需花费额外的费用)。添加噪音并仅报告噪声值是否超过阈值。该AboveThreshold算法通过有时返回错误的索引来保护差分隐私。

2022-10-30 15:56:12 664

原创 Programming Differential Privacy第十章THE EXPONENTIAL MECHANISM指数机制

1、指数机制的理解:分析人员通过指定一个评分函数来定义哪个元素是"最佳"的,该评分函数为集合中的每个元素输出一个分数,并定义要从中选取的事物集。该机制通过近似最大化它返回的元素的分数来提供差分隐私,换句话说,为了满足差分隐私,指数机制有时会从没有最高分数的集合中返回一个元素。2、指数机制和我们之前看到的机制(例如拉普拉斯机制)之间最大的实际区别是,指数机制的输出始终是集合R 的成员。当从有限集合中选择项目时,当嘈杂的答案没有意义时,这非常有用。

2022-10-29 17:39:04 840

原创 Python3《机器学习实战》学习笔记(六):Logistic回归实战篇之预测病马死亡率

我们使用的数据集一共有100个样本。那么,dataMatrix就是一个1003的矩阵。每次计算h的时候,都要计算dataMatrixweights这个矩阵乘法运算,要进行1003次乘法运算和1002次加法运算。同理,更新回归系数(最优参数)weights时,也需要用到整个数据集,要进行矩阵乘法运算。总而言之,该方法处理100个左右的数据集时尚可,但如果有数十亿样本和成千上万的特征,那么该方法的计算复杂度就太高了。

2022-10-28 19:58:37 809

原创 python中numpy.append()中axis三种用法介绍

一维数组。

2022-10-28 19:49:47 957

原创 Python3《机器学习实战》学习笔记(五):Logistic回归基础篇之梯度上升算法

通过Logistic回归和梯度上升两方法开始,首先从原理开始推论。收集数据:采用任意方法收集数据。准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。分析数据:采用任意方法对数据进行分析。训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。测试算法:一旦训练步骤完成,分类将会很快。使用算法:首先,我们需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数,就可以对这些数值进行简单的回归计算,判定它们属于哪个类别;

2022-10-28 15:41:34 920

原创 Python3《机器学习实战》学习笔记(四):朴素贝叶斯实战篇之新浪新闻分类

在训练朴素贝叶斯分类器之前,要处理好训练集,文本的清洗还是有很多需要学习的东西。根据提取的分类特征将文本向量化,然后训练朴素贝叶斯分类器。分类的时候也是一样的去高频词汇数量的不同,对结果也是有影响的的。拉普拉斯平滑对于改善朴素贝叶斯分类器的分类效果有着积极的作用。

2022-10-27 15:14:14 664

原创 Python3《机器学习实战》学习笔记(三):朴素贝叶斯基础篇之言论过滤器

一种有监督学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。是基于概率和误判损失选择最优的类别标记生成式模型,通过计算概率来进行分类,可以用来处理多分类问题。对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。对输入数据的表达形式很敏感。

2022-10-27 09:59:21 163

原创 Python中reduce的用法

reduce函数先从列表(或序列)中,并将输出结果与第3个元素传入函数,输出结果再与第4个元素传入函数,…,以此类推,

2022-10-27 08:56:20 188

原创 Python3《机器学习实战》学习笔记(二):决策树

决策树的分析学习和代码应用

2022-10-26 13:49:28 346

原创 Programming Differential Privacy第九章

这看起来很像𝜖-差异隐私!特别是,事实证明𝐹 满足𝜖-差异隐私,如果:差异隐私研究的一个有趣方向是从以下方面探索其他隐私定义其他分歧。其中,Rényi散度特别有趣,因为它(如最大分歧)也允许我们恢复不同隐私的原始定义。

2022-10-20 14:18:51 602

原创 Programming Differential Privacy第八章

目标:•定义局部敏感性并解释其与全局敏感性的区别•描述当地敏感性如何泄漏数据信息•使用建议的测试版本安全地应用局部敏感性•描述平稳的敏感性框架•使用样本和聚合框架回答具有任意敏感性的查询到目前为止,我们只看到了一种衡量敏感性的方法:全球敏感性。我们对全球敏感性的定义考虑了两个的数据集。这似乎很悲观,因为我们将在实际数据集-我们不应该考虑该数据集的邻居吗?。

2022-10-20 14:16:20 565

原创 Python中WebDriverWait等待使用

设置等待 wait = WebDriverWait(driver , 10 , 0.5) #使用匿名函数 wait . until(lambda diver : driver . find_element_by_id('kw'))

2022-10-19 00:19:58 2994

原创 Python中find_elements以及presence_of_element_located的用法

此例子可以实现,B站中,循环点击列表中的每一个按钮。

2022-10-18 16:26:11 2649

原创 Python中Message: ‘chromedriver‘ executable needs to be in PATH.问题以及Chrome更换安装目录问题

为了方便,chromedriver下载之后解压,然后把chromedriver驱动添加到python安装路径下的scripts文件夹里面,这样chromedriver就添加到了环境变量里面,不需要另外配置环境变量。可以在浏览器中输入“chrome://version”查看版本。下载相对应版本的driver驱动。

2022-10-18 15:51:52 214

原创 Python配置国内镜像源

*问题:**我们在使用pip下载包的时候,常常遇到下载失败的情况们非常头疼。我们可以配置国内的镜像源下载,很快!

2022-10-18 12:44:43 395

原创 python中更换jupyter主题

为了换一个好看的主题。

2022-10-17 17:25:18 154

原创 python中hist的用法总结

获取或设置当前x轴刻度位置和标签。若不传递任何参数,则返回当前刻度值,说白了就是把坐标轴改成自己要的样子。ticks:x轴刻度位置的列表,若传入空列表,即不显示x轴labels:放在指定刻度位置的标签文本。当ticks参数有输入值,该参数才能传入参数**kwargs:文本属性用来控制标签文本的展示,例如字体大小、字体样式等如图可知,x轴默认给出的只有偶数刻度及其对应的文本标签。

2022-10-17 16:18:46 6758

原创 Python中slice操作

我们已知python中列表,数组等都支持切片操作。

2022-10-17 10:15:57 135

原创 Programming Differential Privacy第七章

的机制可能(以低概率)导致非常糟糕的结果结果。灾难机制:r是均匀分布中随机取出来一个数。概率为1−𝛿时,突变机制满足𝜖-差分隐私。当概率为𝛿,它泄露了整个数据集,没有噪声。该机制满足近似差分隐私的定义,但我们可能不想在实践中使用它。幸运的是,大多数(𝜖, 𝛿)-差异私有机制。

2022-10-13 16:41:13 674

原创 Programming Differential Privacy第六章

目标:• 定义灵敏度• 发现计数查询的敏感性• 找出求和查询的敏感性• 将平均查询分解为计数和求和查询• 使用裁剪来限制求和查询的敏感性正如我们在讨论拉普拉斯机制时提到的,确保差分隐私所需的噪声量对于给定的查询取决于查询的敏感度。敏感度反映了当输入改变输出随之改变的数量级。其中𝑓(𝑥)是确定性函数(查询),𝜖是隐私参数,𝑠是𝑓的敏感度。对于一个将数据集(𝒟)映射为实数的函数𝑓∶𝒟→ℝ,𝑓的全局灵敏度定义如下:这里,𝑑(𝑥,𝑥’)表示两个数据集𝑥和𝑥’之间的距离

2022-10-12 22:00:00 406

原创 Programming Differential Privacy第五章

1.解释顺序组合、并行组合和后处理的概念2.计算不同隐私机制的多个应用程序的累积隐私成本3.确定何时允许使用并行组合下面定义三种有用的方法用在算法中。

2022-10-11 21:09:47 185

原创 Programming Differential Privacy第四章

1.定义差分隐私2.解释差分隐私参数𝜖 的重要性3.使用拉普拉斯算法强制实施不同的隐私查询差分隐私是一个算法的属性,并非一个数据集的属性。我们可以证明一个算法满足差异隐私;为了证明数据集满足不同的隐私,我们必须证明生成它的算法满足差异隐私。定义满足不同隐私的功能通常称为mechanism我们说一种机制𝐹 满足所有相邻数据集的差异隐私𝑥 和𝑥′ , 和所有可能的输出𝑆 在以下条件。如果两个数据集在单个个体之间存在差异,则它们被视为邻居。

2022-10-10 15:52:33 216

原创 Programming Differential Privacy第三章

𝑘-匿名性是数据的一种属性,它确保每个个体“融入”至少一组𝑘 个人视频。• 𝑘-匿名性的检查计算成本也很高:朴素的算法是𝑂(𝑛2) ,更快的算法需要相当大的空间。• 𝑘-匿名性可以通过泛化数据集来修改数据集,从而使特定值变得更多公共和团体更容易形成。• 优化概括极其困难,异常值可能会使其更具挑战性。解决此问题自动是NP难的。

2022-10-09 19:23:23 256 1

原创 Programming Differential Privacy第二章

链接攻击涉及将辅助数据与已取消标识的数据相结合,以重新标识个人。• 在最简单的情况下,可以通过连接包含这些数据集的两个表来执行链接攻击。• 简单的链接攻击非常有效:– 仅一个数据点就足以将内容缩小到几条记录– 缩小记录集有助于建议可能有用的其他辅助数据– 两个数据点通常足以重新识别特定数据集中的很大一部分人口– 三个数据点(性别、邮政编码、出生日期)唯一识别87%的美国人。

2022-10-09 14:47:35 152 1

原创 第六章 堆排序

第六章 堆排序

2022-09-22 14:51:39 106

原创 第四章 分治策略

2022-09-22 10:04:08 49

原创 第二章 算法导论

算法导论第二章

2022-09-21 19:19:03 128

原创 JUC底层的详细学习(狂神JUC笔记)(全网最全)---生产者消费者问题

面试的:单例模式,排序算法,生产者和消费者,死锁生产者和消费者问题Synchronized版本Synchronizedwait和notifyAll可以实现,该方法是传统版本解决方案: if 改为while即可,防止虚假唤醒package com.whf.juc.PC;/** * @ClassName A * @Description A * @Author 德鲁大叔 * @Date 2021/1/14 15:18 * @Version 1.0 *//** * 线程之间的

2022-01-29 16:40:45 113

原创 JUC底层的详细学习(狂神JUC笔记)(全网最全)---什么是JUC

什么是JUCjava.util 是Java的一个工具包业务:普通的线程代码 ThreadRunnable: 没有返回值、效率相比于Callable 相对较低!线程和进程提问?JAVA真的可以开启线程吗? 开不了的! public synchronized void start() { /** * This method is not invoked for the main method thread or "system" * gr

2022-01-29 16:20:29 678

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除