schdut-CSDN博客

原创新加坡Shopee内推

原帖：https://www.nowcoder.com/discuss/642025公司简介Shopee目前是东南亚领先的电商平台，母公司Sea已在纽交所上市。Shopee总部位于新加坡，目前正在高速增长中，hc很多。优势：工作生活平衡：目前了解是上午9:30上班，晚上7点下班，双休（加班很少，没有996、大小周）薪酬可观：具体可查看offershow，每年晋升+普调（没有强制361比例）福利好：公司内设健身房、淋浴间、按摩室，标配MacbookPro，提供商业保险，18天年假，14天病假

2021-04-17 10:43:59 1285 1

原创【推荐】Java自学网站HOW2J.CN 手把手带你做实践项目

写在前面：HOW2J.CN最近开始找实习，发现大部分公司更需要会Java的，而不是只会Python的，所以只好开始重新学习Java了。因为之前学过，所以对基本语法的掌握还是非常快的。学习Java不仅要掌握好基础，更需要有实践项目的经历。这时我遇到了HOW2J.CN，这个网站分为一个个模块，从Java基础到高级，从前端到J2EE都进行了介绍，每一节都有课后习题和答案，不懂的还有视频讲解。站长还提供了好几个实践项目，有桌面项目，天猫前端后端等，循序渐进地引导，降低了学习了困难行。为了实际上手，我花了几十块

2020-05-14 16:30:54 3406

原创在Docker踩坑之后才了解了127.0.0.1和0.0.0.0的区别

0.0.0.0是另一个特殊的IP地址，也称为通配符地址。当您将应用程序绑定到0.0.0.0地址时，它将监听该计算机上的所有网络接口，并通过这些接口接受流量。它是一个保留的IP地址，用于在同一台计算机上的进程之间进行通信。当您将应用程序绑定到127.0.0.1地址时，它将只能通过该计算机上的本地网络接口进行访问。因此，当您将应用程序绑定到127.0.0.1时，它只能在本地计算机上访问。但是，当您将应用程序绑定到0.0.0.0时，它可以在任何可访问该计算机的网络接口上访问。声明：以下文本来自ChatGPT。

2023-04-22 22:47:12 3356

原创【MySQL】日志

在 MySQL 中，有多种不同的日志，包括错误日志、二进制日志、查询日志和慢查询日志，这些日志发挥着不同的作用。另外还有redo日志、undo日志和relay日志。

2023-01-28 09:54:11 515

原创【MySQL】锁

具体来说，查询从DB_TRX_ID=300版本的数据开始，发现对应的事务未提交（因为300在活跃事务中），然后根据DB_ROLL_PTR向后查找历史版本，最后发现DB_TRX_ID=200版本的数据已经提交（因为200不在活跃事务中），返回这个版本的数据。4）假设快照读所在的事务ID=300，读视图Read View的当前活跃的事务包括（205，255，300），那么该查询所处的事务是活跃的事务（还没有提交），所以可以观察到当前事务的更新，返回name=mvcc。MyISAM的读写锁调度的策略是写锁优先。

2023-01-24 19:37:19 696

原创【MySQL】存储引擎

InnoDB存储引擎支持外键和事务，具有事务提交、回滚、崩溃恢复的能力，而且支持行级锁。MyISAM不支持事务、也不支持外键，其优势是访问的速度快，对事务的完整性没有要求或者以SELECT、INSERT为主的应用基本上都可以使用这个引擎。MySQL5.0支持的存储引擎包含：InnoDB、MyISAM、BDB、MEMORY、MERGE、EXAMPLE、NDB Cluster、ARCHIVE、CSV、BLACKHOLE、FEDERATED等，其中InnoDB和BDB提供事务安全表，其他存储引擎是非事务安全表。

2023-01-24 19:30:17 1788

原创【MySQL】索引

对于Innodb存储引擎来说，二级索引在叶子节点中所保存的是主键值和索引列，如果使用非主键索引查询不在该索引中的数据的话，在查找到相应的键值后，还要通过主键索引进行二次查询才能获取真正需要的数据。InnoDB存储引擎的主键索引是聚簇索引，因为数据文件和主键索引是一起存储的，而且数据文件本身就是按主键索引底层的B+树进行组织的，树的叶节点data域保存了。通过索引来查找数据时，先读取根节点的页，使用二分查找搜索其中合适的索引，找到下一层的页，进而找到叶子节点，在叶子节点的数据中查找目标数据。

2023-01-24 19:19:25 1410

原创艰难的秋招机器学习笔记评价指标等各种问题

文章目录评价指标分类分类准确率查准率，查全率，F1-scoreROC,AUC回归平均平方误差平均绝对误差各种问题泛化误差，偏差，方差，噪声欠拟合，过拟合如何解决欠拟合，过拟合如何解决类别不平衡问题评价指标分类分类准确率分类准确（错误）率是分类正确（错误）的个数占所有样本的比例。查准率，查全率，F1-score实际为正例实际为负例预测为正例（positive)TP (True Positive)FP (False Positive)预测为负例（negative)F

2021-02-02 16:32:03 181

原创艰难的秋招机器学习笔记集成学习、随机森林、Adaboost、提升树、GBDT、XGBoost

文章目录决策树介绍具体算法剪枝集成学习介绍Bagging和Boosting的区别随机森林Adaboost介绍描述提升树介绍描述GBDT介绍描述如何做多分类损失函数分类回归XGBoost介绍前提推导优点参数决策树介绍决策树是一种基于规则的算法。决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。决策树学习算法通常是递归地选择最优特征，并根据该特征对训练数据进行分割。这一过程对应着特征空间的划分，也对应着决策树的构建。决策树学习算法主要包括三个过程：特征选择

2021-02-02 16:21:03 272

原创 Python实现《算法导论第三版》中的算法第23章最小生成树

最小生成树对于一个带权重的连通无向图G=(V,E)G=(V,E)G=(V,E)和权重函数w:E→Rw:E \rightarrow Rw:E→R，该权重函数将每条边映射到实数值的权重上。最小生成树（Minimum Spanning Tree，MST）问题是指，找到一个无环子集T⊆ET\subseteq ET⊆E，能够将所有的结点连接起来，又具有最小的权重。解决最小生成树问题有两种算法：Kruskal算法和Prim算法。这两种算法都是贪心算法。贪心算法通常在每一步有多个可能的选择，并推荐选择在当前看来最好的

2021-01-20 11:07:13 289

原创 Python实现《算法导论第三版》中的算法第22章基本的图算法

文章目录图的表示图的遍历广度优先搜索深度优先搜索图的表示图有多种表示方法，比较常用的表示法有邻接链表和邻接矩阵。根据边的方向，图可以分为无向图和有向图；根据边的权重，图可以分为带权图和不带权图。对于图G=(V,E)G=(V,E)G=(V,E)，其邻接链表表示由一个包含∣V∣|V|∣V∣条链表的数组AdjAdjAdj所构成，每个结点有一条链表。对于每个结点u∈Vu \in Vu∈V，邻接链表Adj[u]Adj[u]Adj[u]包含所有与结点uuu之间有边相连的结点vvv，即Adj[u]Adj[u]Ad

2021-01-13 15:55:45 343 1

原创艰难的秋招机器学习笔记逻辑回归、FM、支持向量机、决策树

写在前面：本来找工作的目标是算法工程师，直到秋招之前也在准备算法，但是渐渐发现找算法有点困难，既没有大厂实习，也没有厉害的论文，所以只好转向开发了。复习机器学习的时候写了一点笔记，当然参考了网上一些文章，因为之后也不会找算法了，就把算法的笔记先放出来，供有缘人参考。如果有写得不好的地方，欢迎批评指正！因为是用有道云笔记写的，markdown的语法不太一样，所以就直接分享有道云笔记了！笔记在这里...

2020-08-17 13:53:01 222

原创对比XGBoost.cv和sklearn中的交叉验证

写在前面：已经很久很久很久没有发博客了，有点愧疚还有点难过，哎。。。XGBoost有两种接口：原生接口，比如xgboost.train，xgboost.cvsklearn接口，比如xgboost.XGBClassifier，xgboost.XGBRegressor两种接口有些许不同，比如原生接口的学习率参数是eta，sklearn接口的是learning_rate，原生接口要在tr...

2020-03-25 20:41:34 8698 3

原创如何通俗地理解Family-wise error rate(FWER)和False discovery rate(FDR)

Family-wise error rate(FWER)，暂时还不了解比较通俗易懂的翻译。False discovery rate(FDR)，一般翻译为错误发现率。在研究使用假设检验解决机器学习中的分类问题时，我遇到了多重假设检验问题。FWER和FDR正是解决这一问题的两种方法。经过老师和师兄师姐的指导，我能够将FDR应用于自己的问题当中，并且实验结果也有所改善。但是，应用之后，我仍然存在一些困惑...

2019-02-03 22:00:58 26769 13

原创 Python实现《算法导论第三版》中的算法第10章基本数据结构

文章目录第10章基本数据结构10.1 栈和队列10.2 链表第10章基本数据结构10.1 栈和队列栈和队列都是一种动态集合。栈实现后进先出(last-in, first-out, LIFO)的策略：最后进入的元素被最先删除。队列实现先进先出(first-in, first-out, FIFO)的策略：最先进入的元素被最先删除。下面实现了书中的栈，包括：P129：STACK-EMPT...

2018-11-23 19:47:43 758

原创 Python实现《算法导论第三版》中的算法第9章中位数和顺序统计量

目录第9章中位数和顺序统计量9.1 最小值和最大值9.2 期望为线性时间的选择算法9.3 最坏情况为线性时间的选择算法第9章中位数和顺序统计量在一个有nnn个元素组成的集合中，第iii个顺序统计量(order statistic)是该集合中第iii小的元素。例如，最小值是第1个顺序统计量(i=1i=1i=1),最大值是第nnn个统计量。中位数比较特殊，当nnn为奇数时，它是唯一的；当nnn...

2018-10-29 14:19:43 469

原创 Python实现《算法导论第三版》中的算法第8章线性时间排序

目录第8章线性时间排序8.1 排序算法的下界8.2 计数排序8.3 基数排序8.4 桶排序第8章线性时间排序8.1 排序算法的下界归并排序、堆排序和快速排序能在O(nlgn)O(nlgn)O(nlgn)时间内排序nnn个数。归并排序和堆排序在最坏情况下就能够达到该时间，快速排序在平均情况达到该时间（快速排序最坏情况下是O(n2)O(n^2)O(n2)）。如果在排序中各元素的次序依赖于...

2018-10-27 20:42:33 316

原创 Python实现《算法导论第三版》中的算法第7章快速排序

目录第7章快速排序1. 快速排序第7章快速排序1. 快速排序快速排序是一种最坏情况时间复杂度为Θ(n2)\Theta(n^2)Θ(n2)的排序算法。虽然最坏情况很差，但是快速排序通常是实际排序应用中最好的选择。因为他的平均性能非常好：期望时间复杂度为Θ(nlgn)\Theta(nlgn)Θ(nlgn)，而且其中隐含的常数因子非常小。另外，它还是原址排序，空间复杂度为O(1)O(1)O(...

2018-10-20 22:03:53 452

原创 Python实现《算法导论第三版》中的算法第6章堆排序

目录第6章堆排序1. 堆2. 优先队列第6章堆排序1. 堆堆是一个数组，它可以被看成一个近似的完全二叉树。树上的每一个结点对应数组中的一个元素。除最底层外，该树是完全充满的，而且是从左向右填充。表示堆的数组包括两个属性：A.length(通常)给出数组元素的个数，A.heap-size表示有多少堆元素存储在该数组中。也就是说，虽然A[1…A.length]可能都存有数据，但只有A[...

2018-10-13 19:43:37 441 1

原创 Python实现《算法导论第三版》中的算法第4章分治策略

目录第4章分治策略1. 最大子数组问题2. 最大子数组问题的其他解法3. Strassen算法第4章分治策略1. 最大子数组问题P40。认真读一下4.1节，有一定算法基础就可以看懂。这个问题的全称是最大连续子数组问题。那么，最大子数组究竟是什么呢？要想弄清楚最大（连续）子数组是什么，首先需要明白（连续）子数组。（连续）子数组是数组中连续的几个元素组成的数组。此时会有两种不同理解，子数...

2018-09-30 22:04:05 380

原创 Python实现《算法导论第三版》中的算法第2章算法基础

目录第2章算法基础1. 插入排序2. 归并排序3. 选择排序4. 冒泡排序第2章算法基础1. 插入排序P17。插入排序比较简单。class InsertionSort: def sort(self, A): for i in range(1, len(A)): temp = A[i] j = i - 1 ...

2018-09-22 09:36:22 382

原创一些用于聚类和分类问题的数据集

毕业设计时简单研究了聚类和分类问题，整理了一下用到的数据集，有需要的可以参考一下。。。聚类数据集信息序号数据集记录数特征数类别简单分布是否有overlap 来源 1 iris 150 4 3 50/50/50 No UCI 2 wine 178 13 3 59/71/48 ...

2018-08-13 15:02:57 61854 20

原创 Matlab矩阵和向量中的小技巧

学习Matlab中，在此记录一些关于矩阵和向量的小技巧，不定时进行更新…1. 统计向量不同元素的出现次数题目描述：假设一个向量中有多个元素，元素可能重复，统计不同元素的出现次数参考链接：MATLAB如何计算一个向量中每个相同元素的个数？x = [1,2,3,1,1,2,2,3];x_freq = histc(x, unique(x)); % 老版本x_freq = his...

2018-08-13 14:18:13 1266

原创 Matlab中有用的机器学习文档

用Matlab学习机器学习是一个很有趣的体验，文档丰富，函数完整，很容易上手。一、监督学习1. 监督学习工作流程和算法文档链接：Supervised Learning Workflow and Algorithms。该文档介绍了：监督学习是什么？监督学习的步骤包括：准备数据（Prepare Data）选择算法（Choose an Algorithm）拟合模型（F...

2018-06-10 09:29:23 8926

原创 hash tree在apriori算法中如何进行支持度计数数据挖掘导论（完整版）第六章

好几天没写博客了，把之前在知乎上的一个回答搬了过来。题目链接：hash tree 在apriori 算法中是如何进行支持度计数？我的回答如下：基本上看懂了，所以来答一发。我认为这本书写得很好，数据挖掘入门首选。P211中图6-9就是用Hash方法枚举事务t={1,2,3,5,6}的3-项集，这个图应该很好理解。P212中图6-11其实是作者举的一个例子：此图为一个Hash树...

2018-05-08 13:01:59 8351 4

原创 Coursera机器学习笔记第6周第十一章机器学习系统的设计

第十一章机器学习系统的设计第1节建立一个垃圾邮件分类器（Building a Spam Classifier）11.1 优先考虑要做什么参考视频: 11 - 1 - Prioritizing What to Work On (10 min).mkv在接下来的视频中，我将谈到机器学习系统的设计。我将会谈及在设计机器学习系统时，你将遇到的主要问题，同时会给出一些建议...

2018-04-13 15:26:34 430

原创 Coursera机器学习笔记第6周第十章应用机器学习的建议

第十章应用机器学习的建议第1节评估一个学习算法（Evaluating a Learning Algorithm）10.1 决定下一步做什么参考视频：10 - 1 - Deciding What to Try Next (6 min).mkv到目前为止，我们已经介绍了许多不同的算法，你会发现自己已经了解了许多机器学习方面的东西。然而在懂机器学习的人当中，不同人...

2018-04-11 15:02:37 480

原创 Matlab实现把数据集X分割成训练集和测试集

写毕设算法的过程中需要把数据集分割成训练集和测试集，难度不大，把Matlab代码贴在下面。function [X_train, y_train, X_test, y_test] = split_train_test(X, y, k, ratio)%SPLIT_TRAIN_TEST 分割训练集和测试集% 参数X是数据矩阵 y是对应类标签 k是类别个数 ratio是训练集的比例% 返回...

2018-04-10 09:22:03 30877 21

原创二分搜索的模板（二）

二分搜索是算法搜索一部分的重要内容。虽然变化多端，但仍有迹可循，有法可依。记录一下在网上遇到的模板~这个模版的核心是将二分搜索（binary search）问题转化成：在给定升序数组中，寻找第一个或者最后一个 target 元素出现的索引。有几点需要注意：初始化：start = 0，end = array.length - 1循环判断条件：start + 1 &amp;lt; end。表示当...

2018-04-02 14:42:29 322

原创二分搜索的模板（一）

二分搜索是算法搜索一部分的重要内容。虽然变化多端，但仍有迹可循，有法可依。记录一下在网上遇到的模板~这个模版的核心是将二分搜索（binary search）问题转化成：在给定升序数组中，寻找大于等于 target 值的最小索引或小于等于 target 值的最大索引。有几点需要注意：初始化：start = -1，end = array.length循环判断条件：start + 1 &amp;amp;amp;lt...

2018-04-01 20:31:27 291

原创 Coursera机器学习笔记第5周第九章神经网络相关数学公式证明

神经网络相关数学公式证明0. Coursera机器学习神经网络的其他笔记：Coursera机器学习笔记第4周第八章神经网络：表述（一）Coursera机器学习笔记第4周第八章神经网络：表述（二）Coursera机器学习笔记第5周第九章神经网络：学习（一）Coursera机器学习笔记第5周第九章神经网络：学习（二）1. 神经网络的回顾我...

2018-03-29 19:23:32 537 1

原创 Coursera机器学习笔记第5周第九章神经网络：学习（二）

第九章神经网络：学习（二）第2节反向传播实践（Backpropagation in practice）9.4 实现注意：展开参数参考视频：9 - 4 - Implementation Note_ Unrolling Parameters (8 min).mkv为了在高级优化算法的使用需要，我们需要把参数从矩阵转化为向量。以下为高级优化代码，functio...

2018-03-28 19:27:39 308 2

原创 Coursera机器学习笔记第5周第九章神经网络：学习（一）

第九章神经网络：学习（Neural Networks: Learning）（一）第1节代价函数和反向传播（Cost Function and Backpropagation）9.1 代价函数参考视频 : 9 - 1 - Cost Function (7 min).mkv首先引入一些便于讨论的标记。假设神经网络的训练样本有mmm个，每个样本包含输入xxx和类标签y...

2018-03-25 16:51:20 815 1

原创 Python数据结构中有趣的小技巧

学习Python中，在此记录一些Python数据结构中的小技巧，不定时进行更新…1. 统计list中所有元素的频率题目描述：统计list中所有元素的频率。解题方法：nums = [1,2,3,4,5,4,3,2,1] # 一般方法numFreq = {}for num in nums: if num not in numFreq: numFreq[...

2018-03-14 15:17:06 365

原创 Coursera机器学习笔记第4周第八章神经网络：表述（二）

推荐资料：神经网络浅讲：从神经元到深度学习第八章神经网络：表述（二）第3节应用（Applications）8.5 示例和直观理解1 参考视频 : 8 - 5 - Examples and Intuitions I (7 min).mkv从本质上讲，神经网络能够通过学习得出其自身的一系列特征。在普通的逻辑回归中，我们被限制为使用数据中的原始特征x1,x2,…,x...

2018-03-13 15:14:41 262

原创 Coursera机器学习笔记第4周第八章神经网络：表述（一）

第八章神经网络：表述（一）第1节动机（Motivations）8.1 非线性假设参考视频：8 - 1 - Non-linear Hypotheses (10 min).mkv前面我们学习了逻辑回归，它们可以很好的解决一些线性的分类问题。但是对于非线性问题，它们很难画出分类边界线。如下图。如果要实现非线性模型，需要增加模型复杂度（增加特征组合和特征多次项）...

2018-03-12 08:35:18 529

原创 Matlab矩阵和向量中的常用函数

Matlab矩阵和向量中的常用函数博主在用Matlab实现聚类算法时，经常需要对矩阵和向量进行处理，其中涉及了很多函数。因为记性不好，所以在此对经常用到的函数进行记录。不定时更新…1. 最常用最简单的zeros()、ones()、size()、length()2. 最小值：min()C = min(A): A是向量，返回最小的元素。C = min(A): A是矩...

2018-03-08 21:19:22 4724

原创 Coursera机器学习笔记第3周第七章正则化

第七章正则化（Regularization）第1节解决过拟合的问题（Solving the Problem of Overfitting）7.1 过拟合的问题参考视频 : 7 - 1 - The Problem of Overfitting (10 min).mkv我们目前学习了线性回归和逻辑回归算法，它们能有效地解决问题，但将其应用到特定的机器学习应用是，会遇...

2018-02-24 16:54:07 382

原创《机器学习实战》笔记（第四部分其他工具）

采用书籍《机器学习实战》，人民邮电出版社，2013年6月第1版。在线资料：英文资料，中文资料，后者中可以找到源代码和勘误。关于机器学习实战的博客已经有很多，所以本博文仅将书中的知识点进行整理和扩展。第四部分其他工具第13章利用PCA简化数据降维技术：数据数量大，特征多，减少数据的特征进行简化，可以使得数据更易使用，降低很多算法的计算开销，去除噪声，使得结果易懂。我...

2018-02-23 19:42:44 193

原创《机器学习实战》笔记（第三部分无监督学习）

采用书籍《机器学习实战》，人民邮电出版社，2013年6月第1版。在线资料：英文资料，中文资料，后者中可以找到源代码和勘误。关于机器学习实战的博客已经有很多，所以本博文仅将书中的知识点进行整理和扩展。第三部分无监督学习第10章利用K-均值聚类算法对未标注数据分组聚类是一种无监督学习，不知道数据的类标签，它将相似的对象归到同一个簇中，将不相似的对象归到不同簇。簇内的对...

2018-02-23 17:25:26 314

Pipe 3.0——petri网专业画图工具、编辑工具

大连理工大学Booth

空空如也