xiu351084315-CSDN博客

原创数据结构_递归、回溯、分治、动态规划

一、递归递归算法是把问题转化为规模缩小了的同类问题的子问题。然后递归调用函数（或过程）来表示问题的解。本文主要从以下方面进行介绍递归算法：1. 递归算法的概念2. 递归算法的特点3. 递归算法的应用4. 递归算法的典型实例1. 递归算法的概念递归过程一般通过函数或子过程来实现。递归方法：在函数或子过程的内部，直接或者间接地调用自己的算法。2. 递归算法的特点2....

2019-04-27 19:43:17 586

原创数据结构-图

数据结构--图1.图的概念图（Graph）是由顶点的有穷非空集合和顶点之间边的集合组成，通常表示为：G（V,E），其中，G表示一个图，V是图中G中顶点的集合，E是图G中边的集合。图有两种：无向图和有向图。1.1 无向图无向图：若两个顶点没有方向，则称这条边为无向边。如果图中任意两个顶点之间的边都是无向边，则称该图为无向图（如下图所示）。在无向图中，若任意两个顶点之间都存在边，则称为无...

2019-04-22 21:59:17 1153

原创数据结构_哈希表

散列表（Hashtable，也叫哈希表），是根据键（Key）而直接访问在内存存储位置的数据结构。也就是说，它通过计算一个关于键值的函数，将所需查询的数据映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数，存放记录的数组称做散列表。hash冲突发生的情况是指存在两个值的hashCode相同。链表法又称拉链法，作用是把具有相同散列地址的关键字(同义词)值放在同一个单...

2019-04-16 21:59:31 804

原创达观杯文本处理（三）--调优与融合

【Task4 模型优化】：（2天）1）进一步通过网格搜索法对3个模型进行调优（用5000条数据，调参时采用五折交叉验证的方式），并进行模型评估，展示代码的运行结果。(可以尝试使用其他模型)2）模型融合，模型融合方式任意，并结合之前的任务给出你的最优结果。例如Stacking融合，用你目前评分最高的模型作为基准模型，和其他模型进行stacking融合，得到最终模型及评分结果。结果展示如下表：...

2019-04-15 21:32:41 210

原创数据结构_排序+二分查找

由于每个排序内容比较多，各个排序方法及程序分布整理在dan排序之归并排序（C++实现）：https://blog.csdn.net/xiu351084315/article/details/89301418排序之快速排序（C++实现）：https://blog.csdn.net/xiu351084315/article/details/89301475排序之插入排序（C++...

2019-04-14 21:59:42 145

原创排序之插入排序（C++实现）

插入排序（英语：Insertion Sort）是一种简单直观的排序算法。它的工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序在实现上，通常采用in-place排序（即只需用到{\displaystyle O(1)}的额外空间的排序），因而在从后向前扫描过程中，需要反复把已排序元素逐步向后挪位，为最新元素提供插入空间。 ...

2019-04-14 21:25:53 10871 1

原创排序之快速排序（C++实现）

快速排序是C.R.A.Hoare于1962年提出的一种划分交换排序。它采用了一种分治的策略，通常称其为分治法(Divide-and-ConquerMethod)。快速排序的基本思想是：1．先从数列中取出一个数作为基准数。2．分区过程，将比这个数大的数全放到它的右边，小于或等于它的数全放到它的左边。3．再对左右区间重复第二步，直到各区间只有一个数。虽然快速排序称为分治...

2019-04-14 21:10:45 668

1、归并排序（分治思想）归并排序（merge sort）是一个时间复杂度为O（nlogn）的基于比较的排序算法（comparison based sorting algorithm）。归并排序大多数实现（implementation）都将其实现成了一个stable sort, 所谓的stable sort的意思就是the implementation preserves the input ...

2019-04-14 20:40:17 306

原创达观杯文本处理（五）--LightGBM

1、LightGBM介绍LightGBM是一个梯度Boosting框架，使用基于决策树的学习算法。LightGBM的优点：　　1）更快的训练效率　　2）低内存使用　　3）更高的准确率　　4）支持并行化学习　　5）可以处理大规模数据2、速度和内存使用的优化许多增强工具使用基于预排序的算法[2,3]（例如xgboost中的默认算法）用于决策树学习。这是一个简单的解...

2019-04-13 21:51:11 1165

原创达观杯文本处理（四）--LR,SVM

1、LR逻辑回归梳理首先需要区别两个容易逻辑回归模型易混淆的概念：线性回归与逻辑回归：两者都是通过最小化预测值与实际结果值之间的误差，而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测，方法是线性回归；而对于离散值或类别预测，方法是逻辑回归。从线性回归到逻辑回归梳理如下：1.1线性回归1.1.1线性回归问题　线性回归，是利用数理统计中回归分析，来确定...

2019-04-11 22:55:25 223

原创数据结构编程

1、数组部分哈希表思想：哈希表也称为散列表，是算法终于时间和空间作出权衡的经典例子。当一个表所有的键都是小整数时，便可以使用一个数组来实现无序的符号表，将键作为数组的索引而数组i中所存储的值就是该键所对应的键值，即key-value对应。哈希表的思想也是这样子的，只是哈希表的键的类型更为复杂而已。使用哈希表（散列查找）分为两步：用散列函数将被查找的键转换为数组的一个...

2019-04-11 21:54:00 1394

原创高级算法梳理-XGB

XGB算法梳理1、算法原理XGBoost(eXtreme Gradient Boosting)算法是Gradient Boosting算法的高效实现版本，因其在应用实践中表现出优良的效果和效率，因而也被工业界广为推崇。想要了解XGBoost算法的原理，首先需要理解Boosting算法。简单来说，Boosting算法是将个体学习器集成为更复杂学习器的机器学习方法，它更强调个体学习器之间存...

2019-04-10 20:26:22 3462

原创达观杯文本处理（三）--word2vec

1、词向量word2vec介绍词向量提供了一种数学化的方法，把自然语言信息转化成向量形式的数字信息。这样便可以把自然语言的理解问题转化视为机器学习问题来处理。其中最常用的词向量模型无非是 one-hot Representation模型和 distributed representation 模型。1.1 One-hot Representation模型One-hot Represen...

2019-04-09 19:52:51 449

原创数据结构TASK1

1.栈//C++实现栈（1）用数组实现一个顺序栈//栈的顺序存储结构需要通过一个数组和一个整型变量实现，//其中，数组存放顺序栈中的每个元素；整型变量存储栈顶位置（即栈顶元素的下表位置（是否也叫栈顶指针位置？））//栈数组：stack[n]// 栈顶位置指针变量：top#include<iostream>#include<stdlib.h&g...

2019-04-08 21:53:55 220

原创【达观杯】数据竞赛学习篇（二）

TF-IDF理论并实践1. TF-IDF原理。2. 文本矩阵化，使用词袋模型，以TF-IDF特征值为权重。（可以使用Python中TfidfTransformer库）3.将之前的数据进行tfidf1. TF-IDF原理。什么是TF-IDF：TF-IDF是一种文本的预处理,一般都是在向量化之后出现的一种统计方法，TF-IDF(Term Frequency-Inverse Document...

2019-04-08 10:29:24 221

原创 GBDT算法梳理

1、GBDT基础概念与理解分析GBDT(Gradient Boosting Decision Tree)又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模...

2019-04-07 21:57:07 1438

原创 Pytorch基础第6期|task1 Pytorch基础及概念

Python部分：我电脑上之间安装的python 是3.6.5版本的。编译器常用的是Pycharm。也可以直接下载annoconda就可以下载python环境及常用的第三方库。Pytorch部分：什么是pytorchPyTorch是一个基于python的科学计算包，主要针对两类人群：(1)作为NumPy的替代品，可以利用GPU的性能进行计算(2)作为一个高灵活性、速度快的...

2019-04-06 21:57:18 828

转载【达观杯】数据竞赛学习篇（一）

1、下载数据数据下载地址：http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html得到训练集数据train_set.csv和测试集数据test_set.csv其中：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id...

2019-04-05 21:51:06 278

原创算法梳理:随机森林算法梳理

1集成学习概念集成学习是集成多个“个体学习器”。主要是通过构建并结合多个学习器来完成学习任务，也被称为多分类器系统。集成学习结构：先产生一组个体学习器，再用某种策略将他们结合起来。2个体学习器概念个体学习器一般是由一个现有的学习算法从训练数据产生的。例如C4.5决策树，BP神经网络等。集成学习分类集成学习分类组件 ...

2019-04-04 21:50:58 2078

转载 airflow

1.1 airflow 是什么Airflow is a platform to programmatically author, schedule and monitor workflows.airflow 是一个编排、调度和监控workflow的平台，由Airbnb开源，现在在Apache Software Foundation 孵化。airflow 将workflow编排为tasks...

2018-11-01 17:51:32 269

原创 mysql查询优化

数据大时候，先查select count(id) from pgc.secondarymarket_secu再查select id from pgc.secondarymarket_secu ORDER BY id desc;SELECT * FROM TQ_OA_STCODE WHERE SYMBOL='NIU'

2018-10-30 16:10:12 123

原创 python下安装完pymysql测试

1.cmd下输入python,启动python2，

2018-10-21 22:42:08 1251

原创 pymysql安装过程

1、打开cmd2、输入conda list查看anaconde下有无pymysql库没有——》3、直接输入pip install pymysql安装pymysql库4、cmd下输入python，启动python环境5、输入import pymysql启动pymysql库...

2018-10-21 22:14:21 5040

原创数据结构关键知识点梳理(一)

1、数据结构中的容器当很频繁地对序列中部进行插入和删除操作时，应该选择使用的容器是（B ）A vector B list C deque Dstack vector一般使用连续的一段内存区域来实现，适合数据变化不大或者仅在末尾添加删除元素的情形；list使用链表方式实现，如果数据变化频繁，首选list；deque是双向队列，一般使用分段连续存储的方式实现，...

2018-09-04 12:27:09 1299

原创哈希表梳理

研究背景：一些排序，如快排或计数排序造成了大量的空间被浪费掉哈希表定义：存放数据的集合——>哈希表中元素是无序的，不可重复的应用背景：判断一个元素是否在此之前出现过，并优化核心思想：将[0,m)上的值映射到[0,p)上，以节省数据存储空间，哈希表是多对一的映射方式。哈希表的精髓：空间压缩哈希表和常用，也很好用，划重点哈希表的两种实现方式：开散列方法( open has...

2018-08-29 12:00:04 126

xiu351084315的博客