自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 Python Def Function

什么是函数?函数就是将一些语句集合在一起的部件,他们能够不止一次地在程序中运行。函数是在编程过程中剪辑粘贴的替代。函数是python为了代码最大程度的重用和最小化代码冗余而提供的基本程序结构。函数结构函数逻辑:函数参数的输入是通过参数的赋值进行的。...

2020-10-25 21:20:40 655

原创 进程和线程

多线程是一种使计算机并行工作的方式,使用多线程技术可以实现同时执行多想数据处理和加工任务。以多线程方式运行的应用程序将需要完成的任务分成几个并行的子任务,各子任务相对独立地并发执行,从而提高应用程序的性能和效率,也尽可能地将计算机硬件的性能发挥到最高。一、进程的概念一个进程就是一个正在执行的应用程序,而线程则是进程执行过程中产生的更小分支。二、线程的概念线程与进程相似,是一段完成某种特定功...

2020-03-28 17:32:08 162 1

原创 SSH到底是啥?

SSH是什么?SSH,又叫Secure Shell,是一个网络协议,通过这个网络协议,系统管理员,可以在一个不那么安全的网络里去访问另一台电脑。也就是说,SSH其实就是一个网络交流协议,这个协议可以让两台电脑相互交流这里提到了Secure Shell,那么什么是Shell呢?能操作应用程序的都是shell,狭义的shell指的是命令行方面的软件,包括本章要介绍如何使用SSH我们在我们的...

2020-03-27 08:18:07 3574

原创 Git和Github的关系

什么是GitGit是一款分布式版本管理工具。分布式版本管理我们来大概了解一下git的历史,git的创始人是Linux系统的创造者,Linus Torvals,果真牛逼的人,不会只牛逼一次。分布式系统,Git是分布式版本控制的实践(Distributed Version Control System),分布式版本控制,又叫去中心化版本控制,允许开发者可以参与同一款软件开发专案,但是不必...

2020-03-27 07:44:51 240

原创 mac 终端 统计 txt 文件行数

WC命令Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数、并将统计结果显示输出。1. 命令格式wc [选项]文件…2. 命令功能统计指定文件中的字节数、字数、行数,并将统计结果显示输出。参考:https://www.cnblogs.com/peida/archive/2012/12/18/2822758.html...

2019-09-29 11:53:04 1641

原创 One-Hot Encoding

One-Hot Encoding目录:One-Hot Encoding是什么;为什么我们需要使用One-Hot Encoding;什么时候需要使用到One-Hot Encoding;一、我们为什么使用 One-Hot Encoding?在我们获得数据的时候,比如,我想知道一个女生,最喜欢的口红Top3,她会回答我,比如:Mac, 3CE, Dior(这些都是categorical ...

2019-09-22 11:37:52 137

原创 变量命名

今天在整理工作笔记,归总整理~NOTES FOR TODAY1. For a variable to be a valid name:a. Should not contain spaces, special symbols except underscore,b. should not be a reversed keywordc. Should not contain a digit...

2019-09-22 11:33:29 136

原创 TF-IDF学习完全指南

目标:写给完全没有算法基础的同学们学习TF-IDF目录:在什么场景下我们需要TF-IDFTF-IDF是什么TF-IDF应用Python3 实现TF-IDF总结一、什么场景下我们需要TF-IDF在当前工作中,很多时候,我们需要从非结构化的文本中,提取出结构化的数据。这也可以被称为「信息检索」。经典的信息检索模型包括布尔模型,向量模型,以及TF-IDF模型。布尔模型 该模型以...

2019-09-15 13:13:32 482

原创 sys模块和os模块

算来,摸鱼写代码,都写了一年了。这一年,我都还是没有搞清楚sys和os模块,为啥存在,他们的作用是啥?今天中秋,我决定,好好研究以下,精通甚于不求甚解。⛽️⛽️Python本身就内置了很多非常有用的模块,只要安装完毕,这些模块就可以立刻使用。#!/usr/bin/env python# -*- coding: utf-8 -*-' a test module '_author_ ...

2019-09-13 14:21:11 152

原创 Mac Terminal 目录跳转命令

1. 文件目录首先要清楚几个文件目录:/根目录~用户主目录的缩写。例如当前用户为 hello,那么 ~, 展开来就是 : / Users/ hello.当前目录..父目录2. 命令cd跳转到某个目录cd / 跳转到根目录cd ~ 跳转到用户主目录cd ~apple 表示跳转到用户apple的主目录cd … 表示跳转到上级目录(cd 和 … 之间有空格)...

2019-09-08 17:57:25 628

原创 Xcode

今天在安装lightbgm,在各个教程,都看到了Xcode。虽然,很烦这个东西,但是决定仔细了解一下这是个啥玩意~1. 什么是XcodeXcode 是运行在操作系统Mac OS X上的集成开发工具(IDE)。Xcode是开发 macOS 和 IOS 应用程序的最快捷的方式。 Xcode 具有统一的用户界面设计、编码、测试、调试都在一个简单的窗口内完成。2. Xcode的作用是什么Xcode...

2019-09-08 17:36:27 739

原创 什么时候需要填充 -999

什么时候需要填充 -999最近在看kaggle 的ieee,发现其中一个kernel,尤其简单。发现,其对数据做的所有处理,只有X_train = X_train.fillna(-999)X_test = X_test.fillna(-999)觉得很好奇,为什么可以只填充 -999 这样的数值?这里涉及到一个实际问题,在实际业务中,我们能够获取的数据,经常都有很多缺失值。缺失填充...

2019-09-08 14:42:56 550

原创 稀疏矩阵

稀疏矩阵是什么?对于一个矩阵,如果其为0的元素多于非0的元素,且为0的元素没有排列规律,则其是稀疏矩阵。如果非0的元素多于为0的元素,则其实稠密矩阵。...

2019-07-25 15:16:48 126

原创 计算机组成原理

计算机系统简介基本部件的结构和组织方式基本运算的操作原理基本部件和单元的设计思想课程的分隔整合计算机组成原理之机器计算机系统的基本概念总线存储器输入输出系统计算机组成原理之数字计算机中数的表示计算机的运算方法和运算器计算机组成原理之CPU指令系统CPU的结构和功能控制单元控制单元的设计...

2019-05-21 12:46:15 174

原创 Mac部署Hexo详细教程

参考:Mac系统中的根目录和home目录分别指什么,他们有关系?Downloading and installing Node.js and npmmac环境下搭建hexo+github pages+next个人博客hexo中文文档Node Version Manager - Simple bash script to manage multiple active node.js ve...

2019-04-30 21:25:23 5227 4

转载 node.js和JavaScript的关系

1. 什么是node.jsnode.js是一个基于 Chrome V8 引擎的 JavaScript 运行时的环境。2. 什么是JavaScript2.1比较JavaScript 和 Java两者之间没有关系V8是google开源的JavaScript引擎,用于执行JavaScript;类似JVM执行java字节码。在node.js 诞生之前,V8是内置于Chromeium中的,现在也...

2019-04-25 10:06:37 4462 2

原创 如何在Mac上查找是否安装了git

背景:最近在给自己搭建Hexo,但是操作过程中,发现自己的很多盲区,比如:对安装包的安装管理没有概念,对自己用的git到底是什么,也没有沉下心去深入了解,因此,决定,洗心革面,好好记录一下。Git 是什么首先,我们来了解一下git是什么?Git是目前世界上最先进的分布式版本控制系统。参考廖雪峰的官方网站:如何在Mac上查找是否安装了git第一步:进入根目录,输入代码git --ver...

2019-04-24 10:17:16 10680

原创 给hexo安装主题

本篇文章,主要包含以下几个部分:Hexo简介如何给hexo设置好看的主题Hexo简介hexo 是一个快速、简洁且高效的博客框架。Hexo 使用 Markdown解析文章,在几秒内,即可利用靓丽的主题生成静态网页。安装教程:https://blog.csdn.net/qq_34290780/article/details/78230706如何给Hexo设置好看的主题先看一下,我的h...

2019-04-23 16:03:28 7352 2

原创 在Pandas中使用iloc, loc和ix来选择行和列

1. 主要用法在Pandas里面,主要由3种方法来选择数据。通过行来选择(.iloc)通过label和条件表达来选择数据(.loc)2. 使用iloc来选择数据iloc意味着integer-location based indexing / selecting by position.iloc 索引语法如下data.iloc[<row selection>,<c...

2019-03-20 10:12:16 2748

原创 迁移学习

1. 迁移学习历史迁移学习,允许领域,任务,以及训练集和测试集的分布不一样。在现实生活中,我们也能发现很多迁移学习的案例。迁移学习的概念来自于,人类可以将利用学习过的知识来处理新的问题。2. 迁移学习技术的分类2.1 迁移什么迁移什么回答的是:在不同的领域和任务之间,知识的哪一部分可以被迁移。有的知识对于特定的领域和任务是具体的,一些知识,尽管对于不同的领域,但是可能是有共性的,比如他们都...

2019-03-19 15:45:58 144

原创 二分类比赛流程

数据预处理确认数据是否完整(nan,类型异常)将string类型,换成category(使用Onehot或者LabelEncoder)数据标准化(MirmaxScaler或者StandardScaler)保存数据(因为部分预处理过程会比较耗时,所以需要保留中间结果)模型选择一般来说,越新的模型效果越好模型 - 示例lightgbm 随机切分验证集,构建lgb的datase...

2019-03-18 09:06:50 606

原创 jupyter notebook插入本地图片

如何在Jupyter Notebook中插入本地图片?我在网上搜索的时候,看到网上写的都是,将cell调节成为markdown cell, 然后输入下面的代码![title](img/picture.png)于是,在调节了路径之后,我按照上方的说明进行了操作,但是显示图片无法显示。我思考了一下,才意识到,上面代码中的img是表示这里有一个文件夹,也就是说,我们需要先将我们的图片,放在一个...

2019-03-15 17:54:52 6599 1

原创 os.listdir()

在数据算法竞赛中,我经常看见别人的代码中出现下面几行代码:import osprint(os.listdir('path'))我最开始对os.listdir('path')的理解是,返回当前工作区域的下的文件,因此我一直不明白,为什么,我需要import os而不是直接用ls就好。后来,我查阅了一下资料,其实os.listdir('path')是返回指定文件夹包含的文件或者文件夹的列表,...

2019-03-15 11:37:24 13050

原创 Cross-Validation (交叉验证)

在机器学习的监督学习中,通常我们会有一个数据集A,但是在我们训练模型的时候,不可能把数据集A全部拿来训练模型,因为,如果这样做了,我们就没有办法验证和评估我们模型的表现。要想解决这个问题,我们就需要从我们的数据集A中,取出一部分,来验证我们模型在没有见过的数据集上的表现。那么就有一个问题,我们该从这个数据集A中取出来多少数据做验证呢?因为我们知道,在机器学习领域,影响模型表现的三要素:算法,算力...

2019-03-13 17:21:54 781

原创 LightGBM相关使用

1. 数据接口LightGBM Python模块使用以下几种方式来加载数据:libsvm/tsv/csvNumpy 2D array, pandas objectLightGBM binary file加载后的数据存在Dataset对象中。要加载ligsvm文本文件或LightGBM 二进制到 Dataset 中:train = lgb.Dataset('train.svm....

2019-03-09 17:18:06 523

原创 ML竞赛步骤

在进行数据竞赛时候,拿到一个数据集,应该进行如下操作:查看train中label的分布,主要查看正负样本是否均衡,以及主办方是否有将数据集打乱,如果数据集样本没有打乱,可能会存在data leak,这一步需要用到的代码有如下train['target'].value_counts() #主要查看,存在的target的类别以及相对应的出现频数sns.countplot(train['ta...

2019-03-08 23:11:48 800

原创 谈一谈二分类比赛中常用的KFold, StratifiedKFold K折交叉切分

我在最近的好几场二分类赛事中,看到别人分享的kernel,都用到了KFold,因此我准备详细记录一下KFold和StratifiedKFold的用法。1. KFold 和StratifiedKFold有什么区别StratifiedKFold的用法类似KFold,但是SKFold是分层采样,确保训练集,测试集中,各类别样本的比例是和原始数据集中的一致。import numpy as np...

2019-03-07 11:27:37 3014

原创 python忽略warning

python开发中经常warning,尤其在模块版本更新后。添加下面的代码就可以忽略warning。是用warnings模块的过滤器来实现忽略警告。import warningswarning.filterwarnings('ignore')Python通过调用warnings模块中定义的warn()函数来发出警告。警告消息通常用于提示用户一些错误或者过时的用法,当这些情况发生时候我们不...

2019-03-06 12:19:49 4619

原创 Python包tqdm安装以及入门

tqdm介绍tqdm是一个第三方库,是一个进度条库,可以在python长循环中加一个进度提示信息用法。安装tqdm因为我使用的是Anaconda,因此不需要额外下载tqdm安装包,只需要!pip install tqdm进度条的原理十分的简单,无非就是在shell中不断重写当前输出from tqdm import tqdm使用tqdmtqdm 的主要应用场景是在处理大规模数据或...

2019-03-06 11:52:24 5451

原创 使用Python进行数据分析(CH01)

第一步 导入数据data = pd.read_csv('path', names = [col1, col2, col3])第二步 查看数据2.1 查看数据的前5行data.head()2.2 查看数据的所有列的名字data.columns2.3 删除掉不需要的列data.drop(columns = [col1, col2], axis = 1, inplace = Tru...

2019-02-28 18:39:34 418

原创 使用Python进行数据分析(CH)

用Python进行数据分析第一步,导入数据Numpy ArrayNumpy Array的格式新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 ...

2019-02-27 18:28:00 1195

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除