yfgbamboo-CSDN博客

原创 Java了解（更至Task3)

一、Java特性Java:静态面向对象编程语言1）简单性：没有结构，不需要指针2）面向对象3）分布性：分布式语言。既支持各种层次的网络连接，又以Socket类支持可靠的流*（stream）*网络连接，所以用户可以产生分布式的客户机和服务器。4）编译和解释性 java编译程序生成字节码(byte-code),而不是常用的机器码5）稳健性6）安全性7）可移植性8）高性能：Java是一种先编译后解释的语言9）多线程性10）动态性二、基本数据类型与变量（一）基本数据类型（简单数据类型）

2021-07-13 22:12:28 101

原创 Linux

一、了解Linux特点1、开源免费2、多用户、多任务3、安全可靠4、稳定5、多平台发展历程MINIX--教授AndrewS.Tanenbaum 教学用，向学生讲述操作系统内部工作原理。Linux0.01-学生Linus Torvalds 利用Unix的核心，去除繁杂的核心程序，改写成适用于一般计算机的x86系统常用发行版1、Debian2、Ubuntu3、CentOS4、Fedora5、Kali Kali Linux是Debian的一款衍生版。旨在渗透测试和数字取证6、

2021-06-14 23:31:00 159

原创 Task 3 特征工程

"""学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法"""# 3.3.1 导入包并读取数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import LabelEncoderfrom

2020-09-21 23:34:42 169

原创 Task 2 数据分析

目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备2.2 内容介绍1、数据总体了解：1）读取数据集并了解数据集大小，原始特征维度；2）通过info熟悉数据类型；3）粗略查看数据集中各特征基本统计量；2、缺失值和唯一值：1）查看数据缺失值情况2）查看唯一值特征情况3、深入数据-查看数据类型1）类别型数据2）数值型数据①离

2020-09-17 23:51:28 631

原创 Task 1 赛题理解

预测指标AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积分类算法常见的评估指标如下：1、混淆矩阵（Confuse Matrix）（1）若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )（2）若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative )（3）若一个实例是负类，但是被预测为正类，即为假正类FP(False Positive )（4）若一个实例是负类，并且被预测为负类，即为真负类TN(True N

2020-09-15 23:20:06 238

原创文件与文件系统

1、文件与文件系统1）打开文件open(file, mode=‘r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需，文件路径（相对或者绝对路径）。mode: 可选，文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级

2020-08-08 23:52:41 298

原创模块及时间模块

模块把所有的定义存放在文件中，为一些脚本或者交互式的解释器实例使用，这个文件被称为模块(Module)模块是一个包含所有定义的函数和变量的文件，其后缀名是.py。模块可以被别的程序引入，以使用该模块中的函数等功能。这也是使用Python标准库的方法1、什么是模块1）容器→数据的封装2）函数→语句的封装3）类→方法和属性的封装4）模块→程序文件# hello.pydef hi(): print('Hi everyone, I love lsgogroup!')2、命名空间命名空

2020-08-07 23:51:42 177

原创类与对象

一、类与对象1、对象 = 属性+方法对象是类的实例，类主要定义对象的结构，然后以类为模板创建对象。类不但包含方法定义，还包含所有实例共享的数据。#1）封装：信息隐藏技术#我们可以使用关键字class定义Python类，关键字后面紧跟类的名称、分号和类的实现class Turtle: #Python中的类名约定以大写字母开头 """关于类的一个简单例子""" #属性 color = 'green' weight = 10 legs = 4 shel

2020-08-05 23:37:42 157

原创函数与Lambda表达式

1、函数Python把函数也当成对象，可以从另一个函数中返回出来而去构建高阶函数，如：参数是函数；返回值是函数1）函数的定义以def关键词开头，后接函数名和括号()函数执行的代码以：起始并缩进return[表达式]结束函数，选择性的返回一个值给调用方。不代表达式的return相当于返回Nonedef functionname(parameters):“函数_文档字符串”function_suitereturn[expression]2）函数的调用def printme(str):

2020-08-02 22:35:09 155

原创字典集合序列

一、字典1、可变类型与不可变类型1）序列是以连续的整数为索引，与此不同的是，字典以“关键字"为索引，关键字可以是任意不可变类型，通常用字符串或数值2）字典是Python唯一的一个映射类型，字符串、元组、列表属于序列类型3）如何快速判断一个数据类型x是不是可变类型？①麻烦方法:用id(X)函数，对X进行某种操作，比较操作前后的Id,如果不一样，则X不可变,如果一样，则X可变②便捷方法：用hash(X)，只要不报错，证明X可被hash，即不可变，反过来不可被hash，即可变。i=1print(i

2020-07-31 23:51:20 371

原创列表、元组和字符串

一、列表一、列表简单的数据类型：整形int浮点型float布尔型bool容器数据类型：列表list元组tuple字典dict集合set字符串str1、列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的Python对象，语法为[元素1，元素2，…，元素n]关键点是[]和,[]把所有元素绑在一起, 将每个元素一一分开2、列表的创建##1)创建一个普通列表x=['Monday','Tuesday','Wednesday','Thursday','Friday']prin

2020-07-28 23:51:13 343

原创 3 异常处理

异常处理计算机语言针对可能出现的错误定义了异常类型，某种错误引发对应的异常时，异常处理程序将被启动，从而恢复程序的正常运行1.Python标准异常总结1)BaseException:所有异常的基类2)Exception: 常规异常的基类3)StandardError: 所有的内建标准异常的基类4)ArithmeticError: 所有数值计算异类的基类5)FloatingPointError: 浮点计算异常6)OverflowError: 数值运算超出最大限制7)ZeroDivisionE

2020-07-24 23:33:53 128

原创 2.条件循环结构

#一、条件语句1.if 语句if expression: ←expression表达式可以通过布尔操作符and,or,not实现多重判断expr_true_suite ←当expression为真时才执行，否则执行后面的语句if 2 > 1 and not 2 > 3: print('Correct Judgement!')Correct Judgement!if-else语句if expression:expr_true_suite ←如果布尔值为Fa

2020-07-23 23:18:17 122

原创 01. 变量、运算符与数据类型

1、注释#用于整行‘’’ ‘’’ 或""" “”" 多行注释2、运算符##1)算数运算符/// 整除(地板除)% 取余** 幂print(3//4)print(3%4)print(2**3)038##2）比较运算符= < <= == !=##3)逻辑运算符andornotprint((6> 3) or (11< 9))True##4)位运算符按位取反& 按位与| 按位或^ 按位异或&l

2020-07-22 23:47:08 84

原创 Task3 字符识别模型

卷积神经网络（简称CNN）是一类特殊的人工神经网络，是深度学习中重要的一个分支。CNN在很多领域都表现优异，精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域，CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多的卷积核组成，每个卷积核对输入的像素进行卷积操作，得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野，并缩减图像的尺寸。CNN是一种层次模型，输入的是原始的像素数据。CNN通过卷积（convolution）、池化（pooling）、非线性激活函数（non

2020-05-26 23:55:00 148

原创 Task 2 数据读取与数据扩增

数据读取数据扩增方法 Pytorch读取赛题数据2.2图像读取:在Python中有很多库可以完成数据读取的操作，比较常见的有Pillow和OpenCV。2.2.1 PillowPillow是Python图像处理函式库(PIL）的一个分支。Pillow提供了常见的图像读取和处理的操作，而且可以与ipython notebook无缝集成，是应用比较广泛的库。Pillow的官方文档：https://pillow.readthedocs.io/en/stable/from PIL import

2020-05-23 17:21:50 232

原创零基础入门CV赛事-Task1 赛题理解

赛题名称：零基础入门CV之街道字符识别赛题目标：通过这道赛题可以引导大家走入计算机视觉的世界，主要针对竞赛选手上手视觉赛题，提高对数据建模能力。赛题任务：赛题以计算机视觉中字符识别为背景，要求选手预测街道字符编码，这是一个典型的字符识别问题。读取数据import jsontrain_json = json.load(open(r'D:\study\cv\train.json'))<div STYLE="page-break-after:always;"></div>#

2020-05-20 01:31:34 224 1

原创 pandas-第四章变形

import numpy as npimport pandas as pddf = pd.read_csv(r'D:\study\pandas\data\table.csv')df.head() School Class ID Gender Address Height ...

2020-04-28 23:41:33 237

原创 pandas-第三章分组

import numpy as npimport pandas as pddf = pd.read_csv(r'D:\study\pandas\data\table.csv',index_col='ID')df.head() School Class Gender Address Height...

2020-04-26 23:11:00 226

原创 pandas-第二章索引

import numpy as npimport pandas as pddf = pd.read_csv(r'D:\study\pandas\data\table.csv',index_col='ID')df.head() School Class Gender Address Height...

2020-04-23 23:31:46 203

原创第一章 Pandas基础

import pandas as pdimport numpy as nppd.__version__'0.25.1'一、文件读取与写入1.读取# (a) csv格式df = pd.read_csv(r'D:\study\pandas\data\table.csv')df.head() School Class ...

2020-04-21 00:25:41 172 1

原创第一章 Pandas基础

问题【问题一】 Series和DataFrame有哪些常见属性和方法？series属性：values、index、name、dtpyeDataFrame属性：values、index、name、dtpye、columns、shape方法：mean() rename() drop() del assign() T【问题二】 value_counts会统计缺失值吗？不会，count返回非缺...

2020-04-20 23:56:25 339

原创 Task5 模型融合

#5.4.1 回归|分类概率-融合：导入工具包import numpy as npimport pandas as pdimport itertoolsimport seaborn as snsimport matplotlib.pyplot as pltimport matplotlib.gridspec as gridspecfrom sklearn import metri...

2020-04-04 21:37:14 70

原创 Task4 建模与调参

#读取数据导入工具包import pandas as pdimport numpy as npimport warningswarnings.filterwarnings('ignore')创建reduce_mem_usage函数通过调整数据类型，帮助我们减少数据在内存中占用的时间def reduce_mem_usage(df): start_mem = df.memory...

2020-04-01 00:35:11 108

原创 Task 3 特征工程

常见的特征工程：异常处理：通过箱线图（或 3-Sigma）分析删除异常值；BOX-COX 转换（处理有偏分布）；长尾截断；特征归一化/标准化：标准化（转换为标准正态分布）、归一化（抓换到 [0,1] 区间）；数据分桶：等频分桶；等距分桶； Best-KS 分桶（类似利用基尼指数进行二分类）；卡方分桶；缺失值处理：不处理（针对类似 XGBoost 等树模型）；删除（缺失数...

2020-03-28 17:37:11 156

原创 Task2-EDA(Exploratory Data Analysis)

EDA(Exploratory Data Analysis) 数据探索：是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。一、载入各种数据科学以及可视化库如 pandas numpy matplotlib seaborn项目二、载入数据载入数据简略观察数据...

2020-03-24 00:33:41 106

yfgbamboo的博客

原创 Java了解（更至Task3)

原创 Linux

原创 Task 3 特征工程

原创 Task 2 数据分析

原创 Task 1 赛题理解

原创文件与文件系统

原创模块及时间模块

原创类与对象

原创函数与Lambda表达式

原创字典集合序列

原创列表、元组和字符串

原创 3 异常处理

原创 2.条件循环结构

原创 01. 变量、运算符与数据类型

原创 Task3 字符识别模型

原创 Task 2 数据读取与数据扩增

原创零基础入门CV赛事-Task1 赛题理解

原创 pandas-第四章变形

原创 pandas-第三章分组

原创 pandas-第二章索引

原创第一章 Pandas基础

原创第一章 Pandas基础

原创 Task5 模型融合

原创 Task4 建模与调参

原创 Task 3 特征工程

原创 Task2-EDA(Exploratory Data Analysis)

空空如也

空空如也