自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Datawhale-李宏毅机器学习-task02

estimateThe P3 vedio gives a different view to regression model. Compared with the traditional regression model, an important difference is that the regression section of ML course is based on gradient descent, while the traditional regression analysis s

2022-01-12 15:57:31 290

原创 Datawhale-李宏毅机器学习-task01

As the source of the group study tasks of Datawhale is the Chinese version of Lee’s ML course, I am trying to make an English version notes of the course. Therefore, I watched the English version of Lee’s ML course in youtube and write down these blogs as

2022-01-10 23:47:18 211

原创 《利用Python进行数据分析第二版》第七章数据清洗和准备笔记

fillna()函数参数:

2020-08-13 16:46:56 150

原创 变量选择

step因变量自变量1专利数衡量企业规模:净利润、销售总额、主营业务收入、资产总额、从业人数(注:《公司法》从业人员人数、营业收入、资产总额划分公司规模)2专利数衡量企业经营状况:净利润率(反应经营效率,净利润率=净利润/营业收入×100%)...

2020-08-09 20:36:09 283

原创 DW-Python-Task09:文件与文件系统

文件与文件系统打开文件open(file, mode=‘r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别n.

2020-08-09 19:49:47 146

原创 DW-Python-Task08:模块与datetime模块

模块什么是模块容器 -> 数据的封装函数 -> 语句的封装类 -> 方法和属性的封装模块 -> 程序文件【例子】创建一个 hello.py 文件hello.pydef hi():print(‘Hi everyone, I love lsgogroup!’)2. 命名空间命名空间因为对象的不同,也有所区别,可以分为如下几种:内置命名空间(Built-in Namespaces):Python 运行起来,它们就存在了。内置函数的命名空间都属于内置命名空间,.

2020-08-07 21:36:50 168

原创 DW-Python-Task07:类、对象与魔法方法

类与对象对象 = 属性 + 方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模板创建对象。类不但包含方法定义,而且还包含所有实例共享的数据。封装:信息隐蔽技术我们可以使用关键字 class 定义 Python 类,关键字后面紧跟类的名称、分号和类的实现。【例子】class Turtle: # Python中的类名约定以大写字母开头“”“关于类的一个简单例子”""# 属性color = ‘green’weight = 10legs = 4shell = True

2020-08-05 21:41:52 480

原创 DW-NLP-Task06:基于深度学习的文本分类3

Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络(Fee

2020-08-05 12:55:19 117

原创 DW-Python-Task06:函数与Lambda表达式

def1. 函数的定义return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname(parameters): "函数_文档字符串" function_suite return [expression]2. 函数的文档用func.__doc__ 或者 `help(func)查看函数文档,eg:print.__doc__# "print(value, ..., sep=' ', end='\\

2020-08-02 18:22:28 178

原创 DW-NLP-Task5 基于深度学习的文本分类2

学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)。

2020-07-31 22:57:10 109

原创 DW-Python-Task05:字典、集合和序列

字典1. 字典的特点1.1 key数据类型只能为不可变类型序列是以连续的整数为索引,与此不同的是,字典以"关键字"为索引,关键字可以是任意不可变类型 (包括字符串,数值,元组),通常用字符串或数值。字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型 X 是不是可变类型的呢?(用于判断是否能作为字典的key)两种方法:麻烦方法:用 id(X) 函数,对 X 进行某种操作,比较操作前后的 id,如果不一样,则 X 不可变,如果一样,则 X 可变

2020-07-31 21:55:18 207

原创 DW-Python-Task 4: 列表、元组和字符串

列表1.创建列表的方法1.1 创建空列表st = []或st = list()1.2 用range()创建列表example = list(range(10))example#[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]注意,下面这个方法是错误的:example = [range(10)]example#[range(0, 10)]#这样子写的话range(10)被当成一个元素example[5]#--------------------------------

2020-07-28 23:50:27 458

原创 DW-NLP-Task4 基于深度学习的文本分类1-fastText

1. 深度学习简述深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。注:具体细节比较复杂,日后再进行深入学习。task3中的传统机器学习方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。与这些表示

2020-07-27 22:50:03 221

原创 《利用Python进行数据分析第二版》第六章数据加载、存储与文件格式笔记

2020-07-26 21:24:23 101

原创 DW-NLP-Task03:基于机器学习的文本分类

文本表示方法1.One-hot将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海首先对所有句子的字进行索引,即将每个字确定一个编号:{ '我': 1, '爱': 2, '北': 3, '京': 4, '天': 5, '安': 6, '门': 7, '喜': 8, '欢': 9, '上': 10, '海': 11}在这里共包括11个字,因此每个字可

2020-07-25 23:12:45 114

原创 DW-Python-task03:异常处理

1.Python标准异常总结BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivisionError:除数为零AssertionError:断言语句(assert)失败AttributeError:尝试访问未知的对象属性EOFError:没有内建

2020-07-25 01:25:07 94

原创 《利用Python进行数据分析第二版》第五章pandas入门笔记

2020-07-24 16:20:20 111

原创 DW-Python-Task02:条件循环结构

1.条件语句1.1 if语句注意点:缩进用四个空格不要用Tabif elif else后面都要跟:1.2assert关键词assert这个关键词我们称之为“断言”,当这个关键词后边的条件为 False 时,程序自动崩溃并抛出AssertionError的异常。用处:在进行单元测试时,可以用来在程序中置入检查点,只有条件为 True 才能让程序正常工作。eg:assert 3 > 7# AssertionError2.循环语句2.1 while循环while-else循

2020-07-23 21:08:14 154

原创 《利用Python进行数据分析第二版》第四章NumPy基础:数组和矢量计算笔记

jupyternotebook

2020-07-23 18:04:09 95

原创 DW-NLP-Task02 数据读取与数据分析

数据读取因为出现全部读取数据会出现memoryerror问题,暂未解决,因此只读取前100行。#数据读取import pandas as pdtrain_df = pd.read_csv('F:/学习/DW-NLP/train_set.csv', sep='\t',nrows=100)'''这里的read_csv由三部分构成:读取的文件路径,分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为此次读取文件的行数,是数值类型(这里设置100);'''print(trai

2020-07-22 21:06:27 202

转载 DW-NLP-Task01:赛题理解

本次比赛的四个思路:思路1:TF-IDF + 机器学习分类器直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。思路2:FastTextFastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器。思路3:WordVec + 深度学习分类器WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM

2020-07-21 01:19:26 102

原创 DW-Python-Task01:变量、运算符、数据类型及位运算

1. 变量、运算符与数据类型1.1 注释#用于单行注释。‘’'或"""用于多行注释。1.2运算符1.2.1 算术运算符操作符名称//整除1.2.2 比较运算符比较运算符可以连用,eg:3<4<51.2.3 逻辑运算符操作符名称and与or或not非1.2.4 位运算符操作符名称示例 ~ 按位取反4~&按位与4&5`按位或^按位异或

2020-07-21 01:04:17 372

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除