自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 操作系统读写者算法python实现

主要包含包(1)threading模块threading模块是在低级别_thread模块上构建的的高级别线程接口。继承_thread功能,而_thread模块是提供处理多进程(也称轻量级继承或任务)的基本单元,多进程控制特点是共享全局数据空间.简单锁(也称互斥或二进制信号量)可实现进程同步。python中线程属于内核级别,即由操作系统调度(如单线程一旦遇到IO就会被迫交出CPU执行权限,切换到其他线程运行).(2)Thread类线程类表示单独控制运行的线程活动.有两种建立线程的方式:• 直接使用

2020-11-03 19:15:02 475 1

原创 Andrew Ng——coursera——学习笔记(二)

极大似然估计:说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值通俗来说就是:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。极大似然估计中采样需要满足一个重要的假设,就是所有的采样都是独立同分布的。...

2020-11-01 17:36:44 238 1

原创 李宏毅机器学习——学习笔记(二)Classification

考虑到宝可梦的两个属性(Defense、SP Defense),将输入的宝可梦进行属性分类(Water、Normal)

2020-11-01 16:57:08 263

原创 李宏毅学习笔记 optimization for deep learning

2020-10-21 21:14:01 205

原创 李宏毅机器学习——学习笔记(一)——Gradient Descent

Gradient Descent

2020-10-14 20:53:24 324 1

原创 深度学习(李沐)——学习笔记(一)

2020-10-07 15:54:33 954

原创 Andrew Ng——coursera——学习笔记(一)

2020-10-07 14:38:19 216

原创 李宏毅作业(一)-----Regression

yi

2020-10-06 21:13:29 323

原创 selenium框架——Chromedriver

1.什么是seleniumSelenium是一个Web的自动化测试工具,最初是为了网站自动化测试而开发的,Selenium可以直接运行在浏览器上,他支持所有的主流浏览器,可以接受指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。...

2020-09-28 14:46:28 2128

原创 Xpath提取规则

什么是XpathXpath是一门在HTML\XML文档中查找信息的语言,可用来在HTML\XML文档中对元素和属性进行遍历。为什么学习Xapth和parselparsel是一款高性能的Python HTML\XML解析器。将字符串转化为Selector对象,Selector对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据。我们可以利用xpath,来快速的定位特定元素以及获取节点信息。Xpath语法Xpath使用路径表达式来选取XML文档中的节点或者节点集。这

2020-09-22 17:58:22 1058

原创 python之队列

Python四种类型的队例1 Queue:FIFO 即first in first out 先进先出1 导入包from queue import Queue2 计算队列的长度a=Queue()a.put(12)a.put(13)a.qsize()若你想看队列里的元素,你直接输入a,返回的会是一个地址符。3 读取队列元素a.queue4 添加元素a.put()5...

2020-09-15 16:33:00 137

原创 exploring_word_vectors||datawhale

CS224N Assignment 1: Exploring Word Vectors (25 Points)Welcome to CS224n!Before you start, make sure you read the README.txt in the same directory as this notebook.# All Import Statements Defined Here# Note: Do not add to this list.# All the dependenc

2020-07-06 22:37:52 1497

原创 cs224——lecture13

引言随着AI技术的迅猛发展,越来越多的信息能让机器帮助人类去处理,例如文本,音频,视频等。而文本信息是我们日常大量接触且及其重要的信息载体。所以在自然语言处理(NLP)任务中,如果让机器更好的去读懂文本信息也是极其有意义且重要的工作。那么本文针对几类常见模型进行相关的介绍,由于笔者知识也不全面,所写之处若有不正确地方欢迎指出且改正,希望和大家一起交流探讨。背景知识本文主要介绍ELMO, GPT, BERT三个模型,这里还涉及到其他的相关知识,例如:Word2Vec方法的基本原理,Glove模型,Fa

2020-07-03 09:41:26 108

原创 cs224--Subword Models

12-Subword Models前言之前的 word2vec 和 glove 基本上都是基于word单词作为基本单位的,这种方式虽然能够很好的对词库中每一个词进行向量表示,然而,这种方式容易出现单词不存在于词汇库中的情况,也就是 OOV(out-of-vocabulary),而且对于单词的一些词法上的修饰(morphology)处理的也不是很好。一个自然的想法就是能够利用比word更基本的组成来建立模型,以更好的解决这些问题。本节思考采用 n-gram 思想训练 word vector 模型,也就是

2020-06-30 08:57:30 146

原创 CS224N Word Vectors 2 and Word Senses

引言Word2vec回顾、优化、基于统计的词向量、GloVe、词向量评价、词义基于统计的词向量词向量目的:希望通过低维稠密向量来表示词的含义课程中举了一个例子:三个句子,比如对于like这个词,在三个句子中,其左右共出现2次I,1次deep和1次NLP,所以like对应的词向量中,I、deep和NLP维的值分别为2,1,1。不足点但这些预训练模型也存在不足:词梳理很多时,矩阵很大,维度很高,需要的存储空间也很大当词的数目是在不断增长,则词向量的维度也在不断增长矩阵很稀疏,即词向量很稀疏,

2020-06-26 09:39:48 234

原创 数据库管理系统——设计实验报告

系统平台开发工具:C#数据库:ACCESS操作系统:win10需求分析本系统功能包括:学生注册、学生选课、查询学生可选课程、删除已选课程、打印和输出本学期成绩报表(Excel)、教师选课、新教工注册、学生信息查询、学生成绩查询、学生选课信息查询、教师授课信息查询、学生成绩查询、学生成绩录入功能、学生成绩报表的输出和打印(Excel)、安全性管理(教师权限设置、学生权限设置、密码设置、重新登录和修改密码等)。E-R图分析数据库表格教师授课表老师信息表学生信息表课程表学生选课表

2020-06-20 11:16:30 4162

原创 CS224n Note-01

Lecture 1: Introduction and Word Vectors目录**语言学到自然语言处理简要介绍人类语言和单词含义词向量Word2vec语言模型的简要介绍优化简介:梯度下降课程目标理解目前深度学习处理方法(包括NLP主流模型和方法)了解NLP中的处理问题NLP中主流问题的建模和处理能力(in Pytorch)1. The course人类比猩猩更加聪明,是因为人们可以通过语言进行交互,对语言的理解和思考,展现了人类语言的复杂和高效。每个人对于语言都可以有

2020-06-19 07:58:02 210

原创 拓扑排序(课程表问题) leetcode207 210

题目拓扑排序(bfs)class Solution(object): def canFinish(self, numCourses: int, prerequisites: List[List[int]]) -> bool: rudu = [0 for i in range(numCourses)] libian = [[] for i in range(numCourses)] from collections import deque

2020-05-13 17:25:26 228

原创 Task5 svm||datawhale

学习内容SVM 硬间隔原理SVM 软间隔SMO 求解SVM代码设计1、硬间隔本文是需要一定基础才可以看懂的,建议先看看参考博客,一些疑惑会在文中直接提出,大家有额外的疑惑可以直接评论,有问题请直接提出,相互交流。SVM-统计学习基础一开始讲解了最小间距超平面:所有样本到平面的距离最小。而距离度量有了函数间隔和几何间隔,函数间隔与法向量www和bbb有关,www变为2w2w2w则...

2020-04-30 18:24:59 115

原创 Task4 条件随机场||datawhale

条件随机场马尔可夫过程定义假设一个随机过程中,tnt_ntn​ 时刻的状态xnx_nxn​的条件发布,只与其前一状态xn−1x_{n-1}xn−1​ 相关,即:P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1) P(x_n|x_1,x_2,...,x_{n-1}) = P(x_n|x_{n-1})P(xn​∣x1​,x2​,...,xn−1​)=P(xn​∣xn−1​...

2020-04-28 16:01:02 107

原创 爬取微博数据和视频

通过前面三天的学习。我们现在应该对爬虫有所了解。接下来,我们将从几个项目实战来练手。回顾爬取淘宝商品页面——通过驱动来实现def search_product(key): driver.find_element_by_id('q').send_keys(key) driver.find_element_by_class_name('btn-search').click()d...

2020-04-25 17:20:40 1039

原创 Task3 EM||datawhale

EM:期望最大算法,全称Expectation Maximization Algorithm。期望最大是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。思想EM核心思想分为两步。E-step:主要通过观察数据和现有模型来估计参数,然后用这个估计的参数值来计算上述对数似然函数的期望值。而M-step是寻找似然函数最大化时对应的参数。由于算法会保证在每次迭代之后似然函数...

2020-04-25 10:46:36 160

原创 四天学爬虫

IP:网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如若出现以上问题,怎么解决呢?1.修改请求头,模拟浏览器(而不是代码去直接访问)去访问2.采用代理IP并轮换3.设置访问时间间隔如何获取1、从该网站获取: https://www.xicidaili.com/2、inspect -> 鼠标定位:3、要获取的代理I...

2020-04-23 22:59:27 490 1

原创 Task2 bayes_plus||datawhale

生成模型在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。常见的基于生成模型算法有高斯混合模型和其他混合模型、隐马尔可夫模型、随机上下...

2020-04-22 12:04:58 188

原创 四天学爬虫—task2

**beautiful soup **理解:是解析、遍历、维护”标签树“的功能库。Beautiful Soup库,也叫beautifulsoup4库或bs4.from bs4 import BeautifulSoup库中的多种解释器的使用方法基本元素介绍1...

2020-04-21 18:36:39 265

原创 Task1 Linear_regression||datawhale

什么是回归?回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。说到回归,一般都是指线性回归(linear regression),所以本文里的回归和线性回归代表同一个意思。线性回归意味着可以将输入项分别乘以一些常量,再将结果加起来得到输出。极大似然估计极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但...

2020-04-19 10:42:25 276

原创 四天学爬虫----task1

以百度网址为列import requests>>> r=requests.get("http://www.baidu.com")>>> r.status_code200>>> r.enconding='utf-8'>>> r.text输出如下'<!DOCTYPE html>\r\n<!--S...

2020-04-18 22:09:14 526

原创 蓝桥杯训练(python)

1 Fibonacci数列x=int(input())a=1b=1for i in range(x-1): a,b=b%10007,(a+b)%10007print(a)2 圆的面积r = int(input())PI = 3.14159265358979323s=PI*r*rprint('%.7f' %s)

2020-04-09 11:26:13 2510

原创 索引(pandas)

单级索引loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类,其中iloc表示位置索引,loc表示标签索引,[]也具有很大的便利性,各有特点1.loc方法(注意:所有在loc中使用的切片全部包含右端点!)单行索引df.loc[1103]多行索引df.loc[[1102,2304]]df.loc[1304:].head()df.loc[2402::-1] ...

2020-04-08 20:18:07 213

原创 pandas基础语法

文件读取与写入1csv文件df = pd.read_csv('data/table.csv')df.to_csv('data/new_table.csv')2txt文件df_txt = pd.read_table('data/table.txt')3xls和xlsx文件df_excel = pd.read_excel('data/table.xlsx')df.to_ex...

2020-04-07 11:20:47 695

原创 数据竞赛—二手车价格预测—Task5 模型融合

内容什么是 stacking简单来说 stacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题,我们可以使用投票法来选择输出最多的类。对于回归问题,我们可以将分类器输出的结果求平均值。上面说的投票法和平均法都是很有效的结合策略,还有一种结合策略是使用另外一个机器...

2020-04-02 11:46:53 313

原创 从上手到多类分类

使用autograd自动求导import mxnet.autograd as ag当进行求导的时候,我们需要一个地方来存x导数,这个可以通过NDArray的方法**attach_grad()**来要求系统申请对应的空间默认条件下。MXNet不会自动记录和构建用于求导的计算图,我们需要使用**autograd里的record()**函数来显示的要求MXNet记录我们需要求导的程序numpy...

2020-03-31 21:51:32 106

原创 手撕xgboost

集成学习共同点:都是由很多弱分类器构成的。(弱分类器:表现不太好的分类器)区别:bagging:过拟合boosting:欠拟合提升树:基于残差做训练随机森林:随机森林是同时训练多个模型,预测的时候通过加权平均方式(投票)来参与。xgboost:相加来参与思路详解跟逻辑回归的连续性的优化问题不同。xgboost是个离散值的优化问题。损失函数l可在后面任意选择...

2020-03-31 21:04:45 202

原创 数据竞赛—二手车价格预测-—建模调参

reduce_mem_usage 函数通过调整数据类型,帮助我们减少数据在内存中占用的空间因为训练数据集往往比较大,而内存会出现不够用的情况,可以通过修改特征的数据类型,从而达到优化压缩的目的DataFrame.memory_usage(index=True, deep=False)返回每列的内存使用情况pandas 中.dropna()的用法:该函数主要用于滤除缺失数据。如果是Se...

2020-03-29 22:42:06 650

原创 数据竞赛—二手车价格预测—特征工程

内容介绍常见的特征工程疑问

2020-03-25 10:45:42 348

原创 anaconda常用命令

创建虚拟环境conda create --name 环境名 python=3.5查看电脑的虚拟环境conda info --envs激活环境activate 环境名查看环境的安装包pip list删除虚拟环境conda env remove --name 环境名降包pip install 包名 ==版本号...

2020-03-23 10:22:13 123

原创 数据竞赛—二手车价格预测—数据分析

EDA目标1.EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用2.当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。3.引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠4.完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并...

2020-03-22 21:55:40 977

原创 matplotlib画图中文出现乱码解决方案

Matplotlib 显示中文1.每次编写代码时进行参数设置import matplotlib.pyplot as plt在我的 notebook 里,要设置下面两行才能显示中文plt.rcParams['font.family'] = ['sans-serif']如果是在 PyCharm 里,只要下面一行,上面的一行可以删除plt.rcParams['font.sans-serif'...

2020-03-21 17:41:45 256

原创 数据竞赛—二手车价格预测—赛题理解

赛题概况比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证 比赛的公平性,将会从中抽取 10 万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行 脱敏。数据概况一般而言...

2020-03-21 17:17:47 410

原创 清华源

conda config --add channels ‘https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/’ //TUNA的help中镜像地址加有引号,需要去掉#conda config --add channels ‘https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/m...

2020-03-15 22:32:36 87

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除