自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dataastron的博客

御风而行,横越未知

  • 博客(205)
  • 资源 (3)
  • 收藏
  • 关注

原创 这一年(2021)我是怎么从82kg到92kg的

综合看了下支付宝、云闪付、美团的账单,粗略算了下交易笔数和平均卡路里。如下:蜜雪冰城 60笔,其中3月、4月、5月都有12笔。都是买的黑糖珍珠圣代。除了这60笔还有几个甜筒不算。网上查了是376卡,我们就按照300卡乘以60算,300*60/7700=2.33kg。蜜雪冰城就贡献了2.3kg的体重。备注都是支付宝支付的数据不同的产品热量不一样。全糖的奥利奥大圣代419卡路里、冰淇淋红茶274大卡、...

2021-10-29 04:45:09 339

原创 毛家湾驾考

考完了,存档下路线。希望大家考试顺利!改天来码字。写点经验哈!灯光操作

2021-09-08 08:43:25 201

原创 数仓

数仓分层DW :data warehouse 翻译成数据仓库DW数据分层,由下到上为 DWD,DWB,DWSDWD:data warehouse detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。DWS:data warehouse service 服务数据层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。...

2021-03-31 15:00:36 307

原创 datetime+dateutil_生成过去n个月的yyyymm格式列表

import datetimez=datetime.datetime.now()import dateutilmon_list=[]for i in range(10): monz=z+dateutil.relativedelta.relativedelta(months=-i) mon_list.append(monz.strftime('%Y%m'))需要安装dateutil['202102', '202101', '202012', '202011', '2020

2021-02-08 13:34:57 169 1

原创 风控产品说-用户体验和风控-以IP封禁为例

我用电子科技大学教育网的ip在浏览boss直聘上的岗位,才打开第二页,就被BOSS直聘的防爬给拦截了。这个产品自从疫情后加了防爬风控,体验真的很差。如下图所示(1)提示IP行为违规,24小时解封。建议登陆访问,我就是因为屏蔽了很多公司查不了,所以才退出账号,直接搜索访问的。(2)对于IP反作弊而言,特别是政府机关、学校这种出口IP,单个IP聚合了多个自然人的行为,这款产品的产品经理粗暴地把它汇总成一个自然人的行为,或者说把多个自然人的行为都指向到某个人恶意访问行为,可见产研对技术细节的把握还欠

2020-09-22 18:11:23 1569

转载 Thread的sleep()、join()和wait()

Thread的sleep()、join()和wait()1 sleepsleep()会让线程交出CPU的执行权,但是不会释放锁。public class ThreadSleep {//定义锁private static final Object LOCK = new Object();public static void main(String[] args) throws InterruptedException { Thread thread1 = new Thread(new R

2020-09-12 23:21:26 185

原创 剑指offer_动态规划

树#26.py# 输入两棵二叉树A和B,判断B是不是A的子结构。(约定空树不是任意一个树的子结构)# B是A的子结构, 即 A中有出现和B相同的结构和节点值。# 例如:# 给定的树 A:# 3# / \# 4 5# / \# 1 2# 给定的树 B:# 4 # /# 1# 返回 true,因为 B 与 A 的一个子树拥有相同的结构和节点值。# 示例 1:# 输入:A = [1,2,3], B = [3,1]#

2020-09-01 21:50:31 100

原创 剑指offer_数学和其他

数学和其他#14_2.py# 给你一根长度为 n 的绳子,请把绳子剪成整数长度的 m 段(m、n都是整数,n>1并且m>1),每段绳子的长度记为 k[0],k[1]...k[m - 1] 。请问 k[0]*k[1]*...*k[m - 1] 可能的最大乘积是多少?例如,当绳子的长度是8时,我们把它剪成长度分别为2、3、3的三段,此时得到的最大乘积是18。class Solution: def cuttingRope(self, n: int) -> int:

2020-09-01 15:54:18 104

原创 剑指offer_双指针

双指针#21.py#输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有奇数位于数组的前半部分,所有偶数位于数组的后半部分。class Solution: def exchange(self, nums: List[int]) -> List[int]: j=len(nums)-1 i=0 while i<j: if nums[i]%2==0: if nums[j]%

2020-09-01 15:53:28 137

原创 剑指offer_剩下全部

树#12.py# 请设计一个函数,用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径。路径可以从矩阵中的任意一格开始,每一步可以在矩阵中向左、右、上、下移动一格。如果一条路径经过了矩阵的某一格,那么该路径不能再次进入该格子。例如,在下面的3×4的矩阵中包含一条字符串“bfce”的路径(路径中的字母用加粗标出)。# [["a","b","c","e"],# ["s","f","c","s"],# ["a","d","e","e"]]# 但矩阵中不包含字符串“abfb”的路径,因为字符串

2020-09-01 10:36:04 106

原创 剑指offer_二分法

二分#11.py# 把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个递增排序的数组的一个旋转,输出旋转数组的最小元素。例如,数组 [3,4,5,1,2] 为 [1,2,3,4,5] 的一个旋转,该数组的最小值为1。 class Solution: def minArray(self, numbers: List[int]) -> int: left=0 right=len(numbers)-1 while lef

2020-09-01 10:34:04 126

原创 剑指offer_链表题

链表#6.py# 输入一个链表的头节点,从尾到头反过来返回每个节点的值(用数组返回)。# 示例 1:# 输入:head = [1,3,2]# 输出:[2,3,1]# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def reversePri

2020-09-01 10:29:46 119

原创 剑指offer上(1-39)

#3.py```python3# jc3找出数组中重复的数字。# 在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。# 示例 1:# 输入:# [2, 3, 1, 0, 2, 5, 3]# 输出:2 或 3 # 限制:# 2 <= n <= 1000...

2020-08-17 14:36:17 113 1

原创 剑指offer代码下

#40.py# 输入整数数组 arr ,找出其中最小的 k 个数。例如,输入4、5、1、6、2、7、3、8这8个数字,则最小的4个数字是1、2、3、4。# 示例 1:# 输入:arr = [3,2,1], k = 2# 输出:[1,2] 或者 [2,1]# 示例 2:# 输入:arr = [0,1,2,1], k = 1# 输出:[0]class Solution: def getLeastNumbers(self, arr: List[int], k: int) -> Lis

2020-08-17 14:32:53 122

原创 剑指offer代码上

#3.py# jc3找出数组中重复的数字。# 在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。# 示例 1:# 输入:# [2, 3, 1, 0, 2, 5, 3]# 输出:2 或 3 # 限制:# 2 <= n <= 100000class Solution: def findRepeatNumber(self, nums: Li

2020-08-17 14:27:19 128

原创 leetcode23. 合并K个排序链表

方法1:通过优先级队列,不是把所有节点塞进去。只把每个链表的头节点放进去。方法2:归并排序(还未实现)方法3:直接便利所有节点,排序,重新输出节点。# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def mergeKLists(self, li

2020-08-10 17:24:54 124

原创 机器学习 缺失值处理

总结了三种方法:(1)直接删除法,会舍弃数据中的一些重要信息;减少了样本量(2)基于统计学的填充方法,总结下主要有如均值填充,中值填充,常用值填充,众数填充(3)机器学习的填充方法,通过算法预测缺失值。...

2020-08-10 14:53:37 406

原创 统计机器学习-优化算法-梯度下降法和牛顿法

梯度下降法和牛顿法的区别与对比李航小蓝书附录1和2介绍了梯度下降法和牛顿法(包括拟牛顿法)(1)从阶数来看。梯度下降法是一阶优化算法,牛顿法是二阶优化算法(2)从收敛速度来看。牛顿法的收敛速度相比梯度下降法常常较快(3)从计算速度来看。从牛顿法每次需要更新一个二维矩阵,计算代价很大,实际使用中常使用拟牛顿法(4)对于神经网络的训练选择。牛顿法对初始值有一定要求,在非凸优化问题中(如神经网络训练),牛顿法很容易陷入鞍点(牛顿法步长会越来越小),而梯度下降法则很容易逃离鞍点(因此在神经网络训练中一般

2020-08-07 09:51:50 255

原创 BERT参数计算

参考 https://zhuanlan.zhihu.com/p/144582114小白 本文计算针对英文版本bert basebert base 12层 768隐藏单元 12个head 共110Mvocab_size=30522, hidden_size=768, max_position_embeddings=512, token_type_embeddings=2第 1 部分:输入Token Embeddings:总词汇是30522每个输出维度都是768,参数量是30522*768Posit

2020-07-25 15:46:32 1245

原创 机器学习_SVM学习要点记录

对于任意支撑向量核函数高斯核函数rbf

2020-07-25 15:37:24 113

原创 prod相关记录

np.prod求乘积origin_size = np.prod(npimg.shape)

2020-07-04 22:22:34 188

原创 多任务学习_不同任务loss权重如何设置

学术论文1Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics作者列表中的Yarin Gal 是贝叶斯深度学习的重要人物。基本思想是估计每个任务的不确定度,每个loss除以不确定度,如果不确定度大,大体上相当于自动把loss的权重变小。论文2Multi-Task Learning as Multi-Objective Optimizationhttps://www.zh

2020-06-22 23:14:19 4385 3

原创 弱监督学习的三种形式总结

不完全监督:只有一部分训练数据具备标签;不确切监督:训练数据只具备粗粒度标签;不准确监督:给出的标签并不总是真值参考论文整理。

2020-06-22 01:27:58 1366

转载 word2vec和LDA的区别

两者本来没有啥关系。但从学习的层次而言,模型关注的层次不同。word2vec是词向量,关注最底层的字词关系lda关注是抽象的主题信息。(类比于bert网络结构的不同层次)Word2Vec主要包含两个模型,一个是CBOW模型,上下文预测中间词,还有一个是SG模型,中间词预测上下文,Word2Vec通过训练这两个模型,得到模型训练的副产物-词向量。LDA是基于文档中单词的共现关系来对单词进行主题聚类,或者说是对“文档-单词”矩阵进行分解为“文档-主题”和“主题-单词”。接下来我们对其区别和联系进行.

2020-06-22 01:21:54 451

原创 期刊级别

中国计算机学会推荐国际学术会议(人工智能与模式识别)一、A类 序号 会议简称 会议全称 出版社 网址 1 AAAI AAAI Conference on Artificial Intelligence AAAI http://www.aaai.org 2 C

2020-06-14 10:50:55 583

原创 自然语言处理_中文预训练词向量的主要区别整理

模型出处说明bert_basegoogletransformerBERT-wwm哈工大在原始bert-base的基础上引入whole word mask,其实就是分词后的词进行maskernie1.0百度token,entity,phrase进行mask。除此之外,本论文中还引入了对话语料,丰富语料的来源,并针对对话语料,给出了一个和NSP相似的任务ernie2.0百度,未开源中文引入了多大7个任务来预训练模型,并且采用的是逐次增加任务的方式来预训练...

2020-05-26 22:31:08 666

转载 nlp对抗训练(Keras实现)

近年来,随着深度学习的日益发展和落地,对抗样本也得到了越来越多的关注。在CV领域,我们需要通过对模型的对抗攻击和防御来增强模型的稳健型,比如在自动驾驶系统中,要防止模型因为一些随机噪声就将红灯识别为绿灯。在NLP领域,类似的对抗训练也是存在的,不过NLP中的对抗训练更多是作为一种正则化手段来提高模型的泛化能力!Fast Gradient Method(FGM),它由GAN之父Goodfellow在论文《Explaining and Harnessing Adversarial Examples》首先提出。

2020-05-25 11:30:29 1554

原创 自然语言处理_样本处理_Stratified k-fold

Stratified k-foldStratifiedKFold is a variation of k-fold which returns stratified folds: each set contains approximately the same percentage of samples of each target class as the complete set.from sklearn.model_selection import StratifiedKFold, KFoldi

2020-05-25 10:39:25 175

原创 自然语言处理_文本相似度x_编辑距离(python库)

编辑距离,又称Levenshtein距离.表示从字符串1到字符串2,需要增删改操作的最小次数编辑距离实现的原理是动态规划算法,leetcode经典题目中有一道.python中有现成的库实现,安装方法如下pip install python-Levenshtein --user包中所有的方法如下图所示本文只演示distanceimport LevenshteinLevenshtein.distance("自然语言处理","自然语言处理技术")Levenshtein.distance("自

2020-05-24 20:51:49 999

原创 自然语言处理_基础技术4_CountVectorizer

onehot编码是一种稀疏编码方式,如果词语越多,维度也越大.会出现维数灾难.针对one-hot编码,sklearn中实现如下.CountVectorizer类(计数向量)先用英文举例.它会针对每个单词计数,丢失位置信息from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document.', 'This document is the second doc

2020-05-23 21:39:50 285

原创 自然语言处理博文汇总

自然语言处理系列1_tfidf自然语言处理_分词系列1_jieba自然语言处理_分词系列2_hanlp自然语言处理_词向量系列1_onehot自然语言处理_词向量系列2_word2vec自然语言处理_词向量系列3_gensim

2020-05-23 19:26:00 180

原创 notelab开机启动设置

jupyter每次都要人工执行shell启动,今天设置它为开机启动.并完成了外网访问方案.本文主要介绍开机启动的介绍.外网如何访问择日再写文章介绍.1找/lib/systemd/system/rc-local.service这个文件,我的ubuntu是在lib目录下找到这个文件的,跟网上其他人的不一样,所以才写此文记录.追加[Install]WantedBy=multi-user.targetAlias=rc-local.servicesystemctl enable rc-local这

2020-05-21 15:08:28 189

原创 keras两种模型写法对比分析

1_绘图效果较为简洁image_input = Input(shape=(224, 224, 3))vision_model1 = ResNet50(include_top=False, weights='imagenet',input_tensor=Input(shape=(224, 224, 3)))encoded_image1 = vision_model1(image_input)x = GlobalAveragePooling2D(name='avg_pool')(encoded_imag

2020-05-09 00:55:46 595

原创 nlp赛事_关系抽取任务

百度2020年提供了5个赛道nlp赛事_事件抽取任务本文内容关系抽取就是根据SPO三元组标注训练模型,使得模型能够自动识别SPO三种类别 .任务目标是在给定的文本句子中,根据预先定义的schema集合,抽取出所有满足 schema 约束的 SPO 三元组。schema 定义了关系 P 以及其对应的主体 S 和客体 O 的类别,根据 O 类型的复杂程度可以划分为以下两种:简单 O 值...

2020-05-08 13:22:41 1951 1

原创 排序_快排算法

def partition(arr,low,high): i=low-1 pivot =arr[high] print(arr[low:high],pivot) for j in range(low,high): if arr[j]<pivot : i+=1 arr[i],arr[j]...

2020-05-01 16:27:23 131

原创 cupy加速numpy案例

import numpy as npimport cupy as cpimport timenumpy%times = time.time()x_cpu *= 5x_cpu *= x_cpux_cpu += x_cpue = time.time()print(e - s)cupy%time### CuPy and GPUs = time.time()x_gpu *...

2020-04-30 18:15:10 247

原创 tf_keras内存控制

先查版本对症下药import tensorflow as tfprint(tf.__version__)tf1.x版本from keras.backend.tensorflow_backend import set_sessionconfig = tf.ConfigProto()config.gpu_options.per_process_gpu_memory_fraction = ...

2020-04-27 20:20:25 5225

原创 dask

dask demo测试

2020-04-26 22:54:41 183

原创 pandas序列化速度测试

1B数据 循环10次方法1pickle方法2apply

2020-04-26 22:00:20 319

原创 leetcode134 加油站

暴力方法,两个测试用例超时class Solution: def canCompleteCircuit(self, gas: List[int], cost: List[int]) -> int: n=len(gas) for x in range(n): start=x res=0 ...

2020-04-24 17:17:04 132

云计算ppt1-20

《云计算(第三版)》配套PPT(1~20)《云计算(第三版)》配套PPT(1~20)

2017-10-08

刘鹏云计算资源

《云计算(第三版)》配套PPT(31~40).rar,《云计算(第三版)》配套PPT(31~40).rar

2017-10-08

Universal-USB-Installer-1.9.7.7.exe

Universal-USB-Installer-1.9.7.7.exe U盘安装linux

2017-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除