dataastron-CSDN博客

原创这一年(2021)我是怎么从82kg到92kg的

综合看了下支付宝、云闪付、美团的账单，粗略算了下交易笔数和平均卡路里。如下：蜜雪冰城 60笔，其中3月、4月、5月都有12笔。都是买的黑糖珍珠圣代。除了这60笔还有几个甜筒不算。网上查了是376卡，我们就按照300卡乘以60算，300*60/7700=2.33kg。蜜雪冰城就贡献了2.3kg的体重。备注都是支付宝支付的数据不同的产品热量不一样。全糖的奥利奥大圣代419卡路里、冰淇淋红茶274大卡、...

2021-10-29 04:45:09 339

原创毛家湾驾考

考完了，存档下路线。希望大家考试顺利！改天来码字。写点经验哈！灯光操作

2021-09-08 08:43:25 201

原创数仓

数仓分层DW ：data warehouse 翻译成数据仓库DW数据分层，由下到上为 DWD,DWB,DWSDWD：data warehouse detail 细节数据层，有的也称为 ODS层，是业务层与数据仓库的隔离层DWB：data warehouse base 基础数据层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层。DWS：data warehouse service 服务数据层，基于DWB上的基础数据，整合汇总成分析某一个主题域的服务数据，一般是宽表。...

2021-03-31 15:00:36 307

原创 datetime+dateutil_生成过去n个月的yyyymm格式列表

import datetimez=datetime.datetime.now()import dateutilmon_list=[]for i in range(10): monz=z+dateutil.relativedelta.relativedelta(months=-i) mon_list.append(monz.strftime('%Y%m'))需要安装dateutil['202102', '202101', '202012', '202011', '2020

2021-02-08 13:34:57 169 1

原创风控产品说-用户体验和风控-以IP封禁为例

我用电子科技大学教育网的ip在浏览boss直聘上的岗位，才打开第二页，就被BOSS直聘的防爬给拦截了。这个产品自从疫情后加了防爬风控，体验真的很差。如下图所示（1）提示IP行为违规，24小时解封。建议登陆访问，我就是因为屏蔽了很多公司查不了，所以才退出账号，直接搜索访问的。（2）对于IP反作弊而言，特别是政府机关、学校这种出口IP，单个IP聚合了多个自然人的行为，这款产品的产品经理粗暴地把它汇总成一个自然人的行为，或者说把多个自然人的行为都指向到某个人恶意访问行为，可见产研对技术细节的把握还欠

2020-09-22 18:11:23 1569

转载 Thread的sleep()、join()和wait()

Thread的sleep()、join()和wait()1 sleepsleep()会让线程交出CPU的执行权，但是不会释放锁。public class ThreadSleep {//定义锁private static final Object LOCK = new Object();public static void main(String[] args) throws InterruptedException { Thread thread1 = new Thread(new R

2020-09-12 23:21:26 185

原创剑指offer_动态规划

树#26.py# 输入两棵二叉树A和B，判断B是不是A的子结构。(约定空树不是任意一个树的子结构)# B是A的子结构，即 A中有出现和B相同的结构和节点值。# 例如:# 给定的树 A:# 3# / \# 4 5# / \# 1 2# 给定的树 B：# 4 # /# 1# 返回 true，因为 B 与 A 的一个子树拥有相同的结构和节点值。# 示例 1：# 输入：A = [1,2,3], B = [3,1]#

2020-09-01 21:50:31 100

原创剑指offer_数学和其他

数学和其他#14_2.py# 给你一根长度为 n 的绳子，请把绳子剪成整数长度的 m 段（m、n都是整数，n>1并且m>1），每段绳子的长度记为 k[0],k[1]...k[m - 1] 。请问 k[0]*k[1]*...*k[m - 1] 可能的最大乘积是多少？例如，当绳子的长度是8时，我们把它剪成长度分别为2、3、3的三段，此时得到的最大乘积是18。class Solution: def cuttingRope(self, n: int) -> int:

2020-09-01 15:54:18 104

原创剑指offer_双指针

双指针#21.py#输入一个整数数组，实现一个函数来调整该数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半部分。class Solution: def exchange(self, nums: List[int]) -> List[int]: j=len(nums)-1 i=0 while i<j: if nums[i]%2==0: if nums[j]%

2020-09-01 15:53:28 137

原创剑指offer_剩下全部

树#12.py# 请设计一个函数，用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径。路径可以从矩阵中的任意一格开始，每一步可以在矩阵中向左、右、上、下移动一格。如果一条路径经过了矩阵的某一格，那么该路径不能再次进入该格子。例如，在下面的3×4的矩阵中包含一条字符串“bfce”的路径（路径中的字母用加粗标出）。# [["a","b","c","e"],# ["s","f","c","s"],# ["a","d","e","e"]]# 但矩阵中不包含字符串“abfb”的路径，因为字符串

2020-09-01 10:36:04 106

原创剑指offer_二分法

二分#11.py# 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个递增排序的数组的一个旋转，输出旋转数组的最小元素。例如，数组 [3,4,5,1,2] 为 [1,2,3,4,5] 的一个旋转，该数组的最小值为1。 class Solution: def minArray(self, numbers: List[int]) -> int: left=0 right=len(numbers)-1 while lef

2020-09-01 10:34:04 126

原创剑指offer_链表题

链表#6.py# 输入一个链表的头节点，从尾到头反过来返回每个节点的值（用数组返回）。# 示例 1：# 输入：head = [1,3,2]# 输出：[2,3,1]# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def reversePri

2020-09-01 10:29:46 119

原创剑指offer上（1-39）

#3.py```python3# jc3找出数组中重复的数字。# 在一个长度为 n 的数组 nums 里的所有数字都在 0～n-1 的范围内。数组中某些数字是重复的，但不知道有几个数字重复了，也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。# 示例 1：# 输入：# [2, 3, 1, 0, 2, 5, 3]# 输出：2 或 3 # 限制：# 2 <= n <= 1000...

2020-08-17 14:36:17 113 1

原创剑指offer代码下

#40.py# 输入整数数组 arr ，找出其中最小的 k 个数。例如，输入4、5、1、6、2、7、3、8这8个数字，则最小的4个数字是1、2、3、4。# 示例 1：# 输入：arr = [3,2,1], k = 2# 输出：[1,2] 或者 [2,1]# 示例 2：# 输入：arr = [0,1,2,1], k = 1# 输出：[0]class Solution: def getLeastNumbers(self, arr: List[int], k: int) -> Lis

2020-08-17 14:32:53 122

原创剑指offer代码上

#3.py# jc3找出数组中重复的数字。# 在一个长度为 n 的数组 nums 里的所有数字都在 0～n-1 的范围内。数组中某些数字是重复的，但不知道有几个数字重复了，也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。# 示例 1：# 输入：# [2, 3, 1, 0, 2, 5, 3]# 输出：2 或 3 # 限制：# 2 <= n <= 100000class Solution: def findRepeatNumber(self, nums: Li

2020-08-17 14:27:19 128

原创 leetcode23. 合并K个排序链表

方法1：通过优先级队列，不是把所有节点塞进去。只把每个链表的头节点放进去。方法2：归并排序（还未实现）方法3：直接便利所有节点，排序，重新输出节点。# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def mergeKLists(self, li

2020-08-10 17:24:54 124

原创机器学习缺失值处理

总结了三种方法：（1）直接删除法，会舍弃数据中的一些重要信息；减少了样本量（2）基于统计学的填充方法，总结下主要有如均值填充，中值填充，常用值填充，众数填充（3）机器学习的填充方法，通过算法预测缺失值。...

2020-08-10 14:53:37 406

原创统计机器学习-优化算法-梯度下降法和牛顿法

梯度下降法和牛顿法的区别与对比李航小蓝书附录1和2介绍了梯度下降法和牛顿法（包括拟牛顿法）（1）从阶数来看。梯度下降法是一阶优化算法，牛顿法是二阶优化算法（2）从收敛速度来看。牛顿法的收敛速度相比梯度下降法常常较快（3）从计算速度来看。从牛顿法每次需要更新一个二维矩阵，计算代价很大，实际使用中常使用拟牛顿法（4）对于神经网络的训练选择。牛顿法对初始值有一定要求，在非凸优化问题中（如神经网络训练），牛顿法很容易陷入鞍点（牛顿法步长会越来越小），而梯度下降法则很容易逃离鞍点（因此在神经网络训练中一般

2020-08-07 09:51:50 255

原创 BERT参数计算

参考 https://zhuanlan.zhihu.com/p/144582114小白本文计算针对英文版本bert basebert base 12层 768隐藏单元 12个head 共110Mvocab_size=30522， hidden_size=768， max_position_embeddings=512， token_type_embeddings=2第 1 部分：输入Token Embeddings：总词汇是30522每个输出维度都是768，参数量是30522*768Posit

2020-07-25 15:46:32 1245

原创机器学习_SVM学习要点记录

对于任意支撑向量核函数高斯核函数rbf

2020-07-25 15:37:24 113

原创 prod相关记录

np.prod求乘积origin_size = np.prod(npimg.shape)

2020-07-04 22:22:34 188

原创多任务学习_不同任务loss权重如何设置

学术论文1Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics作者列表中的Yarin Gal 是贝叶斯深度学习的重要人物。基本思想是估计每个任务的不确定度，每个loss除以不确定度，如果不确定度大，大体上相当于自动把loss的权重变小。论文2Multi-Task Learning as Multi-Objective Optimizationhttps://www.zh

2020-06-22 23:14:19 4385 3

原创弱监督学习的三种形式总结

不完全监督：只有一部分训练数据具备标签；不确切监督：训练数据只具备粗粒度标签；不准确监督：给出的标签并不总是真值参考论文整理。

2020-06-22 01:27:58 1366

转载 word2vec和LDA的区别

两者本来没有啥关系。但从学习的层次而言，模型关注的层次不同。word2vec是词向量，关注最底层的字词关系lda关注是抽象的主题信息。（类比于bert网络结构的不同层次）Word2Vec主要包含两个模型，一个是CBOW模型，上下文预测中间词，还有一个是SG模型，中间词预测上下文，Word2Vec通过训练这两个模型，得到模型训练的副产物-词向量。LDA是基于文档中单词的共现关系来对单词进行主题聚类，或者说是对“文档-单词”矩阵进行分解为“文档-主题”和“主题-单词”。接下来我们对其区别和联系进行.

2020-06-22 01:21:54 451

原创期刊级别

中国计算机学会推荐国际学术会议（人工智能与模式识别）一、A类序号会议简称会议全称出版社网址 1 AAAI AAAI Conference on Artificial Intelligence AAAI http://www.aaai.org 2 C

2020-06-14 10:50:55 583

原创自然语言处理_中文预训练词向量的主要区别整理

模型出处说明bert_basegoogletransformerBERT-wwm哈工大在原始bert-base的基础上引入whole word mask，其实就是分词后的词进行maskernie1.0百度token，entity，phrase进行mask。除此之外，本论文中还引入了对话语料，丰富语料的来源，并针对对话语料，给出了一个和NSP相似的任务ernie2.0百度,未开源中文引入了多大7个任务来预训练模型，并且采用的是逐次增加任务的方式来预训练...

2020-05-26 22:31:08 666

转载 nlp对抗训练(Keras实现)

近年来，随着深度学习的日益发展和落地，对抗样本也得到了越来越多的关注。在CV领域，我们需要通过对模型的对抗攻击和防御来增强模型的稳健型，比如在自动驾驶系统中，要防止模型因为一些随机噪声就将红灯识别为绿灯。在NLP领域，类似的对抗训练也是存在的，不过NLP中的对抗训练更多是作为一种正则化手段来提高模型的泛化能力！Fast Gradient Method（FGM），它由GAN之父Goodfellow在论文《Explaining and Harnessing Adversarial Examples》首先提出。

2020-05-25 11:30:29 1554

原创自然语言处理_样本处理_Stratified k-fold

Stratified k-foldStratifiedKFold is a variation of k-fold which returns stratified folds: each set contains approximately the same percentage of samples of each target class as the complete set.from sklearn.model_selection import StratifiedKFold, KFoldi

2020-05-25 10:39:25 175

原创自然语言处理_文本相似度x_编辑距离(python库)

编辑距离,又称Levenshtein距离.表示从字符串1到字符串2,需要增删改操作的最小次数编辑距离实现的原理是动态规划算法,leetcode经典题目中有一道.python中有现成的库实现,安装方法如下pip install python-Levenshtein --user包中所有的方法如下图所示本文只演示distanceimport LevenshteinLevenshtein.distance("自然语言处理","自然语言处理技术")Levenshtein.distance("自

2020-05-24 20:51:49 999

原创自然语言处理_基础技术4_CountVectorizer

onehot编码是一种稀疏编码方式,如果词语越多,维度也越大.会出现维数灾难.针对one-hot编码,sklearn中实现如下.CountVectorizer类(计数向量)先用英文举例.它会针对每个单词计数,丢失位置信息from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document.', 'This document is the second doc

2020-05-23 21:39:50 285

原创自然语言处理博文汇总

自然语言处理系列1_tfidf自然语言处理_分词系列1_jieba自然语言处理_分词系列2_hanlp自然语言处理_词向量系列1_onehot自然语言处理_词向量系列2_word2vec自然语言处理_词向量系列3_gensim

2020-05-23 19:26:00 180

原创 notelab开机启动设置

jupyter每次都要人工执行shell启动,今天设置它为开机启动.并完成了外网访问方案.本文主要介绍开机启动的介绍.外网如何访问择日再写文章介绍.1找/lib/systemd/system/rc-local.service这个文件,我的ubuntu是在lib目录下找到这个文件的,跟网上其他人的不一样,所以才写此文记录.追加[Install]WantedBy=multi-user.targetAlias=rc-local.servicesystemctl enable rc-local这

2020-05-21 15:08:28 189

原创 keras两种模型写法对比分析

1_绘图效果较为简洁image_input = Input(shape=(224, 224, 3))vision_model1 = ResNet50(include_top=False, weights='imagenet',input_tensor=Input(shape=(224, 224, 3)))encoded_image1 = vision_model1(image_input)x = GlobalAveragePooling2D(name='avg_pool')(encoded_imag

2020-05-09 00:55:46 595

云计算ppt1-20

刘鹏云计算资源

Universal-USB-Installer-1.9.7.7.exe

空空如也