Bruce-XIAO-CSDN博客

原创 pandas保存dict字段再读取成DataFrame

pandas DataFrame中有字段是dict类型，使用普通的to_excel方法直接保存下次读取出来，dict字段会变成字符串，无法识别；目标：保存dict字段，下次读出来还是dict。以下两种读法可能会因json文件过大出错。保存到文件之前，需要。

2024-04-21 17:52:35 159 1

原创多标签与多分类的区别

多标签与多分类的区别。

2024-04-19 15:31:42 274

原创增加负样本对二分类precision, recall指标的影响

增加负样本对二分类precision, recall指标的影响

2024-03-04 17:26:57 153

原创 C++push_back、emplace_back、emplace性能对比

push_back, emplace_back, emplace都是往容器中添加一个元素，后两者是c++11新加的，它们三者的区别在于，push_back添加元素，需要先调用被添加元素的构造函数，再调用移动构造函数。而emplace_back和emplace_back只需要调用一次构造函数，举个例子。1作为实参传入push_back时，需要先构造一个整数对象1，然后调用移动构造函数将对象1存入vec中，调用了两次构造函数；而emplce和emplace_back直接将构造的对象存入vec中。

2023-09-30 10:36:28 332

原创 pandas fillna多列无效

pandas缺失值填充

2023-07-20 14:30:33 312

原创 pandas深拷贝浅拷贝

pandas深浅拷贝

2023-06-14 20:26:03 578

原创图最短路径算法

图最短路径算法

2023-04-06 22:34:58 392 1

原创样本不均衡问题及解决方法

采样方法

2023-02-28 00:35:58 727

原创位运算及其应用

位运算及其应用

2023-02-27 23:59:43 331

原创 c++ 优先级队列priority_queue的使用

priority_queue

2023-01-22 11:10:21 1756

原创论文阅读笔记：Attention is All You Need

Transformer

2023-01-18 22:01:15 718

原创二维矩阵的元素和

矩阵元素和

2023-01-15 22:26:46 2018

原创字符串哈希

字符串哈希

2023-01-08 21:11:10 775

原创 XGBoost论文阅读

XGBoost模型

2023-01-06 00:10:53 769 6

转载 L1、L2正则化的比较

L1、L2正则化的比较

2022-12-31 17:32:49 116

原创 L2正则化的理解

L2正则化的理解

2022-12-20 22:36:06 447

原创 2022交通预测论文阅读笔记

交通预测

2022-10-23 00:12:07 2803 4

原创基于价值的学习算法

本博客介绍了Sarsa和Q-Learning两种基于价值的强化学习算法，并对比了二者的异同点。

2022-08-13 12:28:14 623

原创强化学习基本概念

强化学习基本概念

2022-08-10 11:07:56 517

原创 python的基础知识

python基础知识

2022-08-07 18:01:12 273

原创 pandas的一些操作总结

pandas的一些数据处理操作

2022-08-06 19:51:52 360

原创对标准化与最大最小归一化的理解

标准化与最大最小归一化1.介绍在时间序列预测中，经常要做数据的归一化，防止梯度下降时走之字形路线以加快收敛，梯度爆炸等问题；对此做个记录。2.实现def standard_scaler(data,mean,std): return (data-mean)/stddef minmax_scaler(data,min,max): return (data-min)/(max-min)3.异同点同：对数据进行缩放，中心化异：压缩后的均值不同。最大最小归一化对异常值敏感，有较大

2022-04-09 18:15:20 2844

原创为什么分类问题不使用MSE(平方损失函数)

链接

2022-03-23 20:34:05 1074

原创回溯法-分割回文串

分割回文串#include<iostream>#include<vector>#include<string> using namespace std;class Solution {public: vector<vector<string>> result; vector<vector<string>> partition(string s) { int len = s.length(

2022-03-21 20:51:20 318

原创回溯算法总结

回溯法求全排列package backtrack;import com.sun.org.apache.xpath.internal.operations.Bool;import java.util.ArrayList;import java.util.Arrays;import java.util.Collections;import java.util.List;public class lc46 { public List<List<Integer>&

2022-03-20 22:31:29 386

原创回溯法求N皇后问题

N皇后问题搜索解的过程如图可以看到，回溯是将同一层的选择尝试完成之后，才回到上一层。类似于一种暴力的搜索算法。isValid函数，实际上是控制是否继续往下一层搜索，做剪枝优化。#include<iostream>#include<vector> using namespace std;int ans = 0;void backtracking(vector<vector<char>> &board,int row,int n);

2022-03-20 20:45:02 1603

原创 plt.bar柱状图减小柱子之间的间隔

import matplotlib.pyplot as plttaxinyc = { 'gdc':{ 'rmse': { '16': 0.6367, '32': 0.6226, '64': 0.6178, '128': 0.6088 }, 'mae': { '16': 0.1596, '32': 0.153

2022-02-14 16:51:09 4148

原创 pandas.DataFrame.reset_index()方法

reset_index()重要参数：drop : boolean, default False。因为在一些操作比如groupby之后会将原有的row打乱，导致索引顺序随之变化（不按原来的顺序）drop=True, 删除原有索引，建立新索引， drop = False 保留原有索引，添加重置索引。两者的区别在一是否删除原来的Indexdf.groupby(by='colA').reset_index(drop=True) #按colA分组，并删除旧索引，建立新索引inplace : boole

2022-01-17 21:13:59 2390

转载 LSTM时间序列预测

LSTM时间序列预测步骤1.生成数据集2.分训练集和测试集，并且需要对数据进行time windows分割3.创建滑窗数据集4. 定义lstm模型5. 定义超参数6. 定义训练过程注意的点：单步预测，输出只取lstm最后一步；预测过程中上一步的输出作为下一步的输入关于lstm 模型rnn = nn.LSTM(10, 20, 2) (input_size,hidden_size,num_layers)input = torch.randn(5, 3, 10) (seq_len,bat

2021-12-09 21:19:31 5587

原创动态规划（入门级）

动态规划（入门级）动态规划(dynamic programming),以下简称dp,本质是带了记忆+枚举，分析时从上至下（深度搜索），dp的思考方式是从底至上，少数从上至下。1.整数拆分给定一个正整数?n，将其拆分为至少两个正整数的和，并使这些整数的乘积最大化。返回你可以获得的最大乘积。示例 1:输入: 2输出: 1解释: 2 = 1 + 1, 1 × 1 = 1。示例2:输入: 10输出: 36解释: 10 = 3 + 3 + 4, 3 ×3 ×4 = 36。思路：n拆分成至少

2021-11-20 17:19:30 669

原创动态规划之背包问题总结

01背包简介：01背包是一个经典的问题，本文总结了四种01背包的解法

2021-11-20 16:52:08 795

原创 SQL求第top N

SQL求top N编写一个 SQL 查询，获取 Employee 表中第 n 高的薪水（Salary）。±—±-------+| Id | Salary |±—±-------+| 1 | 100 || 2 | 200 || 3 | 300 |±—±-------+例如上述 Employee 表，n = 2 时，应返回第二高的薪水 200。如果不存在第 n 高的薪水，那么查询应返回 null。±-----------------------+| getNthHi

2021-10-27 19:56:34 232

原创 SQL求并，交，差集

求并集select a.*from table_a as aunion allselect a.*from table_b as b去重select a.*from table_a as aunionselect a.*from table_b as b求差集select a.*from table_a as aleft join table_b as bon a.id = b.idwhere b.id is null求交集select a.*fr

2021-10-26 23:07:42 1387

原创 spark执行原理

spark执行原理第一阶段：RDD+算子组成的有向无环图第二阶段：DAGScheduler根据宽窄依赖将图划分成不同阶段的任务，并打包成TaskSet第三阶段：由TaskScheduler遍历TaskSet 将TaskSet中的每个任务发送至worker执行第四阶段：Worker线程池执中线程行任务执行速度由 rdd中分区数量、stage的个数、和woker中核的数目决定重试机制若task发送失败，TaskScheduler会重试发送3次，3次依然失败，由DAGScheduler重新提交任务

2021-10-23 20:43:45 592

原创使用DGL进行异构图元路径采样

异构图元路径采样import dglimport tqdmimport osdef construct_graph(): node_src = [1,2,0,3,4,5,6,7] node_dst = [2,0,1,1,1,6,7,8] data1 = (node_src,node_dst) data2 = (node_dst,node_src) hg = dgl.heterograph( {('paper','pa','autho

2021-10-21 00:16:35 1471

原创最长上升子序列

最长上升子序列 dp + 二分法#include<bits/stdc++.h>using namespace std;//动态规划 O(n^2)int lengthOfLIS(vector<int>& nums) { int result = 0; int n = nums.size(); vector<int> dp(n,1); if(n == 1){ return n; } for(int i=1;i<n;i++

2021-10-15 00:06:57 101

原创二分查找边界查找

二分查找1. 简介二分查找是一种高效的查找算法，二分必有序，二分查找有许多细节共6处细节2. 左右指针初始化l = -1, r = N; 指针不越界考虑两种极端情况情况1： arr = [1，2，3，4，5，6], key = 7, 小于时l指针不断右移初始 l = -1, r = N当 l = N-2， N-2+1 = N-1,当 l = N-1，N-1+1 = N = r, 退出while, 左指针不越界情况2: arr = [1, 2, 3, 4, 5, 6], key = 0

2021-10-14 19:58:26 727

原创 Pyspark 数据类型及转换及列表转单列

Pyspark 数据类型及转换Spark 数据类型ByteType, 1-byteShortType, 2-byteIntegerType, 4-byteLongType, 8-byteFloatType, 4-typeDoubleType, 8-byteDecimalType, arbitrary sided decimal numbersStringTypeBinaryTypeBooleanTypeTimetampTypeDateType. Year month, da

2021-10-14 11:42:01 5575

原创零钱兑换2

力扣零钱兑换2状态定义：求组合数，二维，dp[k][j] 表示前k枚硬币下，金额k的凑成方式数量，这里是恰好凑成一维，定义dp[j] 表示金额为j时，有多少中凑成方式状态转移：现在由前k枚硬币，dp[j] 要么由放上第k枚。要么不放上第k枚，不放则金额 j 由前 k-1枚组成 dp[j] = dp[j] + dp[j-coins[k]]边界条件：当没有容量时,啥也不放，金额为0，放0个硬币，有一种凑成方式， dp[0] = 1如何枚举？由于一枚硬币可以被用多次，也就是coins[

2021-09-25 09:15:05 179

原创最长递增路径 DFS&BFS+toposort

剑指 Offer II 112. 最长递增路径原题链接：方法一：带记忆的深度优先搜索，维护一个记忆数组，当某个值被计算过，直接返该值，否则深度优先搜索搜索该值记忆化搜索模板：dfs(memo,x,y){ if meno[x][y] 有值直接返回该值剪枝，判断变化方向是否在边界内继续递归+改变memo的值 meno[x][y] = dfs(memo,x+变化方向，y+变化方向) return memo[x][y]}方法二：拓扑排序+广度优先遍历，在遍历过程中删除入

2021-09-21 10:23:52 126

基于java socket的机票预订程序

java的socket写了一个控制台版本的机票预订程序，实现了机票的用户的登录，查询，和订票已经历史订票记录查询

2018-05-05

基于设计模式的画图程序

该系统是一个画图程序，我们要用设计模式的思想来设计系统结构，然后实现基本图形的绘制功能。 1.1 设计模式要求至少在其中运用 3 种模式，其中涉及到的模式有装饰模式、策略模式、桥梁模式三种。 1.2 画图基本要求能实现基本图形的绘制功能 1.3 画图高级要求实现图形的操作（如选取、移动、放大、缩小、改变颜色、改变线形等）和持久化（利用文件或利用数据库）。详情参见：https://wenku.baidu.com/view/748bfe3d7dd184254b35eefdc8d376eeaeaa179e

2018-03-25

TA关注的人

基于java socket的机票预订程序

基于设计模式的画图程序

城市公交查询软件

ATM存取款课题系统

内部排序算法的比较已知技术参数和设计

nohup 运行python程序不能导包