自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 Cursor!!!GPT-4帮我写代码

目前为止应该是第一个免费能够使用GPT4工作的软件,看作者的Twitter,他说自己提前向OpenAI要到了GPT4的API,然后在这么短的时间内就集成出一个IDE,效率之高简直离谱,并且实际测试代码生成速度也巨快。

2023-03-20 17:53:36 5754 6

原创 从0到1构建一个基于知识图谱的智能问答系统

前言基于知识图谱的问答系统(Knowledge-Based Question Answering system: KBQA)在以下场景下比较有优势:对于领域类型是结构化数据场景:电商、医药、系统运维(微服务、服务器、事件)、产品支持系统等,其中作为问答系统的参考对象已经是结构化数据;问题的解答过程涉及多跳查询,比如“周杰伦的妈妈今年是本命年吗?”,“你们家的产品 v1 和 v2 的区别是什么?”;为了解决其他需求(风控、推荐、管理),已经构建了图结构数据、知识图谱的情况。KBQA简单讲就是将把

2022-07-09 16:46:43 10825 6

原创 DeepWalk、Node2Vec算法

DeepWalk算法的中心思想就是在图中随机游走生成节点序列,之后用Word2Vec的方式得到节点的embedding做下游任务。随机游走在介绍Deepwalk算法之前,需要先了解游走序列的生成方式。随机游走即在特定网络拓扑构成的图中,从图中的一个随机节点开始,根据此节点的连通情况随机的选择下一个节点,进行一定步长的游走,起止节点之间所经过的节点即为一条游走序列,图中所有节点都要进行一次以此节点为起点的游走,并重复游走数次。talk is cheap show me the codeimport n

2022-02-19 16:38:09 1243 1

原创 GCN的通俗理解

图卷积网络Graph Convolutional Nueral Network,简称GCN。其实是GNN的一个变种,可以说是GNN的一种特殊形式。上回我们介绍GNN时,提到了GNN的流程:1、聚合2、更新3、循环

2022-01-03 18:31:09 2964

原创 图的基本知识

1、什么是图2、图的表示

2021-12-26 20:17:21 753

原创 GNN的通俗理解

GNN通俗理解

2021-12-19 21:53:23 1304

原创 算法程序设计期末

目录排序算法插入排序归并排序快速排序堆排序递归分治、动态规划、贪心算法算法复杂度图网络流线性规划回溯法和分支限界法排序算法这里主要介绍插入排序、归并排序、快速排序、堆排序四种。1、各种排序算法(插入、合并、快速、堆)及其特点:稳定性;复杂度。插入排序插入排序相信大家都很熟悉了。。最简单的排序之一,思想就跟我们打牌时,把摸到的牌插入到自己手中正确的位置一样的。特点:1.稳定;2.最坏情况下比较n*(n-1)/2次,最好情况下比较n-1次;3.第k次排序后,前k个元素已经是从小到大排好序的4

2021-07-07 00:08:01 672

原创 终极奥义之——递归

目录递归递归概念递归的两个要素例子1、阶乘函数2、斐波那切数列3、整数划分问题递归递归概念直接或间接地调用自身的算法称为递归算法,用函数自身给出定义的函数称为递归函数。为了描述问题的某一状态,必须用到它的上一状态;而描述上一状态,又必须用到它的上一状态…这种用自已来定义自己的方法,称为递归定义递归的两个要素递归边界条件。也就是所描述问题的最简单情况,它本身不再使用递归的定义。递归定义:使问题向边界条件转化的规则。递归定义必须能使问题越来越简单。如:f(n)由f(n-1)定义,越来

2021-06-19 23:24:03 218

原创 数据中台

什么是数据中台核心本质就是:“数据仓库+数据服务中间件”数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享。随着业务的快速发展,企业的多条业务线都产生了大量的数据,而且数据都按照不同的形式进行采集、存储、处理等。为了快速满足每个前端业务的需求,公司通常会让前台直接去联系后台,初始可能比较有效,但是随着需求越来越多、越来越频繁,沟通成本大大提高,效率大大降低。同时,对于一个公司的多个业务来说,哪怕看起来很个性的需求,经过抽象以及合并同类项后,我们发现也可以形成共有的能力。其实,对于后台的很多功

2021-05-09 20:08:09 3601 6

原创 软件项目管理:使用PERT评价不确定性的方法

每个活动的持续时间的估计包括:最可能时间(Most Likely Time):m乐观时间(Optimistic Time):a悲观时间(Pessimistic Time):b期待时间 te = (a+4m+b)/6σ 标准差 : (b-a)/6例子采用计划评估评审技术PERT法计算项目在14.57天内完成的概率,其中任务1的最乐观、最可能和最悲观的历时估计是2天、3天、6天, 任务2的最乐观、最可能和最悲观的历时估计是4天、6天、8天。 任务3的最乐观、最可能和最悲观的历时估计是3天、4天、6

2021-05-03 19:01:20 3552 1

原创 项目管理计算——PV、EV、AC、BAC、EAC、SV、CV等指标

字段含义案例1.下表是一个项目的目前的运行数据,计算项目所有的BAC、SV、CV、CPI、EAC,这个项目的进度还正常吗?假设目前的日期是4/15/2007.解答:BAC(项目完成的预算总成本,sum(Estimated effort)):50+35+20+40+60+80 = 285 人天SV(进度差异, EV–PV ,SV>0代表进度提前),所以首先计算EV跟PVEV(挣值,实际完成工作预算成本) :如上表实际完成实际到了4/15/2007,所以EV=50+35+20+40=14

2021-05-03 17:41:21 12081 1

原创 hiveUDF——返回指定时间区间内的日期数组

import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import java

2021-04-30 18:11:46 469 1

原创 CPM关键路径法

目录CPM关键路径法定义构造方法CPM中节点表示例题关键路径的意义:CPM关键路径法定义关键路径法(CriticalPath Method, CPM)是一种基于数学计算的项目计划管理方法,是网络图计划方法的一种。关键路径法将项目分解成为多个独立的活动并确定每个活动的工期,然后用逻辑关系(结束-开始、结束-结束、开始-开始和开始-结束)将活动连接,从而能够计算项目的工期、各个活动时间特点(最早最晚时间、时差)等。在关键路径法的活动上加载资源后,还能够对项目的资源需求和分配进行分析。关键路径法是现代项目管

2021-04-22 17:59:19 3767

原创 牛客sql刷题篇-困难难度全解

想在leetcode上刷sql来着,结果发现绝大部分需要会员。。不能白嫖实在不能忍,所以找了一会发现牛客也有sql题目可以用来练手。话不多说直接上题。目录1.获取所有部门中当前员工薪水最高的相关信息(对应SQL12)2. 查找所有员工自入职以来的薪水涨幅情况(对应sql21)1.获取所有部门中当前员工薪水最高的相关信息(对应SQL12)有一个员工表dept_emp简况如下:有一个薪水表salaries简况如下:要求:获取所有部门中员工薪水最高的相关信息,给出dept_no, emp_no以及

2021-04-09 16:41:18 1161 1

原创 凸优化简单梳理

赵老师的这门人工智能基础课讲得实在太快了,内容又多,囫囵吞枣都咽不下去,所以抽个时间简单记录些零零散散的知识点。。。凸集定义:集合C内任意两点间的线段均在集合C内,则称集合C为凸集,即:然后拓展到K个点即:例如:超平面、半空间、多面体超平面hyperplane: {x ∣ aT x = b}如果向量a乘以X等于b,则这个表达的任意的x就代表超平面。如果将等号变为大于等于或者小于等于,则这个任意的x就代表超平面所确定的半空间。半平面(半空间)halfspace: {x ∣ aT x

2021-03-31 18:15:29 539

原创 软件项目管理知识点整理

目录项目管理定义及通俗理解:框架:五大标准化过程组一.项目启动项目类型:1.初始项目分析2.生存期模型瀑布模型:原型模型:增量模型:3.项目立项二、项目计划范围计划wbs任务分解工作包任务分解原则进度计划进度计划管理过程关键路径与里程碑成本计划质量计划人力资源计划职能型:项目型矩阵型沟通计划风险计划三、项目的实施与控制四、项目结束项目管理定义及通俗理解:定义:使项目能够按照预定的成本、进度、质量、顺利完成并让所有干系人得到满意,而对成本、人员、进度、质量、风险等进行分析和管理的活动。通俗理解:假设我们

2021-03-29 17:25:19 2493

原创 简述离线数据处理流程

之前也做过一段时间的大数据,自己一直记性不太好,怕遗忘所以捞一下~本质其实就是一个数据的流转问题。。目录1.数据采集数据来源数据传输在数据采集时需要注意的一些问题2.数据预处理3.数据入库(数仓)数仓建设1. 需求分析2. 维度建模(星型模型)3. 设计数仓分层架构(ods-dwd-dws-ads)4. 定制规范(命名规范、模型规范、开发规范、流程规范)5. 数据治理(数据质量,数据安全,元数据管理)6. 开工ETL/BI,迭代开发1.数据采集数据来源主要分为两大块~数据库(结构化数据):基本

2021-02-03 18:17:06 2725 1

原创 补数学基础之高斯分布——多维情况

上篇介绍了高斯分布一维的情况,这次来进一步看下多维高斯分布~一维首先0均值和单位方差的标准一维高斯分布如下:二维那么二维标准高斯分布,就是两个独立的一维标准高斯分布随机变量的联合分布:用一个随机向量V来表示这两个随机变量的组合V = [x y]T 所以:然后从标准高斯分布推广到一般高斯分布,是通过一个线性变换:V= A(x-μ)记协方差矩阵Σ=(ATA)-1 其中|A|为行列式,则:多维所以多维高斯分布表达式就出来了:这其中x,μ∈ Rp, Σ∈ Rp×p ,Σ为协方差矩阵

2021-01-26 17:41:25 649

原创 补数学基础之高斯分布——有偏估计、无偏估计

上一篇介绍了高斯分布在一维情况下的极大似然估计我们接上篇,通过极大似然估计得到的两个参数值为例,来看下它们是有偏的还是无偏的。首先来看下有偏估计跟无偏估计的定义定义有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是待估参数的真值。注意看,它的期望不等于待估参数的真实值就是有偏,相等就是无偏~接上篇我们的极大似然估计两个参数:我们来判断这两个参数到底是有偏还是无偏就变成判断两个参数的期望是否等于他们本身:首先来看μ,它的期望很简单

2021-01-22 18:24:43 1780 1

原创 补数学基础之高斯分布——极大似然估计

高斯分布就是我们常说的正态分布,也叫常态分布,名字有很多~~后面统一叫高斯分布。图形非常的常见~最简单的,人类的身高分布,学习成绩这种,基本都服从于高斯分布。一维高斯分布:若随机变量X服从一个位置参数为μ 、尺度参数为σ的概率分布的概率密度函数如下:μ ——均值σ——标准差则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作X~N(μ,σ2) ,读作X服从N(μ,σ2) ,或X服从高斯分布。高斯分布先到这里,公式推导详情回去看概率论课本。极大似然估计第一次

2021-01-21 18:35:27 1642

原创 密码学期末计算题复习

主要三大块目录1.古典密码移位密码:代换密码欧拉函数:乘法逆元用拓展欧几里得求解详细过程:群Zm内所有元素关于模26的乘法逆元如下:仿射密码:希尔密码:定义在Zm上的矩阵求逆 :2.对称密码体制AES加密的工作模式3.非对称密码体制拓展欧几里得求解同余方程组RSA算法过程ElGamal加密算法1.古典密码移位密码:E(x)= (x + K) mod 26D(x)= (x - K) mod 26代换密码是指先建立一个替换表,加密时将需要加密的明文依次通过查表,替换为相应的字符,明文字符被逐个替换

2021-01-13 15:43:56 9203 6

原创 ElGamal加密算法简介

目录简介阶本原元算法流程1.密钥生成2.加密3.解密简介上一篇介绍了非对称加密算法中的RSARSA算法简介,这次看一下ElGamal算法。首先它是一个基于迪菲-赫尔曼密钥交换的非对称加密算法。它在1985年由塔希尔·盖莫尔提出。它可以定义在任何循环群G上。它的安全性取决于G上的离散对数难题。(RSA基于大数的因数分解)在介绍算法原理之前先熟悉几个概念:阶设n>1,a和n互质,则必有一个x (1≤x ≤n-1)使得: ax ≡ 1 (mod n )满足ax ≡ 1 (mod n ) 的最小

2020-12-28 17:07:42 10889 5

原创 MBSE基于模型的系统工程

目录定义为什么要用MBSE传统基于文本系统设计方式的局限MBSE带来的价值与传统设计方式的对比MBSE的三大支撑:方法论、系统设计语言、系统建模工具MBSE方法论系统设计语言系统建模工具参考定义官方的解释还是要记录一下,万一考试要考呢。。国际系统工程协会(INCOSE)于2006年发起2007年发布的《SE愿景2020》中的定义:MBSE is the formalized application of modeling to support system requirements, design,

2020-12-23 12:24:46 8530

原创 分类问题学习笔记-朴素贝叶斯

文章目录朴素贝叶斯案例算法原理如何处理连续值算法的优缺点优点缺点Python朴素贝叶斯案例按照以往,我们首先通过一个例子来感受一下,来看看它到底有多朴素。大学上概率论的时候老师大都举过这样一个例子:抽奖盒里有三张券,只有一张中大奖 ,你抽了一张还没刮,小明抽了一张,刮开没中。这时候剩下最后一张中奖的概率是多少?他要跟你换你换吗?从直觉上来讲,你中奖的概率是1/3,你最先抽了一张,不管咋操作,中奖的概率应该都是1/3。这时候小明排除掉了一张没中奖的,剩下两张必有一张中奖,所以概率是1/2。是这样吗?

2020-12-22 16:09:27 236

原创 RSA算法简介

目录简介对称加密非对称加密RSA算法原理RSA算法流程1.密钥生成2. 加密和解密简介对称加密1976年以前,所有的加密方法都是同一种模式:a选择某一种加密规则,对信息进行加密;b使用同一种规则,对信息进行解密。这种加密模式有一个最大缺点:加密和解密使用同样的规则(密钥),a必须把密钥告诉b,否则无法解密。保存和传递密钥,就成了最头疼的问题。非对称加密后来出现一种 ”Diffie-Hellman密钥交换算法“,它的加密和解密可以使用不同的规则,只要这两种规则之间存在某种对应关系即可

2020-12-21 13:36:28 431

原创 欧几里德算法、拓展欧几里德、中国剩余定理

目录欧几里德算法(Euclidean algorithm)(辗转相除法)拓展欧几里德算法中国剩余定理作业1:作业2:欧几里德算法(Euclidean algorithm)(辗转相除法)欧几里德算法又称辗转相除法,主要是用于计算两个整数a,b的最大公约数。简单点说一下算法原理:两个整数的最大公约数等于其中小的那个数跟大除以小余数的最大公约数。即: gcd(a,b)=gcd(b,a mod b) 。举个简单的例子:比如求 10跟 24 的最大公约数a = gcd(10, 24):求10和24的

2020-12-14 19:58:08 897

原创 AES加密的工作模式ECB、CBC、CFB、OFB及案例

高级加密标准(Advanced Encryption Standard: AES)是美国国家标准与技术研究院(NIST)在2001年建立了电子数据的加密规范。其是对称加解密算法的最经典算法之一,它是一种分组加密标准,每个加密块大小为128位,允许的密钥长度为128、192和256位。这里只介绍ECB、CBC、CFB和OFB四种加密模式...

2020-12-09 13:33:34 6002

原创 希尔密码的加密、解密与破解

简介希尔密码是运用基本矩阵论原理的替换密码,由Lester S. Hill在1929年发明。每个字母当作26进制数字:A=0, B=1, C=2… 一串字母当成n维向量,跟一个n×n的矩阵相乘,再将得出的结果模26。(注意用作加密的矩阵(即密匙)在 必须是可逆的,否则就不可能解码。只有矩阵的行列式和26互质,才是可逆的。)例子:加密:密文向量 = 密钥矩阵 * 明文向量 (mod 26)python实现:import numpy as npm = 'YOURPINNOISFOURONETW

2020-12-03 17:13:30 8062 1

原创 同余方程、欧拉定理、乘法逆元、定义在Zm上的矩阵求逆

上篇简单介绍了一下仿射密码:仿射密码的加密与解密,很多东西都没有深入去挖掘,这次上完课后对实现它的一些概念公式又有了一个更深的认识。目录1.模同余2.一次同余方程唯一解定理首先介绍几个概念:1.模同余模同余:给定一个正整数m,如果两个整数a和b满足a-b能够被m整除,即(a-b)/m得到一个整数,那么就称整数a与b模m同余,记作a≡b(mod m)。对模m同余是整数的一个等价关系。其中定义群Zm = {0, 1, 2, …, m-1}证明:必要性:若a和b除以m留下相同的余数r,a=q1

2020-12-02 11:08:36 1740

原创 仿射密码的加密与解密

目录简介加密函数解密函数乘法逆元例题加密:解密:代码(python版)简介仿射密码为单表加密的一种,字母系统中所有字母都藉一简单数学方程加密,对应至数值,或转回字母。它是一种替换密码,利用加密函数一个字母对一个字母的加密.加密函数加密函数是 E(x)= (ax + b) (mod m),其中,a和m互质,m是字符集的大小。(例如,26即是以26个字母作为编码,当m是26时,a必须是1,3,5,7,9,11,15,17,19,21,23,25其中之一)解密函数解密函数为D(x) = a^-1(

2020-11-27 17:01:52 20964

原创 kaggle入门学习demo——Titanic: Machine Learning from Disaster

系列文章目录分类问题学习笔记——KNN分类问题学习笔记——决策树文章目录预测泰坦尼克号上的生存状况,熟悉ML基础知识1.下载数据集,了解字段含义2.数据清洗1)特征选择2)缺失值填充3)string型分类字段转码2.模型训练预测泰坦尼克号上的生存状况,熟悉ML基础知识1.下载数据集,了解字段含义首先去比赛界面下载数据集https://www.kaggle.com/c/titanic/dataimport pandas as pdimport numpy as npimport ran

2020-11-18 14:35:53 310

原创 分类问题学习笔记-决策树

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录决策树案例:原理:基于信息论的三种决策树算法:1、ID3算法**信息熵:****案例:**ID3算法的不足2、C4.5算法3、CART算法优点:缺点:关于剪枝:python鸢尾花案例:决策树案例:假如现在我想买一个西瓜,需要判断好瓜,还是坏瓜。西瓜拿过来后先看纹理,纹理如果不清晰直接pass,纹理清晰的再看根蒂,触感等其他特征,如果我此时构建了一颗决策树,没问题,马上就可以知道是好瓜,还是坏瓜,如下图所示:原理:决策树

2020-11-16 17:27:05 782

原创 分类问题学习笔记-KNN原理

最邻近算法-KNN案例:kNN算法的指导思想是“近朱者赤,近墨者黑”,由你的邻居来推断出你的类别。俗话讲“物以类聚,人以群分”。 试想有甲乙两个人,甲住进了汤臣一品的豪宅,乙住进了郊区老破小,那我们最直观的判断就是:甲大概率是个有钱人,乙嘛,平平无奇。即时我们没见过甲乙的银行卡余额,但通过甲住进了富人小区仍然可以做出判断。引出KNN算法思路“你住的离谁近,就大概率跟他是同一类人”。定义——From Wikipedia:In pattern recognition, the k-nearest ne

2020-11-16 16:20:51 647

原创 hive中SQL转化为MapReduce任务的原理

MapReduce实现基本SQL操作的原理:Join的实现原理:select s.sname, c.cname from class c join student s on c.uid = s.uid;在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。MapReduce的过程如下:Group By的实现原理:select uid,city, count(*) from student group by uid,city;MapRe

2020-08-26 16:37:02 1589

原创 Python 读取csv、pandas多表join、时间与时间戳转换、判断是否当月第一天

Python1.读取csv文件工作中会用到读取csv的场景,但是又不想所有的列都读。。所以记录下怎样选择读取# 这里usecols参数选择要第几列df_info = pd.read_csv('/data/share/' + ts + '_user_mgmt.csv.gz',usecols=[0, 5, 10, 11], low_memory=False)# 读完之后可能会有索引列 ,去掉 unnamed:0 列df = df.loc[:, ~df.columns.str.contains('U

2020-07-20 18:14:02 1087 1

原创 Mysql更改表字段、编码、分区、添加索引

Mysql笔记最近工作中会用到相关mysql 和Python,碰到想不起来的或者不会的就记录一下,好记性不如烂笔头!更改表字段及默认编码://更改表的字段alter table table_name modify `real_name` double DEFAULT NULL COMMENT '';//更改表的默认编码为utf8ALTER TABLE `table_name` DEFAULT CHARACTER SET utf8;//更改表内所有字段编码为utf8alter table `t

2020-07-20 17:12:55 261

原创 Python字典,列表,生成器

Python笔记对于编程语言的效率来讲,一般指开发效率和运行效率,不同的语言会有不同的侧重,python语言毫无疑问更在乎编码效率。通过刷题的感觉来讲,不同的case,Python比C++或者C慢了几倍到几十倍。但作为一个程序员,不仅要知其然也要知其所以然。下面罗列一些原因(每一条展开赘述都很深,目前我自己也没有了解清楚):第一:python是动态语言一个变量所指向对象的类型在运行时才确定,编译器做不了任何预测,也就无从优化。举一个简单的例子: r = a + b a和b相加,但a和b的类型在运

2020-07-20 16:30:38 376

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除