自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(166)
  • 收藏
  • 关注

原创 【Python】编码

【代码】【Python】编码。

2024-02-27 15:03:23 817

原创 sql之小数点转义

所以以下图中,中括号中的.,是被转义了,就表示.本身,中括号后面的.,表示任意单个字符。

2022-12-30 17:23:58 310 1

原创 画决策树可以用的包

决策树可视化常用包

2022-12-15 03:52:18 294

原创 【Spark】计算LSH引入新jar包-LinkedInAttic ScANNS

目前是想在100万白用户的基础上,在2000万未知用户中,找到与100万用户最相近的一定量级用户当做白用户。

2022-07-27 17:01:51 650

原创 【Scala】dataframe部分列转为稀疏矩阵

dataframe部分列转为稀疏矩阵

2022-07-11 19:22:51 434

原创 【RDD】Pair RDD Functions

Spark用几个函数定义了PairRDDFunctions类来操作Pair RDD或RDD key-value pair。当需要应用像hash partition, set operations, joins等transformations时,Pair RDD就派上了用场。这段代码通过在RDD中的每个元素上按空格分割来创建pair RDD,并将其拉平,在RDD中的每个元素上形成一个单词字符串,最后为每个单词分配一个整数“1”,运行结果如下:sortByKey – Transformation r

2022-07-08 16:51:51 243

原创 【RDD】Transformations

RDD Transformations是Spark在RDD上执行的操作,它会产生一个或多个新的RDD。由于RDD在本质上是不可变的,Transformations总是创建新的RDD,而不更新现有的RDD,因此,这就创建了一个RDD lineage。 RDD谱系(RDD Lineage)也被称为RDD操作图或RDD依赖图。RDD Transformations是惰性操作,这意味着除非在Spark RDD上调用一个action,否则不会执行任何Transformation。由于RDD是不可变的,任何对它的转换都

2022-07-08 14:29:03 251

原创 【RDD】创建空RDD

输出:输出:输出:参考

2022-07-08 12:21:10 389

原创 【RDD】创建RDD及读取文件

Spark shell提供了SparkContext变量,使用创建RDD。使用scala时,从中获取对象,并使用来创建rdd,这个函数还有另一个signature,它附加了一个整数参数来指定分区的数量。分区是Apache Spark中并行性的基本单位。Apache Spark中的RDD是分区的集合。(Partitions are basic units of parallelism in Apache Spark. RDDs in Apache Spark are a collection of pa

2022-07-08 11:54:59 1898

原创 【Python】pandas读取亿级数据

思想是分块读取,通过read_csv或read_table的两种方式(两个参数:chunksize和iterator)。

2022-07-01 14:29:41 1578

转载 【Python】data[item].astype(‘category’).cat.codes类别型变量映射到整数型

Category可以很好的节省在时间和空间的消耗。

2022-06-14 19:44:05 1934

原创 【Python】jupyter多次import不生效

如果在修改了被导入的包以后,想重新导入它怎么办呢?

2022-06-11 17:23:26 647

原创 【Pyspark】提取Hive数据报错 java.lang.AssertionError: assertion failed: No plan for HiveTableRelation

一般来说这种错误的产生是因为在创建SparkSession对象的时候HiveContext没有被启用。创建SparkSession对象记得启用HiveContext。

2022-06-02 00:25:26 919 1

原创 【Scala】数据集成(join)

数据集成是将多文件或者多数据库中的数据进行合并,然后存放在一个一致的数据存储中 。 数据集成一般通过 join、 union 或 merge 等关键字把两个(或多个)数据集连接在一起, SparkSQL (包括DataFrame)有join方法, Pandas下有merge方法。 数据集成往往需要耗费很多资源 ,尤其是大数据间的集成涉及 shuffle 过程, 有时需要牵涉多个节点,所以 除了数据一致性外,性能问题常常不请自来,需要我们特别留心。 传统数据库 一般是在单机上采用 hash jo

2022-06-01 23:30:42 528

原创 【Scala】SparkContext与SparkSession的区别与联系

在 2.0之前的 Spark版本中, SparkShell会自动创建一个 SparkContext对象sc。 SparkContext与驱动程序(Driver Program)和集群管理器(Cluster Manager)间的关系如图所示。 从图中可以看到, SparkContext起中介的作用,通过它来使用Spark其他的功能。每一个 JVM 都有一个对应的 SparkContext,Driver Program 通过 SparkContext 连接到集群管理器来实现对集群中任务的控制。S

2022-06-01 22:42:09 658

原创 【Scala】值类型和条件表达式

1. Scala的值类型有7种:(无引用类型)Byte Char Short Int Long Float Double2. Scala 条件表达式scala>val x = 3x:Int = 3scala>val y = if(x 1)1 else -1y:Int = 1scala>println (y)1scala>val z = if(x 1)1 else "error" //混合类型表达式z:Any = 1 //返回的是sc

2022-05-30 11:04:26 84

原创 【Pyspark】在jupyter中运行pyspark,且为yarn-client模式

1. 预备操作已经有的环境包括:spark 2.4.5 集群 anaconda 虚拟环境python3.7 (由于集群spark环境为2.4.5,python版本必须<3.8) 配置好$SPARK_HOME、$JAVA_HOME 环境变量2. 本次操作命令行操作:# 查看并进入相应虚拟环境conda info --envsconda deactivateconda activate caret# 进入相应虚拟环境后,安装包conda search pyspark

2022-05-26 01:23:36 1036

原创 【Scala】SparseMatrix存储格式CSC理解

参考文献:Data Types - RDD-based API - Spark 3.2.1 Documentation python - sparse Matrix/ CSC Matrix in pyspark - Stack Overflow 稀疏矩阵的存储格式CSC理解。(Local Matrix)_时间_实践的博客-CSDN博客_csc格式 Spark 3.2.1 ScalaDoc - org.apache.spark.mllib.linalg.SparseMatrix想要表示矩阵1

2022-05-23 12:19:33 289

原创 【Hive】计算分位数

hive中有两个函数可以用来计算分位数:percentile和percentile_approx具体使用方如下:(1)percentile:percentile(col, p)col是要计算的列(值必须为int类型),p的取值为0-1,若为0.5,那么就是2分位数,即中位数。(2)percentile_approx:percentile_approx(col, p)。列为数值类型都可以。percentile_approx还有一种形式percentile_approx(col, p, .

2022-05-16 18:40:21 8173

转载 pandas-dataframe与spark-dataframe操作的区别

转载自Spark SQL 及其DataFrame的基本操作 - hhhhhh1122 - 博客园item pands pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism,不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理..

2022-05-16 18:01:01 463

转载 【Hive】like与rlike的区别

摘自Hive中rlike,like,not like,regexp区别与使用详解_涤生大数据的博客-CSDN博客_rlike1.like的使用详解1.语法规则:格式是A like B,其中A是字符串,B是表达式,表示能否用B去完全匹配A的内容,换句话说能否用B这个表达式去表示A的全部内容,注意这个和rlike是有区别的。返回的结果是True/False.B只能使用简单匹配符号_和%,”_”表示任意单个字符,字符”%”表示任意数量的字符like的匹配是按字符逐一匹配的,使用B从A的第一个字符开始匹配,所.

2022-05-11 14:50:28 442

原创 【DGL】定义邻居采样器和数据加载器

6.1 Training GNN for Node Classification with Neighborhood Samplinghttps://docs.dgl.ai/en/0.6.x/guide/minibatch-node.html#guide-minibatch-node-classification-samplerDGL提供了几个邻居采样类,这些类会生成需计算的节点在每一层计算时所需的依赖图。 最简单的邻居采样器是MultiLayerFullNeighborSampler,它可获取节点.

2022-04-14 00:25:37 3098

原创 【DGL】dgl邻居节点采样器MultiLayerNeighborSampler

dgl.dataloading.neighbor.MultiLayerNeighborSamplerhttps://docs.dgl.ai/en/0.6.x/api/python/dgl.dataloading.html?highlight=multilayerneighborsampler#neighbor-sampler基于 `dgl.dataloading.dataloader.BlockSampler`采样器,通过多层 GNN 的邻居采样建立节点表示的计算依赖。该采样器将使每个节点从每种边缘

2022-04-13 15:46:27 2152

转载 【Pytorch】OSError: libc10_cuda.so: cannot open shared object file: No such file or directory

摘自https://githubhot.com/repo/rusty1s/pytorch_geometric/issues/3904https://githubhot.com/repo/rusty1s/pytorch_geometric/issues/3904It looks like you have installed PyTorch with CUDA support (there exists a cudatoolkitconda package). As such,torch-scat..

2022-04-07 14:29:58 6283

原创 【Python】「argparse基本用法」及「jupyter中使用 args = parser.parse_args()并传参」

【argparse基本用法】及【jupyter中使用 args = parser.parse_args()并传参】

2022-03-22 17:09:18 3936

原创 【Scala】MinHash for Jaccard Distance

来源:LSHMinHashimport org.apache.spark.ml.feature.MinHashLSHimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.colval dfA = spark.createDataFrame(Seq( (0, Vectors.sparse(6, Seq((0,

2022-01-13 16:37:22 870

原创 【Hive】动态分区

1. 建表,包含2个分区CREATE TABLE temp_exp20211226_shutao_generalAndZs(src string,dst string) PARTITIONED BY (dt string,type string )row format delimited fields terminated by "\t"STORED AS orc;2. 设置参数--是否开启动态分区功能,默认false关闭。使用动态分区时候,该参数必须设置成true

2021-11-29 14:41:00 1123

原创 【Pyspark】Read and Save data

数据格式如下:1. 读取csv数据from pyspark.sql.types import *#All datatypes for PySpark SQL have been defined in the submodule named pyspark.sql.types.idColumn = StructField("id",StringType(),True)#Let’s look at the arguments of StructField(). The first arg

2021-09-24 15:19:36 118

原创 【Python】深拷贝和浅拷贝

import torcha = torch.arange(12)b = a.reshape((3,4))b[:] = 2a #里面的元素也都变成2了

2021-05-16 19:09:45 72

原创 【Neo4j】MAC配置neo4j和jdk11环境变量

#jdk-11#download url:https://adoptopenjdk.net/installation.html?variant=openjdk11&jvmVariant=openj9export JAVA_HOME=/Library/Java/JavaVirtualMachines/adoptopenjdk-11.jdk/Contents/Homeexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$JAVA_HOME/lib/.

2021-05-07 17:26:22 597

原创 MAC openjdk11安装与配置

1.openjdk11下载地址:AdoptOpenJDK Installation2. 配置vi ~/.zshrc#jdk-11#download url:https://adoptopenjdk.net/installation.html?variant=openjdk11&jvmVariant=openj9JAVA_HOME=/Library/Java/JavaVirtualMachines/adoptopenjdk-11.jdk/Contents/HomePATH=$J.

2021-05-07 12:20:46 2250

转载 Mac下 .bash_profile 和 .zshrc 两者之间的区别

转自Mac下 .bash_profile 和 .zshrc 两者之间的区别.bash_profile 中修改环境变量只对当前窗口有效,而且需要 source ~/.bash_profile才能使用.zshrc 则相当于 windows 的开机启动的环境变量你也可以在 .zshrc 文件中加一行 source .bash_profile 解决需要 source 才能使用的问题...

2021-05-07 11:05:47 2707

原创 MAC安装anaconda后zsh:command not find:conda解决办法

vi ~/.zshrc#加入这一行export PATH=/Users/yourname/opt/anaconda3/bin:$PATHsource ~/.zshrcconda --version #验证效果

2021-05-06 17:24:23 283

原创 【Word】正则替换

根据Word正则表达式用法及实例进行了学习。例1.将其中的期刊替换为斜体。查找期刊的正则表达式为:\) [a-zA-Z ]{1,} (方括号中有空格别忽略)替换后效果:只需要再将括号的格式替换即可......

2021-03-11 23:45:17 1335

原创 【算法】PSO算法详解

本文图片来自Learn Particle Swarm Optimization (PSO) in 20 minutes

2021-03-01 17:16:07 323

原创 vim退出保存时报E505错误

在修改执行命令vi /etc/hosts修改完文件:wq退出时,报错如下:E505: "vimrc" is read-only (add ! to override)此时应该用:wq!退出,但是又会报这个错误:"vimrc" E212: Can't open file for writingPress ENTER or type command to continue其实应该用sudo运行命令,sudovi /etc/hosts...

2021-01-06 01:17:21 7975 1

原创 【Leetcode】罗马数字转整数python实现

方法1:#判断当前位置和下一个位置两个字母是否在mydict中class Solution: def romanToInt(self, s: str) -> int: itemList = [] mydict = {'I':1,'V':5,'X':10,'L':50,'C':100,'D':500,'M':1000,'IV':4,'IX':9,'XL':40,'XC':90,'CD':400,'CM':900} i = 0

2020-12-29 11:07:54 244

原创 【Leetcode】判断是否为回文数python实现

方法1:将整数转为字符串,然后将字符串分割为数组,只需要循环数组的一半长度进行判断对应元素是否相等即可。class Solution: def isPalindrome(self, x: int) -> bool: if x<0: return False else: strx = str(x) for i in range(len(strx)//2): ...

2020-12-24 16:50:07 254 1

原创 【Leetcode】斐波那契数列python实现

方式1:直接递归。缺点:超出时间限制。。。class Solution: def fib(self, n: int) -> int: if n<=1 return n else: return self.fib(n-1)+self.fib(n-2)方式2:利用python的list做存储,自底向上Bottum-up缺点:耗时依然长class Solution: def fi

2020-12-22 09:14:07 808

原创 【读书笔记】狄利克雷过程,Ewens抽样公式和中国餐馆过程

作者:Hajime Yamato书名:Statistics Based on Dirichlet Processes and Related TopicsChapter 2 Dirichlet Process, Ewens Sampling Formula, and Chinese Restaurant ProcessAbstract The Dirichlet process is a random probability measure and its realization is dis

2020-11-02 23:22:40 658

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除