leeshutao-CSDN博客

原创 sql之小数点转义

所以以下图中，中括号中的.，是被转义了，就表示.本身，中括号后面的.，表示任意单个字符。

2022-12-30 17:23:58 310 1

原创【Spark】计算LSH引入新jar包-LinkedInAttic ScANNS

目前是想在100万白用户的基础上，在2000万未知用户中，找到与100万用户最相近的一定量级用户当做白用户。

2022-07-27 17:01:51 650

原创【Scala】dataframe部分列转为稀疏矩阵

dataframe部分列转为稀疏矩阵

2022-07-11 19:22:51 434

Spark用几个函数定义了PairRDDFunctions类来操作Pair RDD或RDD key-value pair。当需要应用像hash partition, set operations, joins等transformations时，Pair RDD就派上了用场。这段代码通过在RDD中的每个元素上按空格分割来创建pair RDD，并将其拉平，在RDD中的每个元素上形成一个单词字符串，最后为每个单词分配一个整数“1”，运行结果如下：sortByKey – Transformation r

2022-07-08 16:51:51 243

原创【RDD】Transformations

RDD Transformations是Spark在RDD上执行的操作，它会产生一个或多个新的RDD。由于RDD在本质上是不可变的，Transformations总是创建新的RDD，而不更新现有的RDD，因此，这就创建了一个RDD lineage。 RDD谱系（RDD Lineage）也被称为RDD操作图或RDD依赖图。RDD Transformations是惰性操作，这意味着除非在Spark RDD上调用一个action，否则不会执行任何Transformation。由于RDD是不可变的，任何对它的转换都

2022-07-08 14:29:03 251

原创【RDD】创建空RDD

输出：输出：输出：参考

2022-07-08 12:21:10 389

原创【RDD】创建RDD及读取文件

Spark shell提供了SparkContext变量，使用创建RDD。使用scala时，从中获取对象，并使用来创建rdd，这个函数还有另一个signature，它附加了一个整数参数来指定分区的数量。分区是Apache Spark中并行性的基本单位。Apache Spark中的RDD是分区的集合。（Partitions are basic units of parallelism in Apache Spark. RDDs in Apache Spark are a collection of pa

2022-07-08 11:54:59 1898

原创【Python】pandas读取亿级数据

思想是分块读取，通过read_csv或read_table的两种方式（两个参数：chunksize和iterator）。

2022-07-01 14:29:41 1578

转载【Python】data[item].astype(‘category’).cat.codes类别型变量映射到整数型

Category可以很好的节省在时间和空间的消耗。

2022-06-14 19:44:05 1934

原创【Python】jupyter多次import不生效

如果在修改了被导入的包以后，想重新导入它怎么办呢？

2022-06-11 17:23:26 647

原创【Pyspark】提取Hive数据报错 java.lang.AssertionError: assertion failed: No plan for HiveTableRelation

一般来说这种错误的产生是因为在创建SparkSession对象的时候HiveContext没有被启用。创建SparkSession对象记得启用HiveContext。

2022-06-02 00:25:26 919 1

原创【Scala】数据集成（join）

数据集成是将多文件或者多数据库中的数据进行合并，然后存放在一个一致的数据存储中。数据集成一般通过 join、 union 或 merge 等关键字把两个(或多个)数据集连接在一起， SparkSQL (包括DataFrame)有join方法， Pandas下有merge方法。数据集成往往需要耗费很多资源，尤其是大数据间的集成涉及 shuffle 过程，有时需要牵涉多个节点，所以除了数据一致性外，性能问题常常不请自来，需要我们特别留心。传统数据库一般是在单机上采用 hash jo

2022-06-01 23:30:42 528

原创【Scala】SparkContext与SparkSession的区别与联系

在 2.0之前的 Spark版本中， SparkShell会自动创建一个 SparkContext对象sc。 SparkContext与驱动程序（Driver Program）和集群管理器（Cluster Manager）间的关系如图所示。从图中可以看到， SparkContext起中介的作用，通过它来使用Spark其他的功能。每一个 JVM 都有一个对应的 SparkContext，Driver Program 通过 SparkContext 连接到集群管理器来实现对集群中任务的控制。S

2022-06-01 22:42:09 658

原创【Scala】值类型和条件表达式

1. Scala的值类型有7种：（无引用类型）Byte Char Short Int Long Float Double2. Scala 条件表达式scala>val x = 3x:Int = 3scala>val y = if(x 1)1 else -1y:Int = 1scala>println (y)1scala>val z = if(x 1)1 else "error" //混合类型表达式z:Any = 1 //返回的是sc

2022-05-30 11:04:26 84

原创【Pyspark】在jupyter中运行pyspark，且为yarn-client模式

1. 预备操作已经有的环境包括：spark 2.4.5 集群 anaconda 虚拟环境python3.7 (由于集群spark环境为2.4.5，python版本必须<3.8) 配置好$SPARK_HOME、$JAVA_HOME 环境变量2. 本次操作命令行操作：# 查看并进入相应虚拟环境conda info --envsconda deactivateconda activate caret# 进入相应虚拟环境后，安装包conda search pyspark

2022-05-26 01:23:36 1036

原创【Scala】SparseMatrix存储格式CSC理解

参考文献：Data Types - RDD-based API - Spark 3.2.1 Documentation python - sparse Matrix/ CSC Matrix in pyspark - Stack Overflow 稀疏矩阵的存储格式CSC理解。（Local Matrix）_时间_实践的博客-CSDN博客_csc格式 Spark 3.2.1 ScalaDoc - org.apache.spark.mllib.linalg.SparseMatrix想要表示矩阵1

2022-05-23 12:19:33 289

原创【Hive】计算分位数

hive中有两个函数可以用来计算分位数：percentile和percentile_approx具体使用方如下：（1）percentile：percentile(col, p)col是要计算的列（值必须为int类型），p的取值为0-1，若为0.5，那么就是2分位数，即中位数。（2）percentile_approx：percentile_approx(col, p)。列为数值类型都可以。percentile_approx还有一种形式percentile_approx(col, p, .

2022-05-16 18:40:21 8173

转载 pandas-dataframe与spark-dataframe操作的区别

转载自Spark SQL 及其DataFrame的基本操作 - hhhhhh1122 - 博客园item pands pandas Spark 工作方式单机single machine tool，没有并行机制parallelism，不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop，能处理..

2022-05-16 18:01:01 463

转载【Hive】like与rlike的区别

摘自Hive中rlike,like,not like，regexp区别与使用详解_涤生大数据的博客-CSDN博客_rlike1.like的使用详解1.语法规则:格式是A like B,其中A是字符串，B是表达式，表示能否用B去完全匹配A的内容，换句话说能否用B这个表达式去表示A的全部内容，注意这个和rlike是有区别的。返回的结果是True/False.B只能使用简单匹配符号_和%，”_”表示任意单个字符，字符”%”表示任意数量的字符like的匹配是按字符逐一匹配的，使用B从A的第一个字符开始匹配，所.

2022-05-11 14:50:28 442

原创【DGL】定义邻居采样器和数据加载器

6.1 Training GNN for Node Classification with Neighborhood Samplinghttps://docs.dgl.ai/en/0.6.x/guide/minibatch-node.html#guide-minibatch-node-classification-samplerDGL提供了几个邻居采样类，这些类会生成需计算的节点在每一层计算时所需的依赖图。最简单的邻居采样器是MultiLayerFullNeighborSampler，它可获取节点.

2022-04-14 00:25:37 3098

原创【DGL】dgl邻居节点采样器MultiLayerNeighborSampler

dgl.dataloading.neighbor.MultiLayerNeighborSamplerhttps://docs.dgl.ai/en/0.6.x/api/python/dgl.dataloading.html?highlight=multilayerneighborsampler#neighbor-sampler基于 `dgl.dataloading.dataloader.BlockSampler`采样器，通过多层 GNN 的邻居采样建立节点表示的计算依赖。该采样器将使每个节点从每种边缘

2022-04-13 15:46:27 2152

转载【Pytorch】OSError: libc10_cuda.so: cannot open shared object file: No such file or directory

摘自https://githubhot.com/repo/rusty1s/pytorch_geometric/issues/3904https://githubhot.com/repo/rusty1s/pytorch_geometric/issues/3904It looks like you have installed PyTorch with CUDA support (there exists a cudatoolkitconda package). As such,torch-scat..

2022-04-07 14:29:58 6283

空空如也

空空如也