自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Gscsd的博客

学无止境

  • 博客(133)
  • 收藏
  • 关注

原创 MySQL的MVCC机制

MVCC是指多版本并发控制,MVCC是在并发访问数据库时,通过对数据进行多版本控制,避免因写锁而导致读操作的堵塞,从而很好的优化并发堵塞问题,为了用来处理读写冲突的手段和解决数据库的事务操作中的多线程并发安全问题的无锁并发控制技术。

2024-04-24 17:19:36 470

原创 Python连接MySQL数据库连接池

QueuePool 是 SQLAlchemy 内置的一个连接池实现,它可以管理一个连接队列,确保每个连接在使用后被适当地关闭。它支持多种类型的连接池,并使用 threading模块实现线程安全,具有更高的性能和稳定性。SQLAlchemy 中的 QueuePool 和 DBUtils 中的 PooledDB 都是流行的 Python数据库连接池实现,它们具有相似的功能但具有一些区别。连接池的优点是可以在多个线程或进程之间共享,并且可以有效地管理连接数,而无需手动打开和关闭连接。

2023-06-20 15:41:08 4921 2

原创 Centos8安装CDH解决不兼容问题

Cenots8解决CDH不兼容问题

2022-12-04 16:27:58 3047 6

原创 MySql单机安装

mysql单机安装

2022-12-04 15:51:58 534

原创 MongoDB副本集集群搭建

Mongo副本集集群安装

2022-12-04 15:45:51 765

原创 ES集群搭建及Kibana安装

ES集群、分词器、kibana

2022-12-04 15:28:44 2573

原创 利用矩阵求两个字符串的最长公共子串

利用矩阵求两个字符串的最长公共子串

2022-09-09 16:10:34 157

原创 Docker从入门到实战

解决了 运行环境 和 配置问题 的软件容器,方便做持续集成并有助于整体发布的容器虚拟化技术

2022-08-29 18:15:17 1121

原创 Tornado自定义路由

默认路由规则代码 由下述代码可知,路由规则都在放在 tornado.web.Application 中,强迫症的我看着不舒服不说,而且如果有多级路由的话就很难搞了,比如说用户模块、不同视图模块等等,前一级路由是固定的,后面是变动的,比如说 /user/add 、/user/delete、/user/update,类似这种的,如果数量多了,某一天user要变成users了,一个个改费时费力,看着还不优雅import tornado.webimport tornado.ioloop...

2022-05-27 17:14:18 429

原创 Django的View视图详解

View视图from rest_framework import mixinsmixins.CreateModelMixin, # 创建数据mixins.RetrieveModelMixin, # 单个查询数据mixins.UpdateModelMixin, # 覆盖替换数据mixins.DestroyModelMixin, # 删除数据mixins.ListModelMixin, # 列表查询数据视图的作用Django用“视图”这个概念封装处理用户请求并返回响应的逻辑。视图是一个

2022-03-14 21:51:02 1972

原创 Docker安装MySql、MongoDB、ES等数据库

原由由于工作需要,经常要搭建项目单用的数据库,所以记录一下搭建数据库的步骤,好方便自己查找MySQL//提前创建一个目录,用于存放配置mkdir /opt/mysql_docker//拉取mysql镜像docker pull mysql:5.7// 创建容器 (如果要改端口,那么就不能加 --network=host, 不然后面指定端口不会生效)cd0:镜像名称前三位docker run --network=host --restart=always --privileged=tru

2022-01-21 17:31:03 1999

原创 Django中使用Celery执行定时任务

这Django中使用Celery执行异步任务里是引用这个是接上一个异步任务的代码定时任务1. tasks.py中新增两个定时方法# 定时任务1@celery_app.task()def my_crontab(x, y): print(x, y) print(f'x 和 y 相加 = {x+y}') return x + y# 定时任务2@celery_app.task()def my_print(): print('一生所爱')3. celery.

2021-06-11 17:25:40 1101 1

原创 Django中使用Celery执行异步任务

DJango中使用Celery异步任务1. 安装pip install celery==4.4.72. 配置2.1 setting.pyCELERY_BROKER_URL = 'redis://127.0.0.1:6379/1'CELERY_RESULT_BACKEND = 'redis://127.0.0.1:6379/1'CELERY_RESULT_SERIALIZER = 'json'2.2 setting同级目录2.2.1新建celery.pyfrom __future__

2021-06-09 14:38:46 433 3

原创 抓取一嗨租车

一、分析网站 抓取网站的主页:https://booking.1hai.cn/?from=Nav&IsBatch=false 需要选择参数,取车门店、时间等等,不选参数的话,默认的请求对我们没用,通过变更参数才能知道网站是否破解成功 具体分析抓包和请求在代码中会体现出来二、代码import requestsimport datetimeimport randomimport mathimport refrom lxml.html im...

2021-01-12 15:29:40 1194 4

原创 python中threading和concurrent实现多线程

一、threadingimport requestsfrom lxml import etreeimport threadingTHREAD_NUM = 10 # 启动十个线程def request(url): """ 发起请求 :param url: 需要请求的url :return: """ response = requests.get(url) if response.status_code == 200:

2020-12-12 19:34:29 675

原创 使用python将数据导入mysql的三种方法

最近经常要将数据导入到mysql中,我写过一次后也是复制粘贴前面写过的,但老是经常忘记写过的放哪去了,索性整理下直接写到博客里面来方法: 1、使用 pymysql 库, 数据一条条插入,或者用Django ORM里面的方法,数据批量插入 2、使用 pandas 库,一次性插入 3、使用 pyspark, 一次性插入(可以不用建表,但是表没有注释, 即 mysql 的 COMMENT,要注释的话可以建空表)方法1:mysql 首先...

2020-06-09 21:55:08 16895 11

原创 hadoop上搭建spark

一、spark安装包链接:https://pan.baidu.com/s/1RyJ2I4wUlVxgaGJXtIsBNw提取码:rrzz复制这段内容后打开百度网盘手机App,操作更方便哦二、spark配置1. 上传并解压缩spark tar -xvf spark-2.4.4-bin-hadoop2.7.tgz 移动到 /usr/local/目录下 mv spark-2.4.4-bin-hadoop2.7 /usr/local/spark...

2020-05-24 22:40:58 494

原创 hadoop上搭建hive

一、hive压缩包链接:https://pan.baidu.com/s/1RyJ2I4wUlVxgaGJXtIsBNw提取码:rrzz复制这段内容后打开百度网盘手机App,操作更方便哦二、hive配置1. 上传hive压缩包解 压: tar -xvf apache-hive-1.2.2-bin.tar.gz移动到 : mv apache-hive-1.2.2-bin /usr/local/hive2. 配置环境变量vi /etc/prof...

2020-05-17 16:08:53 277

原创 window下搭建虚拟机和hadoop集群

一、windows下搭建虚拟机 1. 创建虚拟机01 2. 创建虚拟机02 3. 创建虚拟机03 4. 创建虚拟04 5.创建虚拟05 6. 创建虚拟机06 (根据自己的需求选择配置,我把...

2020-05-16 16:04:51 702

原创 pipenv的使用

1. 介绍 pipenv是python官方推荐的包管理工具,这个是编写requests库的大佬写的,它集成了virtualenv, pip和pyenv三者的功能。其目的旨在集合了所有的包管理工具的长处,如: npm, yarn, composer等的优点。自动为项目创建和管理虚拟环境2. 安装pip install pipenv3. 初始化pip...

2020-04-30 23:03:18 553

原创 PySpark读取并清洗json文件数据

pyspark读取json文件清洗并写入json文件from pyspark.sql import SparkSessiondef getSqlAndSpark(): """ 获取SQL和Spark的对象, SQL的没写,暂时不用 :return: """ spark = SparkSession \ .builder \ ...

2020-04-25 21:49:14 3172

原创 PySpark读取并清洗mongoDB数据

windows下pyspark读取mongo中的数据并清洗重复数据1. mongo中样例数据// 1{ "_id": ObjectId("5e9aebe49e8fb72b646766ec"), "key": "STACEE", "name": "Observations of the BL Lacertae Object 3C 66A with STACEE",...

2020-04-25 21:29:20 1538

原创 Linux环境下配置python3环境

yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-develwget https://www.python.org/ftp/python/3.6.5/Python...

2020-03-31 18:48:07 287 3

原创 爬虫: 解析cookie和data字符串得到json格式

1. 为什么写这篇博客 方便自己用和提供给他人用2. 写这个的原因 我们在写爬虫的时候抓包的过程中,往往都会看请求中带有的cookie和发送的参数,但是我们用的过程中,cookie可以直接粘在headers头里面。但有时也要单独写,但是data是一定要单独写成json格式,如果参数一多,我遇到过最多的30多个参数的,如果一个个的复制粘贴的话,得弄很久,而且有时候弄...

2020-03-19 15:51:44 1483

原创 Python config 配置 之 configparser 使用方法

1. 为什么写这篇文章 我使用配置的以下几种方式: 1. 类中的 __init__ 初始化方法中 2. 单独新建一个py文件来存放config配置 3. 使用const库来存放配置 看到其他人用的配置文件方式用的是 configparser ,我原则是看到好东西就想学,然后自己查了下资料...

2020-03-05 11:13:34 2820

原创 PySpark RDD 之 takeSample

1. pyspark 版本 2.3.0版本2. 官网takeSample(withReplacement,num,seed=None)[source]¶Return a fixed-size sampled subset of this RDD.中文:返回此RDD的固定大小的采样子集。Note This method should only be ...

2019-12-23 22:01:42 1794

原创 PySpark RDD 之 foreach

1. pyspark 版本 2.3.0版本2. 官网foreach(f)[source]Applies a function to all elements of this RDD.中文:将函数应用于此RDD的所有元素。>>> def f(x): print(x)>>> sc.parallelize([1, 2, ...

2019-12-15 19:05:41 7702

原创 PySpark RDD 之collect、 take、top、first取值操作

1. pyspark 版本 2.3.0版本2. collect()collect()[source]Return a list that contains all of the elements in this RDD.中文:返回包含此RDD中的所有元素的列表。Note This method should only be used if the res...

2019-12-14 17:07:11 10027

原创 PySpark RDD 之 countByValue

1. pyspark 版本 2.3.0版本2. 官网 countByValue()[source] Return the count of each unique value in this RDD as a dictionary of (value, count) pairs. 中文:将此RDD中每个惟一值的计数作为(值、计数...

2019-12-12 22:18:01 1127

原创 PySpark RDD 之 reduce

1. pyspark 版本 2.3.0版本2. 官网 reduce(f)[source] Reduces the elements of this RDD using the specified commutative and associative binary operator. Currently reduces partitions lo...

2019-12-11 22:37:53 1879

原创 PySpark 之 连接变换 union、intersection、subtract、cartesian

1. pyspark 版本 2.3.0版本2. 解释 union() 并集 intersection() 交集 subtract() 差集 cartesian() 笛卡尔union 官网:...

2019-12-09 22:36:10 4390

原创 PySpark RDD 之 filter

1. pyspark 版本 2.3.0版本2. 官网filter(f)[source]Return a new RDD containing only the elements that satisfy a predicate.中文:返回仅包含满足条件的元素的新RDD。>>> rdd = sc.parallelize([1, 2, 3...

2019-12-08 17:34:15 9477 2

原创 PySpark 之 flatMap

1. pyspark 版本 2.3.0版本2. 官网flatMap(f,preservesPartitioning=False)[source] Return a new RDD by first applying a function to all elements of this RDD, and then flattening the resul...

2019-12-08 16:30:42 7365

原创 PySpark 之 map

1. pyspark 版本 2.3.0版本2. 官网 map(f,preservesPartitioning=False)[source] Return a new RDD by applying a function to each element of this RDD. 中文翻译:通过对这个RDD的每...

2019-12-08 15:30:51 6615

原创 PySpark 之 parallelize

1. pyspark 版本 2.3.0版本2. 官网 parallelize(c,numSlices=None)[source] Distribute a local Python collection to form an RDD. Using xrange is recommended if the input represents ...

2019-12-08 14:12:09 3223

原创 个人对 PySpark 的看法和见解

1. 介绍下为什么重新写pyspark的博客 很久没写过关于pyspark的博客了,最近工作中要用到,所以就重新捡起来了,事先说一下,我pyspark也不怎么样,一边看官网、一边自己查资料并总结出来的,有些大牛喜欢看源码,对于我们这些人来说,会用就行,什么原理暂时不说,等学会了有时间再去看,我自己从最开始的方法写起,一个算子一个博客,结合他人的思路来多方面的介绍这个算子。...

2019-12-07 21:16:20 6281 3

原创 python爬虫项目

整理了自己的今年写的爬虫及其他项目代码,里面有的使用requests,也有的使用的scrapy爬虫框架,抓取了以下这些网站,网站不更新的话代码可以直接运行,里面包含了网站的破解、抓取、解析GitHub:https://github.com/Gscsd8527/AllProject每个文件夹的名字都是对应的抓取网站,抓取各网站数据:CCF :https://www.ccf.org.c...

2019-11-17 21:57:03 694 2

原创 Kaggle网站数据集抓取

抓取kaggle网站代码github:https://github.com/Gscsd8527/AllProject/blob/master/Kaggle/new_kaggle.pyimport requestsimport reimport jsonimport uuidimport datetimeBASE_URL = 'https://www.kaggle.com'...

2019-11-17 21:06:10 3214

原创 Selenium 设置元素等待的三种方式

Selenium 设置元素等待的三种方式 1. sleep 强制等待 2. implicitly_wait() 隐性等待 3. WebDriverWait()显示等待三种方式的优缺点1. sleep 强制等待 from selenium import webdriverfrom time import sleepdriver = webdr...

2019-10-31 14:29:22 7512 1

原创 Linux学习笔记

学习Linux过程中记录的命令,对工作非常有帮助Linux个别知识点: 1. 隐藏文件: 隐藏文件的设计初衷是告诉用户这是个系统文件,除非确定要动他,不然不要随便使用他 2. 软链接与硬链接 软链接的特性(类似快捷方式): 1. 文件权限是lrwxrwxrwx 2. 文件很小,只是一...

2019-08-28 21:49:45 228

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除