hejp_123-CSDN博客

原创工作中常用到的python数据处理

目录1.获取工作目录和设置工作目录2.获取日期处理3.列表的倒排序4.使用apply处理两个值的代码5.断言函数 assert6.yield生成器7.获取程序运行时间8.动态生成变量9.数据可持续化操作10.数据运行时间211.创建目录12.删除无用的数据13.字符串格式化14.zip自动生成字典15.各种包的离线下载地址16.路......

2019-06-17 17:53:03 1204 4

原创 Anaconda-- conda 创建、激活、退出、删除虚拟环境

在Anaconda中conda可以理解为一个工具，也是一个可执行命令，其核心功能是包管理与环境管理。所以对虚拟环境进行创建、删除等操作需要使用conda命令。conda 本地环境常用操作#获取版本号conda --version 或conda -V#检查更新当前condaconda update conda#查看当前存在哪些虚拟环境conda env list 或 con...

2019-06-15 18:58:51 149494 18

原创在python脚本中执行Linux命令行

常用模块import osimport subprocessos.system('free -h')subprocess.call('top')

2019-06-13 14:24:10 7323

原创 pyspark之Dataframe操作（二）

1. 分组统计2. join 操作3. 缺失值处理4. 空值判断5. 缺失值处理6. 离群点7. 重复值8. 生成新列9. 类eval操作10. 行的最大最小值11. when操作12. lag,lead平移1. 分组统计分组统计应该是用的最多的方法了，比如分地区求平均值，最大最小值等。# 分组计算1color_df.groupBy('length').coun...

2019-02-28 16:18:16 10813

原创 pyspark 之dataframe基本操作（一）

1. 连接本地spark2. 创建dataframe3. 查看字段类型4. 查看列名5. 查看行数6. 重命名列名7. 选择和切片筛选8. 删除一列9. 增加一列10. 转json11. 排序12. 缺失值1. 连接本地sparkimport pandas as pdfrom pyspark.sql import SparkSessionspark = Spa...

2019-02-28 16:16:28 3294 1

原创 spark学习 pyspark与pandas的数据操作对比

1. pandas和pyspark对比 1.1. 工作方式1.2. 延迟机制1.3. 内存缓存1.4. DataFrame可变性1.5. 创建1.6. index索引1.7. 行结构1.8. 列结构1.9. 列名称1.10. 列添加1.11. 列修改1.12. 显示1.13. 排序1.14. 选择或切片1.15. 过滤1.16. 整合1.17. 统计1.18....

2019-02-28 14:39:01 2847 4

原创 Flask框架创建模型API接口并部署上线

模型训练后如何将模型打包上线，下面用Flask框架实现模型的部署和实时预测。直接上干货,文件名称为flask_model.pyimport numpy as npfrom flask import Flaskfrom flask import requestfrom flask import jsonifyfrom sklearn.externals import joblib...

2018-12-26 13:38:54 7562 12

原创 yolov8预标注图片，减少人工标注，提高生产力

代码写的很简洁，可以直接复制粘贴使用。

2024-04-12 10:32:30 158

异步多进程import multiprocessingimport threadingimport timefrom datetime import datetimefrom concurrent.futures import ProcessPoolExecutordef task(i): print(f'task {i} started at {datetime.now()}') time.sleep(3) print(f'task {i} ended at {

2022-01-16 21:16:10 390

原创 error: command ‘gcc‘failed with exit status 1

在使用python链接hive的时候需要安装依赖包pip install saslpip install thriftpip install thrift-sasl==0.3.0pip install PyHive在安装thrift-sasl的时候会出现报错：error: command 'gcc' failed with exit status 1。解决方案如下Debian/Ubuntu:sudo apt-getinstallpython-devlibsasl2-de...

2021-07-01 12:05:25 3161

原创 jupyter-notebook常用的非常规操作

esc + z 撤回已经删除的单元格esc _

2021-06-01 11:46:53 410

原创 flask-restful的安装和使用以及高并发操作

Flask-RESTful 是一个 Flask 扩展，它添加了快速构建 REST API 的支持。安装pip install flask-restful使用from flask import Flask,jsonifyfrom flask_restful import Api,Resourceapp=Flask(__name__)api=Api(app)class IndexView(Resource): def get(self): retur.

2021-04-08 15:42:23 764

原创 python中新定义模块，并全局使用

前言在python的使用过程中有时候需要导入常用的模块，每次导入都要设置不同的路径比较麻烦这篇博客将在环境变量中找到自定义模块，这样在任何地方都可以导入自己的模块，而无需担心这个模块在什么地方这个方法原理就是利用了系统变量，python会扫描path变量的路径来导入模块，可以在系统path里面添加。注意：一定有__init__.py文件--ai_porject module_test -- demo_module.py -- __init__....

2021-01-27 09:49:26 1011 2

原创 flask高并发部署

使用nginx+uwsgi+flask部署服务器半年多了，很多东西都遗忘了，现在项目需要突然需要部署新的服务器，因此重新开始学习nginx+uwsgi+flask的部署方法。发现网上大部分关于这个的教程或博客都没把话说清楚，甚至都没操作完就草草了事。甚至有的说先打开nginx，有的说先打开uwsgi……因此，我打算写一个更加靠谱的。大家按照我的指引，可以非常轻松的完成nginx+uwsgi+flask在linux服务器上web项目的部署。现在，假设我们已经写好了flask的脚本。我给他起名叫mana

2021-01-20 11:26:55 666

原创 pyspark调用sklearn训练好的模型并预测以及spark.ml训练预测

1.首先用sklearn 生成简单的LR模型，并保存本地。import joblibimport pandas as pdfrom sklearn.datasets import make_blobsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_auc_score#

2021-01-15 11:48:48 4966 1

原创 python 高并发操作处理

import timefrom multiprocessing import Pooldef run(fn): time.sleep(1) return fn*fnif __name__ == "__main__": testFL = [1, 2, 3, 4, 5, 6] print('顺序:') # 顺序执行(也就是串行执行，单进程) s = time.time() for fn in testFL: print(run(fn).

2021-01-09 16:10:40 304 1

原创 pyspark pandas 自定义聚合函数

pyspark自定义聚合函数import pyspark.sql.functions as Ffrom pyspark.sql import SparkSessionfrom pyspark.sql.types import IntegerTypelist_data={ 'label_id':['001','001','002','001','001','002','004','001','001'],'action_num':[3,4,5,1,2,34,5,9,2]}df1 = pd.

2020-12-14 15:33:56 3731 1

原创 pyspark 三种读到hive的方法，以及对应从hive写出的三种方法，笛卡尔积总共有九种方法

pyspark 三种读到hive的方法，以及对应从hive写出的三种方法，笛卡尔积总共有九种方法1.parquet格式2.csv格式3.hive格式# 1.parquet格式读写'read'parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"sparkdf = spark.read.parquet(parquetFile)'write'sparkdf.write.parquet(parquetFile,mo.

2020-11-25 16:38:49 510

原创 Pyspark开发TF-IDF算法

直接上干货，一套操作猛如虎，一看结果很惊喜#! python3# -*- coding: utf-8 -*-from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Fspark = SparkSession.builder.appName("PySpark example").enableHiveSupport().getOrCreate()spark.sparkContext.setLogLevel

2020-11-23 10:20:33 1206 3

原创 sql 开窗函数的用法

-- 若看不懂就百度一下<窗口函数> over (partition by<用于分组的列名>order by<用于排序的列名>)-- rank dense_rank rankrank() over(partition by col1 order by col2)dense_rank() over(partition by col1 order by col2)row_number() over(partition by col1 order by col.

2020-11-09 16:42:04 230 3

原创 pyspark的DataFrame处理速度对比Scala中的DataFrame

在引入DataFrame之前 Python查询速度普遍比使用RDD的Scala慢近2倍，主要是因为Python和JVM之间的同学开销。利用DataFrame，Pyspark的处理速度和Scala的速度相当，不分伯仲。

2020-11-02 11:28:11 804 1

原创 pyspark的高级进阶用法

1.多个字段关联df1.join(df2,[df1["a"] == df2["a"] ,df1["b"] == df2["b"]], "inner").show()2.多个字段排序# 使用 orderBy() 或 sort()方法df.orderBy(df.a.desc())df.orderBy(df["age"].desc(), df["name"].desc())df.orderBy(["age", "name"], ascending=[0, 1])df.ord...

2020-10-26 15:45:16 1401

原创 jupyter notebook常用代码

jupyter notebook常用代码加载test.py的代码%load /Users/chenqionghe/test.py运行代码%run 你的代码文件.py

2020-08-21 11:47:32 2842

原创 pandas apply处理两个参参数如何写case when then else end

目录pandas apply处理两个参参数实现sql中的 case when ..then ...else ...endpandas apply处理两个参参数一个实例中，需要用两个列相除，且要判断除数不为0，求教了大佬，用如下方法解决apply取出一行的值，再用一个自定义函数。方式一chengji=[[100,95,100,98],[90,98,0,94],[88,95,98,95],[99,98,97,92],[95,90,96,88],[94,94,93,77]]dat..

2020-08-05 16:59:24 3154

原创 python中的format格式化、填充与对齐、数字格式化

forma格式化的用法format函数可以接受不限个参数，位置可以不按顺序。基本语法是通过{ }和：来代替c语言的%。>>> a="名字是:{0},年龄是：{1}">>> a.format("煮雨",18)'名字是:煮雨,年龄是：18'{0}，{1}代表的占位符，数字占位符要注意顺序。>>> c="名字是:{name},年龄是：{age}">>> c.format(age=19,name='煮雨')'名字

2020-08-04 17:08:24 13008 4

原创最全的MySQL日期函数，你值得收藏

Mysql作为一款开元的免费关系型数据库，用户基础非常庞大，本文列出了MYSQL常用日期函数与日期转换格式化函数我的工作中常用到的时间格式化函数select date_add('2015-12-31 23:59:59',interval 3 year) -- hour/day/month 增加或减少当前的时，天，月，年select last_day('2015-12-30 23:59:59') -- 获取当月的最后一天select now() -- 获取时间select cur...

2020-07-31 11:40:52 393

原创在Jupyter Notebook Markdown单元Python中打印变量

先安装插件jupyter notebook 插件安装教程然后输入其中 a is {{{a}} 是markdown 模式运行之后从此以后妈妈再也不用担心我的学习了。

2020-07-30 15:55:29 1653 1

原创 Jupyter Notebook 更改主题颜色

第一步：安装jupyterthemespip install--upgrade jupyterthemes第二步：查看themesjt -l第三步：设置主题jt -t chesterish第四步：打开jupyter notebookjupyter notebook

2020-07-30 11:05:24 2163 1

原创 pytorch使用万能模板

在学习中学会总结是进步的一个阶梯，不断的克服每个小问题，才有可能发现并解决一个大问题，在学习pytorch中记录自己的成果让更多人受益，这是是开源精神的精髓所在。下面是我记录一套使用pytorch框架，若有误请指出。# 详情参考：https://www.jianshu.com/p/e606f8fc1626GPU加速dropout批标准化处理优化器激活函数import torchimport torch.nn.functional as Fimport torch.nn as nn

2020-07-17 18:13:40 785

原创 pytorch常用的模块

pytorch常用的模块import torchimport torch.nn.functional as Fimport torch.nn as nnimport torch.utils.data as Dataimport torchvisionimport torchvision.datasets as dsetsimport torchvision.transforms as transforms#import torch.nn.Module as module...

2020-07-09 00:01:14 416

原创 pytorch教程--API接口学习

函数式API和类API网络层全连接层torch.nn.functional.lineartorch.nn.linearDropouttorch.nn.functional.dropouttorch.nn.dropout批标准化层torch.nn.functional.batch_normtorch.nn.BatchNorm2d卷积层torch.nn.functional.conv2dtorch.nn.ConV2d池化层torch.nn.functional.max_pool2d

2020-07-08 16:16:03 1519

原创 pytroch基础教程--常用基本方法

前言pytorch的使用和numpy特别相似，只是numpy是基于数组（numpy.ndarray），而pytorch是基于张量（torch.Tensor），但是在使用上很多都是一样的，包括很多方法名等。所以如果学习过numpy的话，会感觉pytorch特别的亲切，如果没学过的numpy话，通过学习pytorch，也将顺便给你将来的numpy学习奠定一定的基础。数据类型标量/张量pytorch里的基本单位，个人理解是0维、没有方向的（比如单个数字那样）称为标量，有方向的称为张量（比如一串数字），通过

2020-07-07 19:06:22 525

原创内存不足如何批量导入数据并处理数据

100G的数据 8G内存，如何批量导入数据使用迭代器批量导入# -*- coding: utf-8 -*-'''@Time : 2020/7/6 4:10 下午@Author : hejipei@File : iterhelper.py'''import numpy as npdef get_data(batch_size): line_count =0 data =[] with open('/Users/hejipei/PycharmProj

2020-07-06 16:40:04 440

原创 pyspark连接，读入和写出mysql数据库

版本说明pyspark版本是2.4.6版本mysql是8.0.20版本pyspark读CSV文件from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('dataFrameApply').getOrCreate()filepath = '/Users/hejipei/Downloads/read_spark_csv_demo.csv'df_spark = spark.read.csv...

2020-06-26 21:37:24 2723 1

原创 Java gateway process exited before sending its port number

window系统用阿里云安装好pyspark之后执行from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("my_first_app_spark") \ .getOrCreate() 报错如下Exception: Java gateway process exited before sending its port number解决方法：找到java的

2020-06-16 12:43:27 5880

原创 pytorch最全学习笔记

pytorch学习笔记安装 PyTorch 会安装两个模块，一个是torch，一个 torchvision, torch 是主模块，用来搭建神经网络的，torchvision 是辅模块，有数据库，还有一些已经训练好的神经网络等着你直接用，比如 (VGG, AlexNet, ResNet)。torch与numpytorch_data = torch.from_numpy(np_data)可以将numpy(array)格式转换为torch(tensor)格式；torch_data.numpy()又可以将t

2020-06-14 10:25:32 256

空空如也

空空如也