自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sunflower_sara的机器学习园地

记录学习深度学习、机器学习过程中遇到的问题

原创 UnicodeEncodeError: ‘utf-8‘ codec can‘t encode character ‘\ud835‘ in position 219: surrogates not al

一些表情类特殊字符无法被uf-8解码,可以ignore再解码。

2023-01-28 11:10:29 1226 1

原创 【Python】文件锁 跨平台和系统支持win和linux

不需要fcntl,其不太支持win,在linux效果良好。用import portalocker 即可 方便好用。

2022-09-07 11:20:44 766

原创 ​ 【报错】 jpype._jvmfinder.JVMNotFoundException: No JVM shared library file (jvm.dll) found.

​ 【报错】 jpype._jvmfinder.JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

2022-08-01 17:05:35 6097

原创 【报错】Error: opening registry key ‘Software\JavaSoft\Java Runtime Environment‘

报错Software\JavaSoft\Java Runtime Environment'的解决

2022-08-01 17:01:55 3412 7

原创 【python】高并发【报错】pymysql AttributeError: ‘NoneType‘ object has no attribute ‘settimeout‘

场景:python服务flask+mysql一开始的时候每次都重新建立连接,返回耗时比较长就改为用连接池用连接池读取mysql数据再客户端批量或者多线程的大量调用报错pymysql AttributeError: 'NoneType' object has no attribute 'settimeout'解决思路:有时候能取到结果有时候取不到,而且同一个请求不能稳定复现报错感觉是没有获取到mysql的链接所以拿不到数据,就none type了而且看监

2021-10-29 17:35:09 4682 2

原创 【Pymysql】Python连接池的建立和使用

参数配置:db_config.py# -*- coding: utf-8 -*-# ---# @Software: PyCharm# @Site: # @File: db_config.py# ---import pymysql# 数据库信息# DB_TEST_HOST = "127.0.0.1"# DB_TEST_PORT = 3306# DB_TEST_DBNAME = "ball"# DB_TEST_USER = "root"# DB_TEST_PASSWOR

2021-10-13 12:02:06 4561 4

原创 【Pymysql】数据库异常pymysql.err.InterfaceError: (0, ‘‘)解决方案

报错:pymysql.err.InterfaceError: (0, '')场景:使用连接池进行python对msql的直连原因:使用完一个conn连接后没有放回连接池,而是将整个连接关闭解决方案:# 初始化时建立连接池pool = MyPymysqlPool(BasePymysqlPool) # 每次调用时pool.getconn() # 重新获取连接ret = pool.getOne(sql) # 执行sqlfunc(ret) # 对结果进行处

2021-10-13 11:51:12 645

原创 【报错】python KeyError: 2

报错:KeyError: 2场景和原因:使用字典的时候出现不存在的key,导致报错解决方案:设置字典的默认值和格式eg:dict_ = {}dict_.setdefault(int, {})

2021-03-25 16:03:29 7165

原创 【报错】import win32file ImportError: DLL load failed: 找不到指定的程序。

报错:import win32fileImportError: DLL load failed: 找不到指定的程序原因:win32file版本过高解决方案:安装低版本的win32filepip install pywin32==224tips:win32file 对应的pip包为pywin32...

2021-03-25 15:02:49 2308 2

转载 Python操作mysql数据库

Python操作mysql数据库  对于关系型数据库的访问,Python社区已经指定了一个标准,称为Python Database API SepcificationV2.0.MySQL、Qracle等特定数据库模块遵从这一规范,而且可添加更多特性,  高级数据库API定义了一组用于连接数据库服务器、执行SQL语句并获得结果的函数和对象,其中有两个主要的对象:一个是用于管理数据库连接的Connection对象,另一个是用于执行查询的Cursor对象。Python DB-API使用流程:.

2021-03-23 19:49:03 129

原创 【报错】json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes

报错场景:dict_={ip:'103.47.146.9',address:'\u4e9a\u592a\u5730\u533a '}str(dict_)>> u"{ip:'103.47.146.9',address:'\u4e9a\u592a\u5730\u533a '}"报错:json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 col...

2020-11-30 19:09:47 731

原创 【Python】log日志模块的使用

python日志的使用示例代码:import loggingimport logging.handlersimport datetimelogger = logging.getLogger('mylogger')logger.setLevel(logging.DEBUG)rf_handler = logging.handlers.TimedRotatingFileHandler('all.log', when='midnight', interval=1, ba.

2020-11-13 15:19:53 942

转载 【NLP】pytorch中CPU、GPU的使用(仅CPU、单机多卡、多机多卡)

Pytorch 自动选择CPU或者GPU运行https://blog.csdn.net/ssjdoudou/article/details/103640129在程序最开始的地方加上device = torch.device("cuda" if torch.cuda.is_available() else "cpu").cuda() 改为 .to(device)Eg:model.to(device)input.to(device)label.to(device)...

2020-11-13 15:07:18 3191

原创 【报错】pytorch DataParallel  -  StopIteration: Caught StopIteration in replica 0 on device 0.

【报错】pytorch DataParallel - StopIteration: Caught StopIteration in replica 0 on device 0.环境:pytorch 1.5问题:pytorch单机多卡用nn.DataParallel 的时候无法forward,会报错原因:pytorch1.5的bug解决方案:降级到pytorch1.4参考文献:https://github.com/huggingface/t...

2020-11-13 14:52:55 748

转载 虚拟环境 创建 克隆 删除 镜像 conda 常用命令

创建虚拟环境(python3.7)conda create -n <env_name> python=3.7进入/激活该环境conda activate <env_name>退出该环境conda deactivate删除该环境(应退出待删除环境)conda remove -n <env_name> --all列出所有环境conda info --envsconda env list复制环境con...

2020-11-12 17:25:55 667

原创 安装python的包的四种方式(pip、whl源文件、targz压缩包、zip压缩包)

安装python的包的四种方式(pip、whl源文件、targz压缩包、zip压缩包)直接法: pip install *(python包名)从官网下载源文件:安装whl,pip install *.whl安装tar.gz,解压缩命令格式:tar -zxvf压缩文件名.tar.gz或者 python setup.py install安装zip包,解压缩命令格式:unzip filename.zip解压后,python setup.py...

2020-11-12 17:23:48 3189

原创 【NLP】手动下载、本地加载BERT预训练权重

第一次跑程序的时候下载都是从aws下载的,如果太慢了,可以手动下载.bin文件(预训练权重)下载地址如下所示:BERT_PRETRAINED_MODEL_ARCHIVE_MAP = { 'bert-base-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-pytorch_model.bin", 'bert-large-uncased': "https://s3.a.

2020-11-12 17:16:48 3577 4

原创 需求文件requirements.txt的创建及使用

需求文件requirements.txt的创建及使用创建:(venv) $ pip freeze >requirements.txt使用:(venv) $ pip install -r requirements.txt

2020-11-12 17:08:04 141

原创 pip的升级和安装、镜像配置

重新安装pip参考文献:https://blog.csdn.net/la6nf/article/details/78944651https://www.cnblogs.com/zhongyehai/p/10619917.html到下面的网页直接下载get-pip.pyhttps://packaging.python.org/tutorials/installing-packages/#use-pip-for-installing然后安装升级pip参考文献:h...

2020-11-12 16:49:48 302 1

原创 【报错】Cannot uninstall ‘ipython‘. It is a distutils installed project and thus we cannot accurately

法1:参考文献https://www.jianshu.com/p/94caf01dd9a6D:\Users\xxx\AppData\Local\Anaconda3\envs\dlwin36_bert\Lib\site-packages删除 python包名.egg-info结尾的文件法2:参考文献https://blog.csdn.net/qiye005/article/details/80383467pip install --ignore-installed python包名 .

2020-11-12 16:48:24 629

转载 linux 查看CPU、GPU的状态

GPU状态nvidia-smi表头释义:Fan:显示风扇转速,数值在0到100%之间,是计算机的期望转速,如果计算机不是通过风扇冷却或者风扇坏了,显示出来就是N/A;Temp:显卡内部的温度,单位是摄氏度;Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能;Pwr:能耗表示;Bus-Id:涉及GPU总线的相关信息;Disp.A:是Display Active的意思,表示GPU的显示是否初始化;Memory Usage:显存的使用率;.

2020-11-12 16:46:03 398

原创 【Python】多线程获取子任务的返回值

python多线程获取子任务的返回值如果多条输入数据,需要预先按需要的线程数拆分数据,单独分别输入到不同的线程中eg:import timeimport requestsimport threadingclass MyThread(threading.Thread): def __init__(self,func,args=()): super(MyThread,self).__init__() self.func = ...

2020-08-05 17:19:27 543

原创 【Pyspark】Spark导入zip文件/上传zip文件

Spark上传zip文件步骤一、启动spark的时候addfile zip文件#zip文件原始路径file_path = "./filename.zip"#启动sparkspark = SparkSession.builder.appName("space_name").enableHiveSupport().getOrCreate()sc = spark.sparkContext# 添加文件到spark的空间,位于根目录下sc.addFile(file_path)...

2020-07-17 11:00:48 2400

原创 【NLP】Stanfordcorenlp和Stanfordnlp的安装和基本使用

stanfordcorenlp和stanfordnlp的安装和使用一、stanfordcorenlp安装和使用1.安装Python包pip installstanfordcorenlp2.下载数据文件https://stanfordnlp.github.io/CoreNLP/index.html#downloadcorenlp下载好后解压,记当前路径为path_or_host另外,将下载的各语种模型文件也放在...

2020-06-01 16:47:24 4236 3

原创 【NLP】stanfordcorenlp报错: RuntimeError: Java not found.

stanfordcorenlp报错:RuntimeError: Java not found.具体如下所示:Traceback (most recent call last): File "D:\Users\user\AppData\Local\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2881, in run_code exec(code_obj, self.user_global_...

2020-06-01 15:44:49 2636 4

原创 【NLP】NLTK的安装和数据包的下载

1.cmd中:pip install2. python环境/编译器中import nltknltk.download()弹出一个自动的可交互下载框选择all packagesdownload但是速度很慢,据说需要两天可以完全下载3. 记录下 download directory的路径位置,打开该路径文件夹可以看到有下载好的文件打开某个文件夹,可以看到下面有zip文件和解压缩后的文件如果用nltk.download...

2020-05-29 18:04:16 4165

原创 【HIVE SQL】HIVE分区表和非分区的建立、删除、覆盖写入等操作

一、非分区表1. 建表和数据写入-- 表的建立 无备注create table table db_name.table_name2asselect * fromtable db_name.table_name1--整张表的覆盖写入 非分区表INSERT OVERWRITE TABLE db_name.table_name1select * from db_name.table_name2(会保留表的字段备注)2.表的删除和数据清空-- 删除整张...

2020-05-21 17:23:24 8591

原创 常见函数及其图像、在SQL的使用

曲线:https://wenku.baidu.com/view/36ed9110866fb84ae45c8d9a.htmlSQL 指数函数、幂函数来自 <https://www.cnblogs.com/hope100/p/4381746.html> 指数函数:y=a^x.指数x是自变量幂函数:y=x^a.幂是自变量python中,计算指数函数:2**3计算...

2020-04-08 10:37:01 514

原创 字符串编码为md5

通过编码将字符串 eg 名字 编码为独特的无意义字符串import hashlibdef get_md5_name(str_name): name_md5 = hashlib.md5(str_name.encode("utf8")).hexdigest() #str return name_md5效果输入:str_name = '嗨玩一夏,来杭州...

2020-03-18 14:21:21 256

转载 【Jupyter notebook】打断点调试

————————————————版权声明:本文为CSDN博主「upDiff」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/dlhlSC/article/details/84309410jupyter的调试是通过python自带的pdb库来实现的。下面讲一下在notebook中如何进行调试...

2020-03-11 11:16:19 11784 4

转载 pip install速度慢,设置清华镜像

清华镜像官方教程:https://mirrors.tuna.tsinghua.edu.cn/help/pypi/pypi 镜像使用帮助pypi 镜像每 5 分钟同步一次。临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package注意,simple不能少, 是https而不是...

2020-01-28 22:32:16 954

原创 【Pyspark】Pyspark入门和常用知识点

PySpark官方教程:http://spark.apache.org/docs/latest/api/python/pyspark.sql.htmlpyspark的使用和操作(基础整理)https://blog.csdn.net/cymy001/article/details/78483723各种函数的例子:https://blog.csdn.net/qq_238604...

2020-01-19 19:42:29 469

原创 【pyspark】表的读写创建

创建df_spark:df_pandas= pd.DataFrame({"list_name": list_})df_spark=spark.createDataFrame(df_pandas)保存表:# # 写入临时表中spark.sql("use db_name")df_saprk_hrouteinfo_all2.write.mode("overwrite").f...

2020-01-19 19:42:10 1941

原创 【Pyspark 】GroupBy分组排序

分组排序:https://blog.csdn.net/weixin_40161254/article/details/88817225df_spark_hotpoi = spark.sql("select routeid, cityid, row_number() over (partition by routeid order by sortno asc) as rank fro...

2020-01-19 19:39:59 6130

原创 【Pyspark】UDF函数的使用、UDF传入多个参数、UDF传出多个参数、传入特殊数据类型

udf函数:from pyspark.sql.functions import udffrom pyspark.sql.types import StringTypeimport numpy as np import math@udf(returnType=StringType())def caculateClusterBelongTo(inlist): try: ...

2020-01-19 19:34:53 19358 2

原创 【Pyspark】 一列变多列 、分割 一行中的list分割转为多列 explode,多列变一列(可保持原顺序), 多行变一行

【Pyspark】 一列变多列 分割 一行中的list分割转为多列 explode官方例子:Pythonpyspark.sql.functions.explode()Exampleshttps://www.programcreek.com/python/example/98237/pyspark.sql.functions.explode根据某个字段内容进行分割,然后...

2020-01-19 19:12:55 12278 2

原创 【Pyspark】Dataframe添加新的一列

1. lit 添加常量 字符串若需要添加一列固定值,比如地名、邮编、标号、字符串之类的,可以直接使用lit 添加常量Eg: 添加字符串import pyspark.sql.functions as Fd7=d61.withColumn('line_results',F.lit(string_line))Eg: 添加常量10from pyspark.sql.funct...

2020-01-19 19:02:20 10295 1

原创 Python 乱码、编码:unicode、uft-8、gbk

Python乱码、编码三种编码之间可以通过unicode进行转化,内部默认存储为unicode格式unicode为中介一般使用uft-8gbk一般显示为乱码str.decode('utf-8').encode('gbk')str.decode('gbk').encode('utf-8')unicode可以显示在hive表中str.decode('ut...

2020-01-16 19:30:09 245

转载 python编码报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xbc in position 2: invalid start byt

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid start byte解决问题UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 2: invalid start byte</font&...

2020-01-13 14:28:49 165077 21

原创 【大数据】SQL\pandas\pyspark的DataFrame的拼接

SQL UNION 竖向拼接参考<https://www.w3school.com.cn/sql/sql_union.asp>竖向拼接dataframe:SQL UNION 和 UNION ALL 操作符 SQL UNION 语法SELECT column_name(s) FROM table_name1UNIONSELECT column_name(s...

2020-01-13 10:24:03 2922

提示
确定要删除当前文章?
取消 删除