自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(73)
  • 资源 (2)
  • 收藏
  • 关注

原创 hive、pg库:新增字段、修改字段类型 alter table

hive、pg库:新增字段、修改字段类型 alter table

2022-09-08 10:11:10 2725

原创 sql 时间日期格式转换

sql 时间日期格式转换

2022-07-12 17:41:47 44095

原创 sql 查找重复值,整行重复

sql 查找重复值,整行重复

2022-05-13 15:21:30 435

原创 Python 列表数据分布区间统计数量

Python 列表数据分布区间统计数量例如:把年龄间隔20岁作为区间,统计每个区间的人数import pandas as pdages=[24,22,26,30,25,23,47,31,51,45,43,13]bins=[0,20,40,50,60,70,80,90,100]#将年龄划分为18-25,26-35,36-60,60以上cats=pd.cut(ages,bins)print(pd.value_counts(cats)) #按区间计数print(pd.cut(

2022-03-23 17:41:04 9146 2

原创 sql建表与gp建表语句

sql数据库建表语句、GP数据库建表语句

2022-03-18 09:54:52 1349

原创 sql 常见查询语句

sql 常见查询语句

2022-01-18 16:59:29 1364

原创 sql 按日期或按顺序统计累计值

sql 按日期,或按顺序,统计每一天的累计值。

2022-01-18 16:20:34 6830

原创 Python value_counts() 变DataFrame

data1 = data['date'].value_counts().rename_axis('date').reset_index(name='count')

2021-12-07 16:02:33 2878

原创 python 时间日期格式转换

2021-10-13 11:00 转为 2021-10-13语句为:data.occur_time.map(lambda x: x.strftime('%Y-%m-%d'))

2021-12-07 16:00:36 781

原创 sql inner join、left join、right join的区别举例

sqla表与b表的inner join、left join、right join的区别举例结果如下:

2021-06-25 11:11:22 91

原创 linux系统编码错误、退格键失效纠正

linux系统编码错误、退格键失效纠正linux系统编码错误纠正linux系统backspace退格键失效,backspace退格键使用不了

2021-06-25 11:05:13 330

原创 Python 列表里有字段的键值元素,如何排序

列表格式如下:aaa=[{'7901': 0.762},{'7904': 0.401},{'7906': 0.391},{'7259': 0.585},{'7256': 0.522}]对列表aaa中,字典的value排序。变成:[{'7901': 0.762},{'7259': 0.585},{'7256': 0.522},{'7904': 0.401},{'7906': 0.391}]def take(kk): return list((kk.values()))[...

2021-04-28 14:20:59 168

原创 Python 识别nan,浮点型数据

nan值,通常是个浮点型数据, 有时候很难识别出nan值。如果判断变量为nan值是否等于其变量本身,就可以判断这个变量是否nan值了。a = float('NaN')aOut[135]: nantype(a)Out[136]: floata !=aOut[137]: True...

2021-04-28 14:15:16 1506

原创 Python 连接oracle数据库,读取oracle数据,并存为DataFrame

连接oracle数据库,读取oracle数据,并存为DataFrameimport cx_Oracleimport osos.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8' #设置解码格式,使查询结果可显示中文conn=cx_Oracle.connect('用户名/密码@IP:端口/服务名') #连接数据库cursor = conn.cursor()cursor.execute('select * from ...

2021-04-08 17:03:41 745

原创 Python 柱状图

柱状图代码。横坐标表示值。纵坐标表示总数。柱状图能看出数据各个值的的总数情况。import matplotlib.pyplot as pltX=df2['id'].astype(str)Y=df2['number']fig = plt.figure()plt.bar(X,Y)plt.xlabel("PRICE_LAN_ID")plt.ylabel("COUNT")plt.xticks(rotation=60)plt.show() 输入数据如下:输出结果如下:..

2021-04-08 16:58:20 238

原创 Python 频数直方图

频数直方图代码。横坐标表示值。纵坐标表示频数。频数直方图能看出数据总体的分布情况。import numpy as npimport matplotlib.pyplot as pltimport matplotlib import pandas as pddata=pd.read_excel('test.xlsx')data=data['free_sco-0.3']def draw_pic(free_sco): plt.rcParams['font.sans-serif.

2021-04-01 16:54:17 2772

原创 linux 使用Xshell连接HIVE数据库

linux系统下,需要用到xshell去连接数据库。1、在linux服务器上面。直接输入hive2、输入数据库名称use 数据库名 ;3、显示该数据库名下,所有数据表show tables ;4、打开数据库名下,某一张数据表AAAselect * from AAA ;...

2021-03-12 16:57:33 3786

原创 Python 使用sql查询语句,execute(sql),结果保存到变量

Python调用sql数据库的数据,使用sql语句,execute(sql)。根据dataFrame中,查询该字段“contnet_id”,对应的"content",结果保存到一个变量。from sqlalchemy import create_enginedef content(ids): engine=create_engine("mysql+pymysql://账号:密码@127.0.0.1:5050/数据库名",echo=True,connect_args={'charset'

2021-02-23 11:29:23 5630 1

原创 python 模拟鼠标点击+bs4一键爬取多个网页新闻(题目、媒体、日期、内容、url)

在搜狗新闻中,输入关键词(两岸关系发展前景)后,出现6页有关于这个关键词的新闻。现在目的就是爬取有关这个关键词的网页文章,如题目、媒体、日期、内容、url。如下图:加载包import requestsfrom bs4 import BeautifulSoup #bs4import reimport pandas as pdimport urllib....

2021-02-01 14:32:30 4896 6

原创 Python 列表取出除了指定某个词之外的词,重新组成列表

承接python、R、sql、spss作业代写:数据分析、数据挖掘、数据爬虫、机器学习、模型代跑、算法优化https://item.taobao.com/item.htm?spm=a2oq0.12575281.0.0.50111deb9xAUhJ&ft=t&id=634285173072

2021-01-14 16:06:24 1952

原创 R语言 下载包出错Warning: 无法在貯藏處https://cloud.r-project.org/src/contrib中读写索引:

报错原因,竟然是ie浏览器的问题,unbelievable1、在R中,下载包的时候,却发现报错:Warning: 无法在貯藏處https://cloud.r-project.org/src/contrib中读写索引: 无法打开URL'https://cloud.r-project.o2、后来针对CRAN重新选择,但以下这几个都选择了一遍。都还是报错。3、最后找到原因了。下载包是依赖本机的ie浏览器下载的。本身电脑 的ie浏览器出错了,打开是网页显示 打不开的。所以导致下...

2021-01-13 11:16:34 17648 7

原创 python DataFrame某两列组成一个矩阵

情况一: 以某列统计类型,按类型分类数据如下:结果如下:代码:df.groupby(['key1']).count() 情况二:以某列为值,统计另一列与之对应的类型分布数据如下:结果如下:代码如下:df=pd.get_dummies(data.article_id).groupby(data.user_id).apply(max)...

2020-11-18 15:27:35 3720

原创 python doc文档转化为html文档,保留大部分原有格式、字体、字体颜色

如下doc文档的图。与转化为html的图作对比,效果还是不错的。doc转化为html,代码如下:from pydocx import PyDocXhtml = PyDocX.to_html("防晒指南.docx")f = open("test.html", 'w', encoding="utf-8")f.write(html)f.close()...

2020-11-12 15:33:22 1583 1

原创 python 调用接口数据,并转码‘utf-8’

python 调用url接口,获取里面的内容,如:url='https://m.weibo.cn/statuses/show?id=HgumKdvQ3',打开是json格式。如下图所示:上图并不是utf-8格式,需要转码:import jsonimport requestscontent_urls='https://m.weibo.cn/statuses/show?id=Jt8kuncgB'r = requests.post(url=content_urls)r.textr.jso

2020-11-11 14:52:15 1146

原创 python 时间转换:前天、3天前、1周前、1小时前、昨天、2019-11-04、11-04、11月04日

时间转换:前天、3天前、1周前、1 周前、1小时前、昨天。均转化为 '%Y-%m-%d %H:%M:%S' 此格式。import reimport timefrom datetime import datetimedef beforeHours2Date(hours, date_format='%Y-%m-%d %H:%M:%S'): hours = int(hours) t = time.time() - hours*60*60 t = time.st...

2020-11-04 12:00:40 1590 1

原创 Python 根据图片url,批量下载图片

根据图片url。批量 下载图片:import osimport requestspath=os.getcwd()+'\\abc\\' #设置图片文件路径,前提是必须要有abc这个文件夹import pandas as pddf=pd.read_excel('url1.xlsx')urls=df['url']for i in range(len(urls)): print(i) # url = 'http://pic.qiushibaike.com/syste..

2020-10-10 17:36:48 11781 1

原创 Python datatime 可获取时间段的数据

from datetime import datetimetarget_time = '2020-01-09 22:32:14' #实际时间format_pattern = '%Y-%m-%d %H:%M:%S'cur_time = '2020-08-06 00:00:00' #在这时间之后difference = (datetime.strptime(target_time , format_pattern) - datetime.strptime(cur_time, form...

2020-09-29 15:33:09 748

原创 Python 获取当前路径及上一级路径

1、获取当前路径parent = os.path.dirname(os.path.realpath("__file__"))2、获取上一级路径garder = os.path.dirname(parent)

2020-09-29 15:31:03 2079

原创 python 重置索引、列表重命名、删除空值

1、重置索引df=df.reset_index(drop = True)2、列表重命名df=df.rename(columns = {'内容': "content", "转发内容":"tran_content"})3、删除data中某列含有空值的整行df=df[df['content'].notna()]、def useFilter(df,colslist): df = df[colslist] if 'content' in df.column...

2020-08-17 11:47:31 3376

原创 python 保留正则之外的字符(去除正则出来的内容)

采用微博文本,文本内容中,很多都带@XXX作者的名称。这类名称的存在, 严重影响数据的质量。'@喵了个咪://@快快封刀:化妆//@我马上来:是啊,今天这个活动搞得不错 '经过正则处理后:'是啊,今天这个活动搞得不错 'import rea='//@喵了个咪://@快快封刀//@我马上来:是啊,今天这个活动搞得不错'b=re.findall(r'(//@.*?:)',a)for i in range(len(b)): a=a.replace(str(b[i]),''.

2020-08-10 12:04:40 666

原创 Python 运维 linux离线安装python环境anaconda3

发现linux系统是离线时,运行python文件,各种报错,各种包要离线安装。1、安装 anaconda3环境下载https://www.anaconda.com/products/individual2、安装annconda文件bash Anaconda3-2020.02-Linux-x86_64.sh3、配置环境变量通过 /etc/profile文件vi /etc/profile在这个文件的后面加上:export PATH = /root/anaco..

2020-07-03 11:08:59 1338

原创 git 上传gitlab项目总结

2020-07-02 16:37:20 110

原创 python pip install 出错 SystemTimeWarning

出现SystemTimeWarning:在安装第三方包时,cmd后输入pip install pymysql时出现以下错误:SystemTimeWarning,Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirming the ssl certificate: HTTPSConnectionPool(host='pypi.org', port=443): Max retries exceeded.

2020-06-30 10:56:32 1052

原创 python 多变量赋值空列表

给a,b,c,d,e,f,g 变量都赋值为空列表传统:a=[]b=[]c=[]d=[]e=[]f=[]g=[]for循环:a,b,c,d,e,f,g=([] for i in range(7))

2020-06-08 09:31:38 1928

原创 Python 使用Jpype调用HanLP进行文本分析

①Hanlp的正确安装。包的详细文件如下:② 正确安装Jpype包③ 安装java环境④使用jpype调用JVM虚拟机jvmPath = jpype.getDefaultJVMPath()ext_classpath = r"/pyhanlp/static/hanlp-1.7.7.jar:/pyhanlp/static"jvmArg = '-Djava.class...

2020-04-22 10:05:11 706

原创 linux 使用Xshell连接SQL数据库

linux系统下,需要用到xshell去连接数据库,进行增删改查:1、连接数据库mysql -h hostname -Pport -u username -p eg:hostname=111.11.11.1port=12345username=abcmysql -h 111.11.11.1 -P12345 -u abc -p2、 按enter,输入密码...

2020-04-16 10:31:47 3129

原创 Python 识别图片中的文字 报错:TesseractNotFoundError: tesseract is not installed or it's not in your path

如下图所示,识别图a.jpg的文字----‘安装配置环境’import pytesseractfrom PIL import Imageimage = Image.open('a.jpg')code = pytesseract.image_to_string(image, lang="chi_sim+eng")print(code)a.jpg运行报错:Tessera...

2020-04-08 15:46:32 485

原创 linux yum安装和卸载包

查看服务器uname -a查看已安装的包yum listyum list installed安装包yum install pandas卸载包yum remove pandas

2020-04-07 17:24:07 3236

原创 linux nohup后台运行文件

linux系统,大多数通过Xshell去访问。①在此 linux系统上部署python3环境后,需要后台运行.py文件时,可这样:nohup python XXX.py >> my.log 2>&1 &②查看linux系统 当前后台运行情况,可这样:ps -ef|grep python③关闭后台运行,可这样:kill -9 数字(当...

2020-04-07 16:57:05 364

原创 Python pip源更改镜像-清华大学

在安装python第三方包时,cmd下载,速度一般比较慢。需要使用镜像改善速度。1、临时使用镜像使用清华大学(https://pypi.tuna.tsinghua.edu.cn/simple/)的镜像,下载pandas库。pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas2、永久使用镜像使用清华大学(h...

2020-04-07 14:43:19 6183

分类文档 data.xlsx

分类型文档。excel档:content及lable 按分类划分:['财经'、'彩票'、'房产'、'股票'、'家居'、'教育'、'科技'、'社会'、'时尚'、'时政'、'体育'、'星座'、'游戏'、'娱乐'] 出处:THUCNews。

2020-02-16

作词频数据使用.xlsx

import pandas as pd f2=pd.DataFrame() word=list(dict_dz.keys()) #保存一个列词 word_frequency=list(dict_dz.values()) #保存一列词频 #dict_dz=dict(zip(word,word_frequency)) #俩个列表变回字典形式 f2['word']=word f2['word_frequency']=word_frequency f2.to_excel("词频.xlsx")

2019-09-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除