还是小小白-CSDN博客

原创 pandas 入门

pandas基础操作，，临时整理，便于后续快速上手

2022-08-09 15:33:11 519 1

movielens中的genres列有多个值，由“|”隔开，在统计的时候需要将其分割，以便统计每个电影类型，这就涉及到python中的一行转多行了。。（不知道学名叫啥。。）目录1. 先看一下数据2. 仅分割genres列3. 若要保留一列作为index4. 若要保留两列作为index1. 先看一下数据test = [{"a":1,"b":9,"genres":"Animation|Children's|Musical"},{"a":2,"b":9,"genres":"Mus

2022-04-12 10:46:28 3363

原创 python下载安装第三方库

1. 第三方库whl可在https://www.lfd.uci.edu/~gohlke/pythonlibs/找到。Ctrl+F查找想要的库2.找到对应版本号的下载下来，放到文件夹A3.打开文件夹A，shift+右键打开命令行4. pip install ........whl即可如pip install statsmodels-0.13.2-cp37-cp37m-win_amd64.whl...

2022-04-04 11:42:59 5745 1

原创 python时间序列季节调整x13_arima_analysis

1. 方法1注意a要是Datetime类型这个x12a.exe要翻墙下载import statsmodels.api as sm# 注意路径要全英tes = sm.tsa.x13_arima_analysis(a,x12path="D:/Users/a/desktop/x12a.exe")tes.seasadj2. 方法2import statsmodels.api as sm#addictive 加法，multiplicative为乘法first =sm.tsa.seas

2022-04-03 00:17:38 4553 2

转载安装mathpix的时候报错This application failed to start because no Qt platform plugin could beinitialized. .

安装mathpix的时候，报错：ThisapplicationfailedtostartbecausenoQtplatformplugincouldbeinitialized.Reinstallingtheapplicationmayfixthisproblem. Availableplatformpluginsare:direct2d,minimal,offscreen,windows.

2022-03-19 21:51:44 1412 2

原创 pd.merge()对应sql中的连接

1. 左连接目标实现：保留左表所有行，右表无匹配的NAN填充注：列名不一样，df1的b列对应df2的c列代码如下：import pandas as pddf1 = pd.DataFrame({"a":[3,5,7],"b":[4,6,8]})df2 = pd.DataFrame({"a":[3,4],"c":[4,4]})# 左连接pd.merge(df1,df2,how="left",left_on=["a","b"],right_on=["a","c"])

2022-03-18 20:57:04 399

原创 hive sql 变量

1.--注意：有些引擎运行正常(Tez spark)，有些会报错(presto)set a=10;select * from table limit ${hiveconf:a};2.-- 注意加了引号就相当于加引号的变量值'2021-06-01'，字段需要加引号就加，不需要加就不加-- 同样有的引擎可用，有的不可用set a=2021-06-01;select * from table where sale_ord_dt= '${hiveconf:a}' limit 10;-

2021-08-26 10:22:14 2211

原创 CalledProcessError: Command ‘[‘dot‘, ‘-Tpdf‘, ‘-O‘, ‘测试图片.gv‘]‘ returned non-zero exit status 1. [st

win10 python3 graphviz出现问题CalledProcessError: Command ‘[‘dot’, ‘-Tpdf’, ‘-O’, ‘测试图片.gv’]’ returned non-zero exit status 1. [st首先，我已经完成了安装graphviz(版本2.44.1)，以及pip install graphviz，并且将bin目录添加到环境变量里了，可运行（测试代码）依旧报错from graphviz import Digraphg = Digraph('

2020-09-03 22:25:11 4024 10

原创 python seaborn.lmplot() 直线断开/拟合线太短/小问题

python seaborn.lmplot()线断开/线太短/小问题这种小问题浪费了我好长时间，害，气如图：一个简单的拟合直线import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npx1=np.linspace(0,10,50)x2=['0']*10+['1']*40y=2*x1+5+np.random.randn(50)*10data=pd.DataFrame({

2020-08-30 11:44:01 1429 1

原创 python常用的小东西

防止忘记，在此做个记录目录：读取csv 筛选排序1.读取csvimport pandas as pdfile = pd.read_csv(r'D:\projects\PycharmProjects\final_wangwei\final_news_all.csv', usecols=['entity_id', 'post_title','publish_year...

2019-06-05 09:08:37 156

原创 R的一些操作

现在又用到R语言了，当年学习的时候，很多函数用的都很熟练，没想到现在竟然忘了一大截。。。写个笔记还是很有必要的。。持续更新……此处作目录连接mysql的操作数据框的合并（merge）数据框去重（news=news[!duplicated(news),]）输出表格csv 删除某些列有na的行final_news=news[complete.cases(news[,'shouc...

2019-06-01 22:00:20 153

原创 PYTHON+MYSQL插入数据遇到：1054, "Unknown column 'XXXXXXX' in 'field list'"错误

我原本的插入语句是insert into news_detail(a,b,c,d,e) values(%s,%s,%s,%s,%s)" % (str(entity_ids[i]), post_title, shoucang, pinglun, dianzan)查了一下，发现python向mysql中添加数据时插入值需要用引号包起来即将：mydata=(str(entity_ids[...

2019-05-29 12:28:59 1733

原创 PYTHON+MYSQL遇到pymysql.err.InternalError: (1366, "Incorrect string value: '\\xF0\\x9报错

这是字符编码问题1.网上有一种解决方法是：直接将数据库的编码改为：utf8mb4_general_ci，同时Python代码里,连接数据库时用charset="utf8mb4"不过，，这种方法对我的程序不起作用。。2.另一种方法（有效）：执行sql语句：ALTER TABLE表名CONVERT TO CHARACTER SET utf8mb4;再将P...

2019-05-26 19:35:01 10080 8

转载如何让博客更容易被搜索引擎搜索到

假如不把你的博客提交到各大搜索引擎中，它们一般是不会收录你的博客的，你可以先尝试一下看看能不能在百度搜到你的博客吧：假如你搜不到的话说明你的博客还没有被百度收录，那么怎么才能被百度、google等各大搜索引擎收录你的博客呢？申请免费加入搜索引擎啦！一般百度在48小时内就会邮件答复你，假如申请成功的话，大家就能够随时随地找到你了(百度最晚一个月可以找到你博客，因为百度的搜索是每隔36天更新一次的)...

2019-04-27 10:06:12 977

原创 R-数据挖掘-贝叶斯分类（五）

海林老师《数据挖掘》（韩佳炜书）课程作业系列要求：自己写R/Python代码、函数实现一系列算法其他参见：R-数据挖掘-求混合型数据对象距离（一）R-数据挖掘-主成分分析PCA（二）R-数据挖掘-关联规则（三）R-数据挖掘-决策树ID3（四）R-数据挖掘-贝叶斯分类（五）R-数据挖掘-聚类Kmeans（六）R-数据挖掘-聚类DBSCAN（七）全文逻辑：...

2019-04-27 09:23:18 443

原创 R-数据挖掘-聚类DBSCAN（七）

海林老师《数据挖掘》（韩佳炜书）课程作业系列要求：自己写R/Python代码、函数实现一系列算法其他参见：R-数据挖掘-求混合型数据对象距离（一）R-数据挖掘-主成分分析PCA（二）R-数据挖掘-关联规则（三）R-数据挖掘-决策树ID3（四）R-数据挖掘-贝叶斯分类（五）R-数据挖掘-聚类Kmeans（六）R-数据挖掘-聚类DBSCAN（七）全文逻辑：...

2019-04-26 21:56:01 399

原创 R-数据挖掘-聚类Kmeans（六）

海林老师《数据挖掘》（韩佳炜书）课程作业系列要求：自己写R/Python代码、函数实现一系列算法其他参见：R-数据挖掘-求混合型数据对象距离（一）R-数据挖掘-主成分分析PCA（二）R-数据挖掘-关联规则（三）R-数据挖掘-决策树ID3（四）R-数据挖掘-贝叶斯分类（五）R-数据挖掘-聚类Kmeans（六）R-数据挖掘-聚类DBSCAN（七）全文逻辑：...

2019-04-26 21:50:37 555

原创 R-数据挖掘-决策树ID3（四）

海林老师《数据挖掘》课程作业系列要求：自己写R/Python代码、函数实现一系列算法其他参见：R-数据挖掘-求混合型数据对象距离（一）R-数据挖掘-主成分分析PCA（二）R-数据挖掘-关联规则（三）R-数据挖掘-决策树ID3（四）R-数据挖掘-贝叶斯分类（五）R-数据挖掘-聚类Kmeans（六）R-数据挖掘-聚类DBSCAN（七）全文逻辑：（读者可将所有代...

2019-04-26 21:43:38 450

原创 R-数据挖掘-关联规则（三）

海林老师《数据挖掘》课程作业系列要求：自己写R/Python代码、函数实现一系列算法其他参见：R-数据挖掘-求混合型数据对象距离（一）R-数据挖掘-主成分分析PCA（二）R-数据挖掘-关联规则（三）R-数据挖掘-决策树ID3（四）R-数据挖掘-贝叶斯分类（五）R-数据挖掘-聚类Kmeans（六）R-数据挖掘-聚类DBSCAN（七）全文逻辑：（读者可将所有代...

2019-04-26 21:35:47 732

原创 R-数据挖掘-主成分分析PCA（二）

海林老师《数据挖掘》课程作业系列要求：自己写R/Python代码、函数实现一系列算法其他参见：R-数据挖掘-求混合型数据对象距离（一）R-数据挖掘-主成分分析PCA（二）R-数据挖掘-关联规则（三）R-数据挖掘-决策树ID3（四）R-数据挖掘-贝叶斯分类（五）R-数据挖掘-聚类Kmeans（六）R-数据挖掘-聚类DBSCAN（七）全文逻辑：（读者可将所有代...

2019-04-26 21:29:50 730

原创 R-数据挖掘-求混合型数据对象距离（一）

海林老师《数据挖掘》（韩佳炜书）课程作业系列要求：自己写R/Python代码、函数实现一系列算法其他参见：R-数据挖掘-求混合型数据对象距离（一）R-数据挖掘-主成分分析PCA（二）R-数据挖掘-关联规则（三）R-数据挖掘-决策树ID3（四）R-数据挖掘-贝叶斯分类（五）R-数据挖掘-聚类Kmeans（六）R-数据挖掘-聚类DBSCAN（七）全文逻辑：（读...

2019-04-26 21:22:34 985

原创 R-一些小问题

1.The shape palette can deal with a maximum of 6 discrete values because more than 6 becomes difficult to discriminate;.....解决方法：http://www.sthda.com/english/wiki/ggplot2-point-shapes总结：ggplot2默认支...

2019-03-22 18:24:37 5304

转载 R—list

https://www.cnblogs.com/ljhdo/archive/2018/03/09/4907882.htmlhttps://blog.csdn.net/wa2003/article/details/45887055先令aa=NULL;再进行合并aa=c(aa,list(1))；此时NULL会被填充

2018-11-01 18:44:57 368

原创 mysql的一些操作

鉴于我经常性忘记一些知识点，于此记录一下！2018-09-24中秋节码代码篇~主要内容：复制表（复制表数据，复制表结构）数据快速去重对于大数据级别的表作查找删除时的技巧在插入数据时遇到的bug(SQL:1265;;1166 ....) 将excel文件内容导入mysql中，出现invalid utf8 character string错误的解决 heidisql...

2018-09-24 09:13:01 223

原创 python3对mysql的增删改查操作

思路：1.python中下载库PyMySql2.打开MySQL，创建数据库py_test3.创建.py文件，代码：连接数据库，创建游标对象，创建表，对表进行增删改查，关闭游标对象，关闭数据库代码如下：import pymysql#数据库连接db=pymysql.connect(host="localhost",port=3306,user="root",password...

2018-09-20 19:28:44 1751

原创装eclipse

1.http://www.eclipse.org/downloads/packages/选择合适的版本（我选的是eclipse ide for javaee developers）2.下载后得到的文件夹中找到.exe文件即可打开运行3.下载tomcat4.在eclipse中配置tomcat https://jingyan.baidu.com/article/fcb5aff74d7...

2018-07-27 16:40:35 111

原创 R中排序函数总结：sort,order,rank,arrange,reorder

总结（区别）：1、sort是直接对向量排序，返回原数值；2、order先对数值排序，然后返回排序后各数值的索引；3、rank返回原数据各项排名；4、arrange是plyr包中的，可对数据框按列排序，仍返回数据框；5、reorder用在绘图中，比如ggplot中绘条形图，可使x轴按y轴数值大小排序；比如横轴为age,纵轴为money，可写为：aes(x=reorder(age,...

2018-07-06 19:44:11 21300 1

原创 R语言垃圾邮件分类--朴素贝叶斯（机器学习）

邮件分类练习–朴素贝叶斯思路数据导入数据处理构建训练集和测试集词云展示数据降维训练模型模型测试提升模型一、数据导入文件目录为：C:\Users\kelanj\Documents\data\spam\…和C:\Users\kelanj\Documents\data\ham\…# 数据导入# 获得文件路径/目录setwd("C:\\Users\\kelanj\\Documents")spam.p...

2018-07-02 14:51:34 5503 3

kelanj的博客

原创 pandas 入门

原创 python/pandas中一行转多行（列值分割）

原创 python下载安装第三方库

原创 python时间序列季节调整x13_arima_analysis

转载安装mathpix的时候报错This application failed to start because no Qt platform plugin could beinitialized. .

原创 pd.merge()对应sql中的连接

原创 hive sql 变量

原创 CalledProcessError: Command ‘[‘dot‘, ‘-Tpdf‘, ‘-O‘, ‘测试图片.gv‘]‘ returned non-zero exit status 1. [st

原创 python seaborn.lmplot() 直线断开/拟合线太短/小问题

原创 python常用的小东西

原创 R的一些操作

原创 PYTHON+MYSQL插入数据遇到：1054, "Unknown column 'XXXXXXX' in 'field list'"错误

原创 PYTHON+MYSQL遇到pymysql.err.InternalError: (1366, "Incorrect string value: '\\xF0\\x9报错

转载如何让博客更容易被搜索引擎搜索到

原创 R-数据挖掘-贝叶斯分类（五）

原创 R-数据挖掘-聚类DBSCAN（七）

原创 R-数据挖掘-聚类Kmeans（六）

原创 R-数据挖掘-决策树ID3（四）

原创 R-数据挖掘-关联规则（三）

原创 R-数据挖掘-主成分分析PCA（二）

原创 R-数据挖掘-求混合型数据对象距离（一）

原创 R-一些小问题

转载 R—list

原创 mysql的一些操作

原创 python3对mysql的增删改查操作

原创装eclipse

原创 R中排序函数总结：sort,order,rank,arrange,reorder

原创 R语言垃圾邮件分类--朴素贝叶斯（机器学习）

空空如也

空空如也