tech_for_future-CSDN博客

转载 Python 中（&，|）和（and，or）之间的区别

2021-06-24 11:19:43 346

转载 pandas27 merge（数据库风格合并left_index, right_index参数实例）（ tcy）

转自：https://blog.csdn.net/tcy23456/article/details/85493634# 实例2.1：加入索引left_index, right_index# join()将两个不同索引列组合 left = pd.DataFrame({'A': [ 'A1', 'A2'], 'B': [ 'B1', 'B2']}, index=['K1', 'K2'])right = pd.DataFrame({'C': [ 'C2', 'C3'], 'D': [ 'D.

2021-05-23 20:55:31 545

转载 python迭代器第二次迭代为空的探究

转自：https://blog.csdn.net/weixin_35335605/article/details/96884771今天在看《机器学习实战》第11章，使用Apriori算法来发现频繁项集的代码时。P205的scanD函数在执行内层遍历时，第二次遍历访问的迭代对象为空。按理说按照书上代码原封不动誊写下来应该不会有错，本着技术要严肃的态度一探究竟，在查阅了相关资料后，整理为本篇博客。# 问题抽象代码def func(list, map): for listEach in lis

2020-12-24 10:58:07 795

转载 python dataframe 部分或所有数据类型转换

转自：https://blog.csdn.net/qq_34490873/article/details/81205523读取原始数据的时候,经常会遇到字符型变量读入变成了数值型,比较定性的就是商户ID,银行卡号这类标识型数据,可以使用三种方法解决这个问题:第一种:在读取数据的时候,指定数据类型data = pd.read_csv('test.txt',sep = '|',dtype = 'str')上面说的是,1,读取工作文件路径中标题为test.txt的文件,2,采用的分割符是’

2020-11-18 11:48:13 17462 2

原创 pandas 常用方法

1.dataframe 获得列名columns 和行名称 index列表dfname._stat_axis.values.tolist() # 行名称 dfname.columns.values.tolist() # 列名称2.dataframe 去除重复data.drop_duplicates(subset='列名',keep='first',inplace=True)subset：column label or sequence of labels, optional .

2020-11-13 16:57:01 80

原创 hive 多行合并

collect_set&collect_list1,、concat_ws和collect_set()函数实现（对某列进行去重）2、concat_ws和collect_list()函数实现（对某列进行不去重）CONCAT_WS（）CONCAT_WS(separator, str1, str2,...)第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是NULL，返回值也将为NULL。这个函数会跳过分隔符参数后的任何NULL和空字符串。分隔符将...

2020-10-20 16:00:04 1396

原创对pandas列中内容整体做操作

#字符串切片赋值df['item']=df['item'].astype(str).str[1:]如果列内容是字符串，可以df['item']=df['item'].str[1:]#正则表达式赋值df['item'] = df['item'].str.extract(r'([0-9]+).')#astype强制转换如果试图强制将列转换类型，可以使用df.astype()例如：df.astype(int),对应int32df.astype('int64'),对应int64df.as.

2020-10-16 16:19:00 608

转载 pandas.DataFrame删除/选取含有特定数值的行或列

转自：https://blog.csdn.net/luocheng7430/article/details/803305661.删除/选取某列含有特殊数值的行import pandas as pdimport numpy as np a=np.array([[1,2,3],[4,5,6],[7,8,9]])df1=pd.DataFrame(a,index=['row0','row1','row2'],columns=list('ABC'))print(df1)df2=df1.copy

2020-10-14 15:55:38 7087

转载 left join 和 left outer join 的区别

转载：https://www.cnblogs.com/cy163/archive/2008/10/16/1312920.htmlleft join是left outer join的缩写，所以作用是一样的。另外在SQL里没有区分大小写，也就是left join和LEFT JOIN都是可以的。left join: 包含左表的所有行，对应的右表行可能为空。right join: 包含右表的所有行，对应的左表行可能为空。full join: 只包含左右表都匹配并且不为空的行。通俗的讲：...

2020-10-14 15:39:43 2641

原创资料汇总

一份较为详细的深度学习资料汇总https://blog.csdn.net/edward_zcl/article/details/80003284130 余个相见恨晚的超实用网站https://blog.csdn.net/qq_43901693/article/details/100606828

2020-10-14 14:20:04 70

转载 hive中的多行多列转换

转自：https://blog.csdn.net/weixin_41639064/article/details/901436691. 多行转多列原表test表存储格式如下，希望进行优化name subject score 张三语文 90 张三数学 85 张三英语 92 李四语文 75 李四数学 90 李四英语 80 王五语文 95 王五数学

2020-10-10 13:41:50 2855 1

转载 hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别

转自：https://www.cnblogs.com/hdc520/p/11121786.htmlorder by：　　hive中的order by 和传统sql中的order by 一样，对数据做全局排序，加上排序，会新启动一个job进行排序，会把所有数据放到同一个reduce中进行处理，不管数据多少，不管文件多少，都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：所有的数据都会.

2020-09-27 09:06:02 965

转载 Hive中yyyymmdd和yyyy-mm-dd日期之间的切换

方法1: from_unixtime+ unix_timestamp --20171205转成2017-12-05 select from_unixtime(unix_timestamp('20171205','yyyyMMdd'),'yyyy-MM-dd') from dual; --2017-12-05转成20171205select from_unixtime(unix_timestamp('2017-12-05','yyyy-MM-dd'),'yyyyMMdd') from dual;.

2020-09-22 06:35:51 1968

转载 Hive中case when的两种语法

转自：https://blog.csdn.net/ygdlx521/article/details/71156354总结一下：两种表达方式是等效的方法一：case when tb1.os = 'android' then 'android'when tb1.os = 'ios' then 'iPhone'else 'PC'end as os,方法二：case tb1.oswhen 'android' then 'android'when 'ios' then 'iPhon

2020-07-29 23:24:33 259

转载程序员自我提升的5个方法

转自：https://baijiahao.baidu.com/s?id=1594886489149605287&wfr=spider&for=pc随着编程的火热，有不少的人如愿以偿开始从事编程工作。不过，有些程序员在编程过程中，意识到自己的不足。这是一个值得持续讨论的话题，话题比较大，下面是我们对话题做的几点支线发散：是什么阻碍了我们的发展？我们需要的技能是什么？工作中怎么提高自己？工作之外你做什么？社区昵称 ricman 的回答：已经工作好几个.

2020-06-30 16:09:28 4078

转载程序员如何正确的自我提升

原文链接：https://blog.csdn.net/youbitch1/article/details/88817014程序员如何正确的自我提升首先啊兄弟们,我只是分享一下我的一些学习方法,你可能有自己更好的方法,我只说适合于我的,并且确实有效果的在开始这个话题之前,可能有些兄弟觉得自我提升嘛.学习,使劲学,这不就是自我提升么你说的对,学习就是自我提升,但是如何正确的学习,会直接影响你提升的速度,学习的扎实度等前言在接触计算机有一段时间之后,接触到越来越多的新知识新概念, 我就像刘

2020-06-30 14:30:13 414

原创学习摘要（更新中）

关于源码对于初学者，本人坚持的观点是不要一上来就看源码，这样的效果不是很大，还浪费时间，对这个东西还没有大致掌握，还不知道它是干什么的，上来就看源码，门槛太高，而且看源码对个人的提升也不是很高。我们做软件开发的，我们开发的顺序也是，首先是需求，对需求有了详细的认识，需要解决什么问题，然后才是软件的设计，代码的编写。同样，学习框架也是，我们只有对这个框架的需求，它需要解决什么问题，它需要干什么工作，都非常了解了，然后再看源码，这样效果才能得到很大的提升。对于阅读源代码这一块，是本人的一点看法，说的对与错，

2020-06-28 08:06:44 325

转载 sparkSQL实战详解

转自:https://www.cnblogs.com/takemybreathaway/articles/10172339.html摘要如果要想真正的掌握sparkSQL编程，首先要对sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问题有一个整体的认识，然后就是对各个层级关系有一个清晰的认识后，才能真正的掌握它，对于sparkSQL整体框架这一块，在前一个博客已经进行过了一些介绍，如果对这块还有疑问可以看我前一个博客：http://9269309.blog.5...

2020-06-28 08:02:55 225

转载 sparkSQL的整体实现框架

转自：https://blog.51cto.com/9269309/18455251、sql语句的模块解析当我们写一个查询语句时，一般包含三个部分，select部分，from数据源部分，where限制条件部分，这三部分的内容在sql中有专门的名称：当我们写sql时，如上图所示，在进行逻辑解析时会把sql分成三个部分，project，DataSource，Filter模块，当生成执行部分时又把他们称为:Result模块、DataSource模块和Opertion模块。那么在关系数据库中

2020-06-26 16:38:42 129

转载 python将gif图片转换成png图片

转自：https://blog.csdn.net/huxiangen/article/details/80825181#将gif图片转成PNG图片im = Image.open('image.gif')def iter_frames(im): try: i= 0 while 1: im.seek(i) imframe = im.copy() if i == 0: .

2020-06-19 16:42:58 1073

原创 sql 中的一些常用函数汇总（更新中。。。）

1、字符串截取 substr(）用法：substr(string string,num start,num length);string为字符串；start为起始位置；length为长度，省略，则是从开始位置到最后。不同sql的start的开始值不同，有的是0，有的是1，可以尝试一下mysql从1开始，hive从0,1都可以2.内容排名排序 row_number() over()用例：SELECT *, row_number() over(partition by ke.

2020-06-07 18:03:00 280

转载 Spark和Scala的关系

为何Spark选择了Scala初学Scala，给我的感觉就是一堆语法糖以及最近名声大噪的函数式编程。可是λ表达式Java也有，map / reduce java也有，速度上java也会比scala快，心想一定是自己见识不够，无法领悟。今看一文章，有所感悟：《为什么选择Scala,他在大数据处理方面有何优势》在这篇文章中有几个核心观点用于支持spark选择scala的原因：观点1：应用开发的效率很大程度上依靠类库。框架开发者要考虑spark要融入大Hadoop大家族需要一个JVM语言，能够开发出.

2020-05-31 22:42:58 7088

转载 Spark与Hadoop关系

Spark与Hadoop关系Spark是一个计算框架Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。Spark是MapReduce的替代方案，而且兼容HDFS、Hive等分布式存储系统，可融入Hadoop生态。0、Spark与Hadoop MapReduce优势如下1）、中间结果输出 MapReduce的计算引擎将中间结果存储在磁盘上，进行存储和容错。 Spark将执行模型抽象为有向无环图执行计划（DAG），这可以将多个Stage的任务串联或者并行...

2020-05-31 22:24:04 329

转载池化方法总结（Pooling）

原文链接：https://blog.csdn.net/danieljianfeng/article/details/42433475在卷积神经网络中，我们经常会碰到池化操作，而池化层往往在卷积层后面，通过池化来降低卷积层输出的特征向量，同时改善结果（不易出现过拟合）。为什么可以通过降低维度呢？因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样...

2019-09-10 21:46:58 583

转载内联，左外联，右外联，交叉联，全联

转发自：https://blog.csdn.net/appleyuchi/article/details/79404886在数据库中新建三张表格：T1T2T3普通查询：select * from T1, T3 where T1.user_id = T3.user_id结果：------------------------------------...

2019-07-30 17:10:27 493

转载 mysql中的联合查询（内联、左联、外联、右联、全联）

转载自：https://www.cnblogs.com/withscorpion/p/9454490.html联合查询效率较高，举例子来说明联合查询：内联inner join 、左联left outer join 、右联right outer join 、全联full outer join 的好处及用法。　　联合查询效率较高，以下例子来说明联合查询(内联、左联、右联、全联)的好处： ...

2019-07-30 16:54:59 603

原创用UltraISO制作Ubuntu16.04 U盘启动盘

参考：https://blog.csdn.net/yaoyut/article/details/78003061https://blog.csdn.net/tnaig/article/details/811398871、从Ubuntu官网http://cn.ubuntu.com/download/下载系统的iso文件用来制作的U盘需要是FAT32格式的，可以通过格式化U...

2019-04-08 22:54:10 2465

转载 ubuntu镜像源

官方下载地址（不推荐）https://www.ubuntu.com/download中科大源http://mirrors.ustc.edu.cn/ubuntu-releases/16.04/阿里云开源镜像站http://mirrors.aliyun.com/ubuntu-releases/16.04/兰州大学开源镜像站http://mirror.lzu.edu.cn/...

2019-04-08 22:38:56 1984

转载 PYTHON库，让你相见恨晚的第三方库

转载自:https://www.cnblogs.com/duanlinxiao/p/9865240.html环境管理管理 Python 版本和环境的工具p – 非常简单的交互式 python 版本管理工具。pyenv – 简单的 Python 版本管理工具。Vex – 可以在虚拟环境中执行命令。virtualenv – 创建独立 Python 环境的工具。virtualenvwrapp...

2019-04-02 11:56:40 586

原创 git创建分支

参考：https://www.cnblogs.com/bluestorm/p/6252900.htmlhttps://my.oschina.net/u/219482/blog/285584https://blog.csdn.net/zxy987872674/article/details/792731481.查看远端分支git branch -r本地分支git bra...

2019-03-31 23:29:55 254

转载 Windows下安装Redis

转载自：https://www.cnblogs.com/panter/p/6801210.html一、Redis简单介绍： Redis是一个Key-value的数据结构存储系统，可以以数据库的形式，缓存系统，消息处理器使用，它支持的存储value类型很多，例如，string、list(链表)、set(集合)、zset(sorted set--有序集合)、hash(哈希类型)等。...

2019-03-31 14:35:17 87

转载 Python Django，模型，查询数据库。get()、all()、filter()、exclude()、order_by()

转自：https://blog.csdn.net/houyanhua1/article/details/84944010条件格式：模型类属性名__条件名=值# 所以定义模型类属性名时不能使用多个下划线。例如：id__exact = 1 。一、get函数(仅能返回一条数据)。book =BookInfo.objects.get(id__exact = 1)...

2019-03-20 16:08:58 232

转载使用Flask-Mail和qq邮箱SMTP服务发送邮件

2019-02-24 00:03:18 1522

原创工作学习中使用的工具锦集（不断更新中。。。）

Postman 安装及使用入门教程https://www.cnblogs.com/mafly/p/postman.htmlPostman 4.1.2 下载地址: http://files.cnblogs.com/files/mafly/postman-4.1.2.rar下载安装包并解压google浏览器扩展解压-->加载已解压的扩展程序(开发模式)windows菜单就会...

2019-01-20 22:10:48 132

原创关于openstack对接ceph后端遇到的问题

按照官方文档在openstack上对接了ceph后端，但是openstack后端连接不上ceph，在openstack上执行ceph -n client.admin -s,一直处于等待卡死状态，百思不得其解，后来找到解决方案了，是ceph被外部访问的openstack访问的端口没有打开。在ceph集群中执行下面命令：打开Ceph端口： firewall-cmd --zone=public...

2018-11-30 17:04:06 419

转载 Ceph 用户管理

转载自：https://blog.csdn.net/litianze99/article/details/44624451Ceph 用户管理用户管理Ceph storage cluster的认证和授权默认是启用的。Ceph的客户端用户要么是独立的个体用户，要么是系统中的一个应用，他们都使用ceph的客户端与ceph存储集群交互。当ceph启用认证和授权时，你必须要指定用户名和包含...

2018-11-28 11:55:37 802

转载 CentOS7下部署ceph-12 (luminous)--单机集群

转载自https://blog.csdn.net/for_tech/article/details/771881211. 安装ceph1.1 下载ceph官方为一些常用平台编译了rpm包，对于Centos7，可到此下载：http://download.ceph.com/rpm-luminous/el7/x86_64/根据你需要的功能而定，一般不需要全部下载，我下载了下列rpm：...

2018-11-20 14:44:41 678

空空如也

空空如也