学习真是太快乐了呀-CSDN博客

1、在Anaconda中查看所有字体全名import matplotlibfont_list=sorted([f.name for f in matplotlib.font_manager.fontManager.ttflist])for i in font_list: print (i)2、加载程序字符库plt.rcParams['font.family'] = ['Arial Unicode MS'] #正常显示中文plt.rcParams['font.sans-serif

2021-07-27 18:12:43 1565

原创 Python资源整理

一、基础知识学习首推B站的学习视频，讲解细致全面，资料齐全：Python基础入门运算符和变量是基础操作，重点掌握：程序控制语句--循环、判断；数据结构--列表、元组、字典、集合以及操作方法（修改、删除、遍历等方法）；函数的定义与使用；面向对象的思想及编程方法；文件的读取与写入；辅助阅读：廖雪峰的官方网站这个不用多说，超千亿人次访问阅读 Python菜鸟教程中文文档教程二、Python常用库Pandas官网 Pandas社区教程 Numpy官网 API参考.

2021-03-26 15:32:29 144 2

原创忘了是什么时候挖的坑了

5.1.1.列表用作堆栈列表方法使得列表作为堆栈非常容易，最后一个插入，最先取出（“后进先出”）。要添加一个元素到堆栈的顶端，使用append()。要从堆栈顶部取出一个元素，使用pop()，不用指定索引。例如>>>>>> stack = [3, 4, 5]>>> stack.append(6)>>> stack.append(7)>>> stack[3, 4, 5, 6, 7]>...

2021-03-26 13:55:12 154

原创异常

>>> def divide(x, y):... try:... result = x / y... except ZeroDivisionError:... print("division by zero!")... else:... print("result is", result)... finally:... print("executing finally clau.

2021-03-19 10:46:30 78

原创统计数据的区间分布情况

生成一个随机数据data=np.random.randint(1,1000,500)#生成500个1-1000内的整数数据incomeranges = pd.cut(data,25)#将数据分为25份#分份的区间可以自定义incomeranges = pd.cut(data,[0,100,300,500,700,1000])pd.value_counts(incomeranges)Out[10]: (700, 1000] 140(300, 500] 122(100

2021-01-29 17:32:00 2029

原创 Python小技巧

1、过滤序列元素。首先可以使用列表推导的方法，但是数据量大时比较占内存。values = ['1', '2', '-3', '-', '4', 'N/A', '5']def is_int(val): try: x = int(val) return True except ValueError: return Falseivals = list(filter(is_int, values))print(ivals)# Output

2021-01-21 23:20:08 121

原创 pandas读取Excel，使用列表推导式

import pandas as pddf1=pd.read_excel('C:/Users/Desktop/table1.xlsx',sheet_name='明细')list1=list(df1['数据列名'].values)list1df2=pd.read_excel('C:/Users/Desktop/核查.xlsx',sheet_name='明细')list2=list(df2['数据列名'].values)l=[]for x in list1: for y in

2021-01-19 10:52:55 339

原创 pandas速查手册

本文翻译自文章：Pandas Cheat Sheet - Python for Data Science，同时添加了部分注解。对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas，建议先看两个网站。（1）官网：Python Data Analysis Library（2）十分钟入门Pandas：10 M

2021-01-07 20:12:10 103

原创元组

创建：元组是一个固定长度，不可改变的Python序列对象。创建元组的最简单方式，是用逗号分隔一列值。转换：使用tuple可以将任意序列或迭代器转换成元组访问元素：用方括号[ ]访问元组中的元素。特点：元组中存储的对象可能是可变对象。一旦创建了元组，元组中的对象就不能修改了。但是如果元组中的某个对象是可变的，比如说列表，则可以在原位置进行修改。In [11]: tup[1].app...

2019-11-20 21:30:28 134

原创使用Pythontutor学习Python

今天发现了一个神器，可以可视化代码在内存中的引用和执行过程，如下图：这对学Python序列内容的操作，如切片、引用等比较有帮助，用起来特别方便，所以在这里写个帖子推荐一下。正文开始：Pythontutor简介它是一款可以可视化代码的工具，支持Python、Java、C、C++、JavaScript、Ruby编程语言，帮助人们克服学习编程的障碍，进而了解程序运行的每一步会发生什么...

2019-11-17 22:25:44 5179 1

原创 Ipython notebook使用教程

1.网上使用教程：Ipython使用教程链接2.我安装的Anaconda，直接打开就行了然后会自动跳转到网页依次点1,2会打开编辑完程序，点击红框中的选项就会运行了。...

2019-11-17 12:03:36 250

原创 Python字符串方法总结

s=" 12345"方法名（函数名）作用（描述）举例 strip()函数去除字符串头尾指定的字符，默认为空格或换行符 s.strip()==>"12345" ...

2019-11-16 20:29:35 104

原创 Python数据类型

Python的数据类型和其它高级编程语言一样，有整数、浮点数等，不同的是python还有其它数据类型，如集合列表等。基本数据类型：类型举例整数 10、-8 浮点数 0.7、3.14 复数 3+4j ...

2019-11-12 22:30:04 131

原创 python学习练习

1.求三角形面积和周长a,b,c=(int(x) for x in input().split())if a+b>c and a+c>b and b+c>a: s=(a+b+c)/2 area=(s*(s-a)*(s-b)*(s-c))**0.5 perimeter=a+b+c print("area={:,.2f};perimet...

2019-11-11 19:25:59 699

原创 Spark学习

Spark是大数据处理中的一个非常重要的组件，一般使用Hadoop在底层作为分布式存储系统，上层使用Spark代替Hadoop原来的MapReduce此外还提供RDD编程、Spark SQL、流计算和机器学习。它功能齐全、计算速度快，可以使用Scala语言、python、Java进行编程，那么在本周学习了Spark的相关内容，目录如下：一、Spark的设计与运行原理Spark概述 Spa...

2019-10-13 14:03:01 137

原创使用FileZilla软件向Ubuntu系统上传文件

需要向Linux系统中上传各个软件的压缩包，于是使用FileZilla软件连接上传，但是试了好几次FileZilla都显示：错误: Network error: Connection refused错误: 无法连接到服务器但是我也不知道什么原因，下门大学博客上说的是网络连接方式需要改为“桥接网卡”，但是修改过后并没有起效果，所以就上网找了找其它解决方法，后来才发现没有安装...

2019-08-28 20:31:48 872

原创厦门大学林子雨老师大数据实验环境搭建索引

博客首页在Windows中使用VirtualBox安装UbuntuJava和SSH的安装配置Hadoop 2.7分布式集群环境搭建Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04Spark快速入门指南 – Spark安装与基础使用HBase的安装与运行Ubuntu安装hive，并配置mysql作为元数据库Ubuntu下Mong...

2019-08-26 22:05:39 4361

原创分布式服务框架 Zookeeper — 管理分布式环境中的数据

目录Zookeeper 安装和配置详解单机模式集群模式数据模型如何使用 Zookeeper常用接口列表基本操作ZooKeeper 典型的应用场景统一命名服务（Name Service）配置管理（Configuration Management）集群管理（Group Membership）共享锁（Locks）队列管理结束语Zookeeper...

2019-08-24 18:50:32 118

原创 Redis学习

学习路线：1.Redis介绍---内存数据库、应用场景等；2.Linux环境安装；3.Redis数据类型：String、Hash、List、Set和ZSet（有序）；4.高级命令；5.安全性；6.Redis主从复制；7.事务；8.持久化机制；9.发布与订阅模式；10.使用Java API操作Redis11.集群搭建与使用；12.Java操作Redis...

2019-08-23 22:35:10 92

原创虚函数

目录一、虚函数实现多态的条件1.什么是虚函数？2.虚函数定义3.一些需要注意的点4.虚函数实现多态的条件二、类成员函数的指针与多态性5.何时需要虚函数？一、虚函数实现多态的条件1.什么是虚函数？被virtual关键字修饰的成员函数，就是虚函数。虚函数的作用就是实现多态性——以共同的方法，对不同的对象采取不同的策略。2.虚函数定义虚函数只能是类...

2019-07-03 23:48:05 226

原创 C++复数类实现运算符重载

目录：1.关于运算符重载2.运算符重载的方式：成员函数和友元函数3.只能用成员函数重载的运算符4.利用复数类实现运算符重载1.关于运算符重载运算符重载就是对现有的运算符重新定义，赋予其另一种功能，以实现不同的数据类型。其本质还是函数的重载，使用运算符重载可以使程序更清晰。运算符重载的关键字operator。C++绝大多数运算符都可以重载，不能重载的运算符有. :: ....

2019-07-03 00:24:15 5340

原创 Java并发笔记

地址：http://www.blogjava.net/xylz/archive/2010/07/08/325587.html

2019-06-30 10:36:46 127

原创 HTTP协议分析

目录1.简介：2.HTTP请求：3.HTTP请求方法：4.HTTP响应：5.HTTP工作原理：1.简介：HTTP（HyperText Transfer Protocol）即超文本传输协议，是一种详细规定了浏览器和万维网服务器之间互相通信的规则，它是万维网交换信息的基础，它允许将HTML（超文本标记语言）文档从Web服务器传送到Web浏览器。什么是超文本(Hyper...

2019-06-18 21:14:38 157

原创云计算相关知识

云计算：云计算网络：云计算服务器：云计算存储：高可用：共享存储上的虚拟机，可以使用故障迁移功能，通过配置一定的检测条件，发生故障时，触发虚拟机HA功能时期从其他主机上恢复运行集群资源调度：资源是虚拟机，调度是迁移虚拟机运行位置。通过设定CPU和内存的阈值，超过阈值会触发集群资源调度，将虚拟机迁移至CPU和内存利用率低的主机上，将负载过高的主机的利用率降到阈值以下...

2019-06-17 20:58:17 263

转载八大排序算法详解（Java语言实现）

概述因为健忘，加上对各种排序算法理解不深刻，过段时间面对排序就蒙了。所以决定对我们常见的这几种排序算法进行统一总结，强行学习。首先罗列一下常见的十大排序算法：直接插入排序希尔排序简单选择排序堆排序冒泡排序快速排序归并排序基数排序我们讨论的这八大排序算法的实现可以参考我的Github：SortAlgorithms，其中也包括了排序测试模块[Test.ja...

2019-06-16 15:17:37 326

原创 HashMap源码分析学习

Java为数据结构中的映射定义了一个接口java.util.Map，此接口主要有四个常用的实现类，分别是HashMap、Hashtable、LinkedHashMap和TreeMap，类继承关系如下图所示：下面针对各个实现类的特点做一些说明：(1)HashMap：它根据键的hashCode值存储数据，大多数情况下可以直接定位到它的值，因而具有很快的访问速度，但遍历顺序却是不确定...

2019-06-16 15:08:25 148

原创 Hive的常用HiveQL操作

一、Hive简介Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。Hive是一个可以提供有效的、合理的且直观的组织和使用数据的模型，即使对于经验丰富的Java开发工程师来说，将这些常见的数据运算对应到底层的MapReduce Java API也...

2019-06-09 18:21:15 2934

原创使用hadoop的MapReduce来实现WordCount

首先依次在终端输入命令sudo service ssh restart重启ssh服务。start-dfs.sh启动HDFS，start-yarn.sh启动yarn。然后输入jps命令查看进程输入vi article.data创建article.data并进入文件，按i键进行内容编辑模式，输入this is an example回车this is another exampl...

2019-06-07 18:09:31 459

原创数据获取和存储综合-----进行kafka，flume，和hive的数据综合处理实验

依次输入命令开启ssh服务、开启mysql、启动hdfs、启动yarm、启动Zookeepr输入hive进入hive创建一张表，用来放数据：create table kafkatest(id int,name string,age int) clustered by(id) into 2 buckets stored as orc tblproperties('transacti...

2019-06-07 14:59:01 212

原创 Hive基础操作

输入命令sudo service ssh restart开启ssh服务接着开启mysql sudo service mysql start然后start-all.sh启动HDFS和YARN，输入cd /home/user/bigdata/apache-hive-2.3.4-bin/conf再输入vi hive-site.xml按i进行编辑将文件最后三条注释掉，即增加<!...

2019-06-07 14:31:23 148

原创熟悉Hbase基本操作

首先打开终端，启动ssh服务sudo service ssh restart接着输入命令start-dfs.sh启动HDFS再使用命令zkServer.sh start启动Zookeeper输入命令start-hbase.sh开启Hbase服务，使用jps命令查看进程打开网页，网址输入http://localhost:16010可以查看HBase的情况。输入hba...

2019-06-07 14:16:24 422

原创学习HDFS的基本操作

打开终端。输入命令sudo service ssh restart重启ssh服务输入start-dfs.sh启动HDFS，然后输入jps查看java进程打开网页，网址输入http://localhost:50070可以查看HDFS的情况。输入hadoop fs -ls /查看HDFS根目录下的文件输入命令创建一个test文件hadoop fs -mkdir /test...

2019-06-07 11:06:54 245

原创 HashMap 和 Hashtable 的区别

HashMap 和 Hashtable 的区别线程是否安全：HashMap 是非线程安全的，HashTable 是线程安全的；HashTable 内部的方法基本都经过synchronized修饰。（如果你要保证线程安全的话就使用 ConcurrentHashMap 吧！）；效率：因为线程安全的问题，HashMap 要比 HashTable 效率高一点。另外，HashTable 基本被...

2019-06-07 10:25:56 561

原创使用sqoop工具将数据从mysql数据库导入到HDFS和Hbase

使用Sqoop进行数据导入配置ssh的免密登录终端输入：sudo service ssh restart重启ssh服务。终端输入：sudo service mysql start开启mysql。配置免密登陆：rm -rf ~/.ssh/再输入ssh-keygen敲三下回车输入ssh-copy-id user@localhost输入yes，需要输入passwor...

2019-06-07 00:49:41 1248

原创大数据实践--使用kafka和flume组合进行日志采集

flume+Kafka日志采集实验打开终端，首先输入：sudo service ssh restart重启ssh服务。之后输入下述命令开启zookeeper服务：zkServer.sh start输入：cd /home/user/bigdata/apache-flume-1.9.0-bin进入flume目录，之后输入：bin/flume-ng agent --conf co...

2019-06-06 21:35:57 825

原创设计模式-----单例模式

使用一个私有构造函数、一个私有静态变量以及一个公有静态函数来实现。私有构造函数保证了不能通过构造函数来创建对象实例，只能通过公有静态函数返回唯一的私有静态变量。Ⅰ 懒汉式-线程不安全以下实现中，私有静态变量 uniqueInstance 被延迟实例化，这样做的好处是，如果没有用到该类，那么就不会实例化 uniqueInstance，从而节约资源。这个实现在多线程环境下是不安全...

2019-06-06 11:06:19 82

原创数据库事务的特性和事务隔离级别

数据库事务的特性和事务隔离级别一、事务的特性原子性：事务是最小的执行单位，不允许分割。事务的原子性确保动作要么全部完成，要么完全不起作用；一致性：执行事务前后，数据保持一致，多个事务对同一个数据读取的结果是相同的；隔离性：并发访问数据库时，一个用户的事务不被其他事务所干扰，各并发事务之间数据库是独立的；持久性：一个事务被提交之后，它对数据库中数据的改变是持久的，即...

2019-06-06 09:21:21 168

空空如也

空空如也