Chelseady-CSDN博客

原创 pandas 数据处理的一些方法

1.合并两个表的操作：pandas.merge()可根据一个或者多个键将不同的DataFrame连接在一起，类似于SQL数据库中的合并操作；例如：import numpy as npimport pandas as pd df1 = pd.DataFrame({'data1': np.arange(7), 'name': list('bbbaacd')})df1 dat...

2019-09-07 20:36:13 969

原创 python小知识

1.python命名空间可作用域变量是拥有匹配对象的名字（标识符）。命名空间是一个包含了变量名称们（键）和它们各自相应的对象们（值）的字典。一个Python表达式可以访问局部命名空间和全局命名空间里的变量。如果一个局部变量和一个全局变量重名，则局部变量会覆盖全局变量。每个函数都有自己的命名空间。类的方法的作用域规则和通常函数的一样。Python会智能地猜测一个变量是局部的还是全局的...

2019-02-28 15:47:36 934

没有继承的情况@Data@Builderpublic class Student { private String schoolName; private String grade; public static void main(String[] args) { Student student = Student.builder().schoolName("清华附小").grade("二年级").build(); // Student

2021-05-05 16:38:53 442

原创在anocoda环境下python打包成exe

最近用pyinstaller打包的时候一直报“failed to execute script main”。最终使用“pyinstaller --hidden-import=pkg_resources -F main.py</strong>” 顺利打包。注意：语句中的“-F”一定要大写

2020-10-27 20:42:27 342

原创 pytest与unittest区别

一、用例编写规则 1.unittest提供了test cases、test suites、test fixtures、test runner相关的类,让测试更加明确、方便、可控。使用unittest编写用例,必须遵守以下规则:　　（1）测试文件必须先import unittest　　（2）测试类必须继承unittest.TestCase　　（3）测试方法必须以“test_”开头　　（4）测试类必须要有unittest.main()方法　2.pytest是python的第三方测...

2020-08-01 22:23:54 778

原创接口自动化测试（python+unittest+request）

1、为什么要写代码实现接口自动化大家知道很多接口测试工具可以实现对接口的测试，如postman、jmeter、fiddler等等，而且使用方便，那么为什么还要写代码实现接口自动化呢？工具虽然方便，但也不足之处：测试数据不可控制接口测试本质是对数据的测试，调用接口，输入一些数据，随后，接口返回一些数据。验证接口返回数据的正确性。在用工具运行测试用例之前不得不手动向数据库中插入测试数据。这样我们的接口测试是不是就没有那么“自动化了”。无法测试加密接口这是接口测试工具的一大硬伤，如我们前面开发

2020-08-01 18:26:52 699

原创 python并行编程 - 分布式篇

简述分布式计算的基本理念是将工作划分为一个一个小任务，分发给多台设备处理，再汇总结果。在分布式计算中，网络中的机器必须要保持可用（延迟误差、意外宕机等等），需要一个持续监控架构分布式多进程2multiprocessing的子模块managers还支持把多进程分布在多台机器上，managers模块已经封装好了网络通信的细节实现方法：我们可以使用managers模块将queue队列通过网络暴露出去，让其它机器访问到这个队列，然后就可以通过它实现数据交换示例：服务器通过暴露queue到网络，放.

2020-07-09 19:15:34 688

原创 python实现真正的多线程

Python代码中有一个threading模块，可以创建多线程，但是在这种模式下创建的多线程并不能将多核利用起来，所有由这种模式下创建的线程最多只能共享一个CPU核，所以在有些场景下，需要将一个作业分配给一个独立的线程，并且每个独立的线程可以使用不同的CPU核资源，做到真正的并发执行。如何实现呢？这里有两个办法一.通过调用C函数库C库函数#include <stdio.h>#include <stdlib.h>#include <pthread.h>

2020-06-16 23:26:00 5577 3

原创 redis 高并发处理方式

redis的高并发处理方式其实redis是不会存在并发问题的，因为他是单进程的，再多的命令都是一个接一个地执行的。我们使用的时候，可能会出现并发问题，比如获得和设定这一对。Redis的为什么有高并发问题？Redis的的出身决定Redis是一种单线程机制的nosql数据库，基于key-value，数据可持久化落盘。由于单线程所以redis本身并没有锁的概念，多个客户端连接并不存在竞争关系，但是利用jedis等客户端对redis进行并发访问时会出现问题。发生连接超时、数据转换错误、阻塞、客户端关闭连接等

2020-06-15 15:06:56 938

原创回溯法python（迷宫模板）和01背包问题

题目：一个 N × M的二维数组 maze 表示一个迷宫，其中的1表示墙壁，0表示可以走，只能横着走或竖着走，不能斜着走，找出从左上角到右下角的最短路线。入口点为[0,0]，既第一空格是可以走的。回溯法：# 走迷宫def move(i, j): global path # 当前点变为1，表示已经走过，避免循环绕圈走不出去 maze[i][j] = 1...

2020-03-26 16:59:42 504

原创 RabbitMQ（复杂模式）

参考：https://blog.csdn.net/hellozpc/article/details/81436980一.work 模式注册两个Receiver:package com.zpc.rabbitmq;import org.springframework.amqp.rabbit.annotation.RabbitHandler;import org.springframew...

2020-03-19 20:13:32 249

原创 Springboost 集成RabbitMQ（一般队列）

一.简单队列1、配置pom文件，主要是添加spring-boot-starter-amqp的支持<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-amqp</artifactId><...

2020-03-19 19:52:56 336

原创 java spring注意事项

1.component 注解一定要写在接口的实现类

2020-03-19 14:58:34 147

原创 mysql存储引擎的选择

（转自简书）一.存储引擎是什么数据库存储引擎是数据库底层软件组织，数据库管理系统（DBMS）使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能，使用不同的存储引擎，还可以获得特定的功能。现在许多不同的数据库管理系统都支持多种不同的数据引擎。MySQL的核心就是存储引擎。二.存储引擎查看查看引擎：SHOW ENGINES如果要...

2020-03-18 21:05:20 221

原创 python优化策略

（知乎上看到的）作者：郑正链接：https://www.zhihu.com/question/30848372/answer/113279050来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。　1、优化算法时间　　算法的时间复杂度对程序的执行效率影响最大，在Python中可以通过选择合适的数据结构来优化时间复杂度，如list和set查找某一个元素...

2020-03-18 16:44:08 403

原创 hive调优的方法（总结实战篇）

说明：本文参考尚硅谷hive教材1.Fetch 抓取Fetch 抓取是指， Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下， Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch...

2020-03-08 01:21:33 1164

原创 hive小知识（牢记）

1.EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）， Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。2.STORED AS 指定存储文件类型常用的存储文件类型： SEQUENC...

2020-03-08 00:20:28 296

原创电影《误杀》的数据可视化分析

一.抓数据（豆瓣）处理数据见github二.数据可视化import pandas as pdimport numpy as npfrom pyecharts import options as optsfrom pyecharts.charts import Pie, Page,Geofrom pyecharts.charts import Linefrom pyechar...

2020-02-29 22:48:34 1046 1

原创 sql优化技巧

1.比较运算符能用‘=’就不用‘<>’“=”增加了索引的使用几率2.事先知道只有一条查询结果时，使用‘limit 1’“LIMIT 1”可以避免全表扫描，找到对应结果就不会再继续扫描了3. 选择合适的数据类型很重要能用TINYINT就不用SMALLINT，能用SMALLINT就不用INT，磁盘和内存消耗越小越好4.大的delete，update or inser...

2020-02-27 16:38:16 299

原创 Java的思考（附链接）

1.Java中equals（）和==的区别equals是判断两个变量或者实例指向同一个内存空间的值是不是相同而==是判断两个变量或者实例是不是指向同一个内存空间举个通俗的例子来说，==是判断两个人是不是住在同一个地址，而equals是判断同一个地址里住的人是不是同一个2.Java中equals()和HashCode()的关系equals(): 用来判断两个对象是否相同，再Obj...

2020-02-21 16:33:47 171

原创数据与算法笔记

1.快速排序def quick_sort(lists,i,j): if i >= j: return list pivot = lists[i] low = i high = j while i < j: while i < j and lists[j] >= pivot: ...

2020-02-20 20:11:15 203

原创 hive：常见错误和解决方案

1.连接不上 mysql 数据库(1)导错驱动包，应该把 mysql-connector-java-5.1.27-bin.jar 导入/opt/module/hive/lib 的不是这个包。错把 mysql-connector-java-5.1.27.tar.gz 导入 hive/lib 包下。(2)修改 user 表中的主机名称没有都修改为%，而是修改为 localhost2.不能...

2020-02-13 17:47:47 649

原创 hive:空key转换

有时虽然某个 key 为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join 的结果中，此时我们可以表 a 中 key 为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的 reducer 上。实例：不随机分布空 null 值：（1）设置 5 个 reduce 个数set mapreduce.job.reduces = 5;（2） JOIN 两张表insert...

2020-02-11 22:25:57 674 1

转载 python:colletion模块

这个模块实现了特定目标的容器，以提供Python标准内建容器 dict、list、set、tuple 的替代选择。Counter：字典的子类，提供了可哈希对象的计数功能 defaultdict：字典的子类，提供了一个工厂函数，为字典查询提供了默认值 OrderedDict：字典的子类，保留了他们被添加的顺序 namedtuple：创建命名元组子类的工厂函数 deque：类似列表容器，...

2020-02-09 19:45:12 440

原创 hive使用注意事项

1.Hadoop 和 Hive 都是用 UTF-8 编码的，所以, 所有中文必须是 UTF-8 编码, 才能正常使用备注：中文数据 load 到表里面, 如果字符集不同，很有可能全是乱码需要做转码的, 但是 hive 本身没有函数来做这个2.hive.exec.compress.output 这个参数, 默认是 false，但是很多时候貌似要单独显式设置一遍否则会对结果做压缩的，如果你的这个...

2020-01-02 16:30:34 582

原创 NLP:Scikit-learn的Feature extraction文本特征提取的两种方式

本文参考来源：https://blog.csdn.net/pipisorry/article/details/419577631.文本特征提取的原理（1）词袋（Bag of Words）表征文本分析是机器学习算法的主要应用领域。但是，文本分析的原始数据无法直接丢给算法，这些原始数据是一组符号，因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题，sciki...

2019-12-19 14:15:37 754

原创 NLP:用word2vec分析文本相似度

一.中文语料库中文语料库主要有以下几种：1. 腾讯AI Lab2018年分享的开源800万中文词的NLP数据集文章https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247506252&idx=4&sn=1f883532975737c9df02212fc2ae1ca5&chksm=e8d06e3edf...

2019-12-18 15:25:03 4736 7

转载 python模块之codecs: 自然语言编码转换

python对多国语言的处理是支持的很好的，它可以处理现在任意编码的字符，这里深入的研究一下python对多种不同语言的处理。有一点需要清楚的是，当python要做编码转换的时候，会借助于内部的编码，转换过程是这样的：原有编码 -> 内部编码 -> 目的编码python的内部是使用unicode来处理的，但是unicode的使用需要考虑的是它的编码...

2019-12-18 12:44:10 203

原创 NLP关键词提取:TF/IDF、TextRank、LSI和LDA分析

一.原理部分1.TF/IDF原理https://blog.csdn.net/asialee_bird/article/details/814867002.TextRank原理https://blog.csdn.net/qq_41664845/article/details/828695963.LSI原理https://blog.csdn.net/qq_16633405/ar...

2019-12-15 15:45:58 1423 1

原创 NLP：高频词提取

import globimport jiebadef get_content(path): with open(path,'r',encoding='gbk',errors='ignore') as f: content='' for l in f: l=l.strip() content+=l ...

2019-12-13 14:22:19 1298

原创用tensorflow的mnist做图像分类

1.mnist.pyimport mathimport tensorflow as tf# MNIST 有10个类NUM_CLASSES = 10# MNIST 图像都是 28x28 展开成784维的特征向量IMAGE_SIZE = 28IMAGE_PIXELS = IMAGE_SIZE * IMAGE_SIZEbatch_size = 50 #hidden1_unit...

2019-12-09 19:00:59 313

转载用tensorflow做一元线性回归

import numpy as npimport matplotlib.pyplot as pltimport osimport tensorflow as tfos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'# 产生训练数据集train_X = np.asarray([3.3,4.4,5.5,6.71,6.93,4.168,9.779,6.182,...

2019-12-06 15:48:07 208

原创用tensorflow测试最近邻分类算法

import numpy as npimport osimport tensorflow as tfos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'# 导入MNIST数据集from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_set...

2019-12-06 14:45:50 166

原创 hadoop笔记

import pandas as pdimport xgboost as xgbfrom sklearn import preprocessing train = pd.read_csv(r'D:\ML\train.csv')tests = pd.read_csv(r'D:\ML\test.csv') #把时间转化为日期，再转化为多个时间特征train['time_stamp...

2019-11-18 17:43:09 162

原创 Python3 安装cx_Oracle 指导手册

1.工具安装清单编号安装包说明 1 vcredist_x64.exe Microsoft Visual C++2005 SP1 redistributable Package(x64) 补丁文件，如以安装则不需要。 2 oracle_...

2019-11-10 16:25:49 1051 1

原创 python远程安置和启动多服务器程序

import paramikoimport xlrdimport pexpectimport osdef read_Ipconf_data(): ''' 从excel文件总取出需要的数据 :param excel_path: excel文件路径 :return: [[], [], []] ''' excel_file = "Ip_conf...

2019-11-09 15:08:45 211

原创 Python第三方库离线安装包制作

1.清理python环境：使用pip list命令查看已安装的包;如果有其它的包，则使用pip uninstall [包名]进行删除;2.在线安装第三方库使用pip install [包名]安装第三方库;3.导出安装依赖到txt执行pip freeze > requirement.txt命令导出依赖关系;4.在线下载安装文件执行pip down...

2019-11-05 19:08:35 1177

原创 python 正则表达式传变量的方法

正则表达写法：re.compile(r’表达式’)包含变量的正则表达式写法re.compile(r’表达式’+变量+’表达式’)re.compile(r’表达式(%s)表达式’ %变量)示例代码：url = "oreilly.com"regex3 = re.compile(r"^((/|.)*(%s))" %url)regex4 = re.compile(r"^((/...

2019-11-04 14:09:11 1838

原创 python读取word 中指定位置的表格

1.Word文档如下：2.代码# -*- coding: UTF-8 -*-from docx import Documentdef readSpecTable(filename, specText): document = Document(filename) paragraphs = document.paragraphs allTables = d...

2019-10-22 20:13:58 3874 3

原创机器学习音乐情感识别（matlab）

% 作者: dongyang% 说明：本示例用以说明matlab的回归分析。matlab中的回归分析都在统计和机器学习工具箱里，和模式分类一样：% 回归有单因变量回归分析（univariate）和多因变量回归分析（multivariate）。这里只讨论univariate回归分析% Matlab中的回归分析可以分为线性，广义线性，非线性等三大类。每一类的结果评估都会有所不同。% 线...

2019-10-21 19:41:53 2341

matlab学习资料

小球圆周运动

空空如也