photographyCat-CSDN博客

原创 Anaconda安装后设置PATH

【代码】Anaconda安装后设置PATH。

2023-05-22 15:09:00 633

1.为了跑代码，环境配置太烦，我需要将服务器的环境克隆下来，在另外一台服务器装，参考网上的方式，出现很多错误，一脸懵逼，后来总结原因，是因为自己源服务器虚拟环境太多了，导致不知道克隆哪个，所以，在克隆时候，最好参数详细点，指定好克隆的环境2. 操作开始2.1 将服务器A的环境进行打包，如：我有三个虚拟环境，克隆其中的cmd # -n 后面的参数是服务器A要克隆的环境名称 conda env export -n cmd > environment.yaml2.2 将克隆的环境放到

2022-04-02 14:13:59 1991

原创字典条件删除

我有一本字典，其中键是字符串，值是字符串列表。下面是我正在使用的一个大得多的字典的示例。我遇到的一个问题是，键有时出现在值中（即，键“25-3”包含“25-3”，我想删除它）cat_map = {'11-1': ['41-4', '43-1', '11-2', '43-6'], '11-2': ['41-4', '43-1', '11-2', '43-6'], '11-3': [], '11-9': [], '13-1': [], '13-2': [], '15-1': [], '15-2'

2022-01-18 10:52:53 212

原创 python编码类型互转总结

只有在unicode下才能将utf-8与gbk互转unicode是在内存中使用，bytes是文件存储和网络传输时使用py3和py2对比py3时：a=“中国” 和a=u"中国" 是一个意思，都表示str类型unicode存储类型，即默认是unicode存储类型c=b"中国" 表示str类型bytes存储类型py2时：a=“中国” 和a=b"中国" 是一个意思，表示str类型bytes存储类型，即默认是bytes存储类型a=u"中国" 表示str类型unicode存储类型转换..

2021-12-01 18:49:52 695

原创多进程写入数据问题

#Pool方法from multiprocessing import Process, Queue, Poolimport os, time, randomimport pandas as pddef write(q): fict = {'name': '213', 'age': 2, 'gender': '213'} return ficdef mycallback(res): #callback函数里，拿到全局变量才行 global data dat

2021-09-16 16:37:21 145

原创机器学习基础 - 偏度、正态化以及 Box-Cox 变换

1 引言对于数据挖掘、机器学习中的很多算法，往往会假设变量服从正态分布。例如，在许多统计技术中，假定误差是正态分布的。这个假设使得能够构建置信区间并进行假设检验。因此，在数据预处理阶段会查看目标变量以及各个特征是否服从或接近正态分布，如果偏离就通过一定变换将该数据的分布正态化。一般来说，数据的直方图如果单峰并近似正态但看上去又有些扭曲，可以考虑正态化。比如整体看上去还是一个山峰，但可能峰顶很尖或者整座山往左/往右倾斜了。这些现象如何用数字量化呢？偏度（skewness）和峰度（Kurtosis）就是两个

2021-05-31 18:04:01 3738 1

原创梯度下降法及其实现

梯度梯度实际上就是多变量微分的一般化。下面这个例子：我们可以看到，梯度就是分别对每个变量进行微分，然后用逗号分割开，梯度是用<>包括起来，说明梯度其实一个向量。梯度是微积分中一个很重要的概念，之前提到过梯度的意义在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向这也就说明了为什么我们需要千方百计的求取梯度！我们需要到达山底，就需要在每一步观测到此时最陡峭的地方，梯

2021-03-02 22:13:16 542

原创百度信用爬取的一点总结

详细过程模型主要分为3个步骤：1、IP池的定期维护2、企业信用代码爬取转换为接口唯一ID标识（不需要定时执行，一次即可）3、根据接口ID爬取具体数据（定期爬取）1 代理池文件：proxyPool.py该代码为Github上的开源代码，定时爬取以下几个网址的免费代理IP，并放入Redis库，之所以用Redis是因为IP池里的IP需要频繁读写和维护，Redis作为NOSQL数据库，响应速度较快，且可移植性较高2 过程中遇到的问题总结第一版代码并未加入多进程，爬取速度较慢，但加入多进程之后带

2020-08-18 14:45:41 203

原创 Docker简介以及和虚拟机的对比

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。其中，沙箱是一个虚拟系统程序，允许你在沙盘环境中运行浏览器或其他程序，因此运行所产生的变化可以随后删除。它创造了一个类似沙盒的独立作业环境，在其内部运行的程序并不能对硬盘产生永久性的影响。在网络安全中，沙箱指在隔离环境中，用以测试不受信任的文件或应用程序等行为的工具。直接部署应用程序

2020-06-30 16:51:52 510

原创 Python值传递引用传递和深浅拷贝总结

知识点首先，我们需要知道，Python中的变量类型是分为可变类型和不可变类型可变类型：列表、字典、集合不可变类型：数字、字符串、元组碰到不可变类型，会在函数内部新开辟一个内存存放变量，修改的结果不会影响函数外面。如果要修改外部变量，则需要return或者使用globaldef func(a): print('--func----') a = a + 1 print(id(a))a = 10print(id(a))drawPic(a)print(a)输出：15

2020-06-18 17:46:39 337

原创 XGBoost的一点小笔记

在说明XGboost之前，需要先了解一下几个知识点CART树CART与ID3和C4.5相同都由特征选择，树的生成，剪枝组成。但ID3和C4.5用于分类，CART可用于分类与回归。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布，与ID3和C4.5的决策树所不同的是，ID3和C4.5生成的决策树可以是多叉的，每个节点下的叉树由该节点特征的取值种类而定，比如特征年龄分为（青年，中年，老年），那么改节点下可分为3叉。而CART为假设决策树为二叉树，内部结点特征取值为”是”和”否”。左分支取值

2020-06-11 16:30:06 249

原创决策树算法计算过程举例

一、ID3算法“信息熵”是度量样本集合不确定度（纯度）的最常用的指标。在我们的ID3算法中，我们采取信息增益这个量来作为纯度的度量。我们选取使得信息增益最大的特征进行分裂！信息熵是代表随机变量的复杂度（不确定度），条件熵代表在某一个条件下，随机变量的复杂度（不确定度）。而我们的信息增益恰好是：信息熵-条件熵。•当前样本集合 D 中第 k 类样本所占的比例为 pk ，则 D 的信息熵定义为•离散属性 a 有 V 个可能的取值 {a1,a2,…,aV}；样本集合中，属性 a 上取值为 av 的样本集

2020-05-11 14:40:33 9806

原创混淆矩阵、ROC曲线，AUC值，K-S曲线

数据分析与挖掘体系位置混淆矩阵是评判模型结果的指标，属于模型评估的一部分。此外，混淆矩阵多用于判断分类器（Classifier）的优劣，适用于分类型的数据模型，如分类树（Classification Tree）、逻辑回归（Logistic Regression）、线性判别分析（Linear Discriminant Analysis）等方法。在分类型模型评判的指标中，常见的方法有如下四种：...

2020-04-08 17:49:09 1152

原创 pyecharts更新版本之后的问题

大概很久没用过pyecharts，按照以前的方法写程序时，总是报错，后来发现是新版本的语法不一样了from pyecharts import Scatter,Line,Page比如这个会报错，Line无法导入还有添加数据，保存图片的方法都和以前不一样了解决方法一，换回以前版本：输入命令：pip install wheel然后在输入：pip install pyecharts==0...

2020-03-09 18:20:39 2089

原创 fbprophet安装步骤（centOS）

史上最难装的库。。。最后成解决办法是，在anaconda建立一个新的环境，这样比较好安装1、首先在所在系统中安装Anaconda。可以打开命令行输入conda -V检验是否安装以及当前conda的版本。2、conda常用的命令。 1）conda list 查看安装了哪些包。 2）conda env list 或 conda info -e 查看当前存在哪些虚拟环境 ...

2020-03-05 20:28:23 2819 1

原创 Python多进程中的文件写入问题

因项目数据量庞大需要使用多进程的方法计算数据（计算密集型）在写完代码之后，发现如果按照如下写法，则并不会并发执行，而是执行完一个接着执行第二个 print('Parent process %s.' % os.getpid()) p = Pool(5) for i in range(0, len(dataB), int(len(dataB) / 5)): d...

2020-02-11 19:08:23 3274 1

原创关于Python值传递和引用传递的坑

在编写熵值法代码的时候，发现代码算出的结果和EXCEL手动计算的结果存在细微差异，排查了很久，终于发现问题def Entropy (data): df3 = data df4 = data for index, row in data.iteritems(): indexSum = data[index].sum() for i in r...

2020-01-14 15:35:35 526

原创推荐中相似度计算问题（选择与总结）

《Dataminingguide》书阅读，第二章推荐系统入门1、曼哈顿距离最简单的距离计算方式。在二维计算模型中，每个人都可以用（X，Y）的点来表示。例如（X1，Y1）来表示艾米，（X2，Y2）来表示另一位人，那么他们之间的曼哈顿距离就是：|X1-X2|+|Y1-Y2|也就是x之差的绝对值加上y之差的绝对值。曼哈顿距离的优点之一就是计算速度快，对于Facebook这样需要计算百万用户...

2019-12-20 09:30:28 967

原创 SVD（奇异值分解）

1、特征值分解（EVD）实对称矩阵在理角奇异值分解之前，需要先回顾一下特征值分解，如果矩阵A是一个m×m的实对称矩阵（即A=AT），那么它可以被分解成如下的形式其中Q为标准正交阵，即有QQT=I，Σ为对角矩阵，且上面的矩阵的维度均为m×m。λi 称为特征值，qi 是Q（特征矩阵）中的列向量，称为特征向量。注：I在这里表示单位阵，有时候也用E表示单位阵。式（1-1）的具体求解过程就...

2019-12-11 20:38:25 213

转载特征值和特征向量的作用

本文转自知乎大牛。从定义出发，Ax=cx：A为矩阵，c为特征值，x为特征向量。矩阵A乘以x表示，对向量x进行一次转换（旋转或拉伸）（是一种线性转换），而该转换的效果为常数c乘以向量x（即只进行拉伸）。我们通常求特征值和特征向量即为求出该矩阵能使哪些向量（当然是特征向量）只发生拉伸，使其发生拉伸的程度如何（特征值大小）。这样做的意义在于，看清一个矩阵在那些方面能产生最大的效果（power），并...

2019-12-11 20:06:20 1384

原创熵值法的Python实现

一、基本原理在信息论中，熵是对不确定性的一种度量。信息量越大，不确定性就越小，熵也就越小；信息量越小，不确定性越大，熵也越大。根据熵的特性，可以通过计算熵值来判断一个事件的随机性及无序程度，也可以用熵值来判断某个指标的离散程度，指标的离散程度越大，该指标对综合评价的影响（权重）越大，其熵值越小。二、熵值法步骤选取n个国家，m个指标，则为第i个国家的第j个指标的数值（i=1, 2…,...

2019-12-06 17:02:30 3585

原创 EXCEL数据插入hivev表格

步骤一：将excel另存为txt文档（文本文件（制表符分割））假设名字为BASIC_SP_ACCOUNT.txt步骤二，将该txt文件导入Linux指定目录中步骤三，转换编码格式，在指定目录下执行如下命令：piconv -f gb2312 -t UTF-8 BASIC_SP_ACCOUNT.txt > BASIC_SP_ACCOUNT_2.txt步骤四，根据文档中的列，创建表，...

2019-11-06 17:39:10 675

原创机器学习-正规方程

吴恩达机器学习笔记系列一、什么是正规方程梯度下降法计算参数最优解，过程是对代价函数的每个参数求偏导，通过迭代算法一步步更新，直到收敛到全局最小值，从而得到最优参数。正规方程是一次性求得最优解。思想：对于一个简单函数，对参数求导，将其值置为0，就得到参数的值。像下面这样：现实例子有很多参数，我们要对这些参数都求偏导数，得到各个参数的最优解，也就是全局最优解。但是困难在于，这样做非常浪费时...

2019-10-31 16:36:27 877

转载 Mysql case when 实现行转列时为什么要用max()或者其他聚合函数

原文链接：https://blog.csdn.net/u014180504/article/details/79150492总结：分组函数一定和聚合函数一同存在！！！！！！！！！原始数据不加max进行case when加max:很明显两次结果不同，不加max结果不对，熟悉分组聚合的同学应该一下就明白了这里还是进行下说明为什么要加max,这里直接采用这位网友的答案：...

2019-10-15 15:16:17 581

原创 Hive表导出成csv文件

hive -e "set hive.cli.print.header=true; select * from userdb.employees2" | sed 's/[\t]/,/g' > hhd.csvset hive.cli.print.header=true能将表头输出；sed ‘s/[\t]/,/g’ 将\t替换成,将shell里打印的内容输出到文件...

2019-10-11 17:15:28 1883 1

原创 Hive中如何复制一张分区表（包括数据）

Hive中有时候会遇到复制表的需求，复制表指的是复制表结构和数据。如果是针对非分区表，那很简单，可以使用CREATE TABLE new_table AS SELECT * FROM old_table;那么如果是分区表呢？首先想到的办法可能是：先创建一张和old_table结构相同的new_table，包括分区；可以使用CREATE TABLE new_table LIKE old_...

2019-10-10 16:46:56 2371

原创 hive 导出数据

hive的数据导出方式hive有三种导出数据的方式导出数据到本地导出数据到hdfs导出数据到另一个表导出数据到本地文件系统insert overwrite local directory '[desFile]' select * from [srcFile]; 例： insert overwrite local directory '/home/wyp/wyp' selec...

2019-10-08 17:18:47 206

原创概率和统计学基础

2019-09-30 16:17:51 345

原创 HIVE笔记——创建表并从本地添加数据

1. 默认分隔符的建表语句#隐式的限定符语句：CREATE TABLE employees (name STRING,salary FLOAT,subordinates ARRAY<STRING>,deductions MAP<STRING, FLOAT>,address STRUCT<street:STRING, city:STRING,state:S...

2019-09-26 17:05:47 945

转载 Struts2中在Action里面向前端页面传值的方法总结

由于在Action中并不能直接诶访问Servlet API，但它提供了相关类ActionContext来访问HttpServletRequest、HttpSession和ServletContext，所以在向前端页面传值的方法就出现了多样化。一般我们经常使用的就是通过request、session来传值，至于Application范围这一级别的基本上用的少。首先如果变量是Action的全局变量...

2019-08-27 19:22:36 516

原创 ssh学习之hibernate笔记

hibernate总结crm系统：客户关系管理系统。crm系统技术架构：采用b/s模式，基于javaEE三层标准架构，表示层（web层）、业务层、持久层技术层技术方案：使用hibernate实现数据访问接口，采用dao模式开发数据访问接口，dao包括：dao接口和pojo类。hibernate：是orm框架，orm即对象关系映射。hibernate完成java类和表的映射之后，自动实现...

2019-08-23 16:36:23 119

原创 npm和yarn的区别

yarn和npm对比git clone xxxnpm installnpm run devgit clone xxxyarnyarn startYarn的优点速度快。速度快主要来自以下两个方面：并行安装：无论 npm 还是 Yarn 在执行包的安装时，都会执行一系列任务。npm 是按照队列执行每个 package，也就是说必须要等到当前 package 安装完成之后...

2019-08-14 16:15:06 372

原创 Linux安装python环境&批量安装依赖包

1.下载PythonLinux 版的 Python 通常以源码编译的方式安装，到 Python 官网下载 Python3。Python3 官网下载地址: https://www.python.org/downloads/source/如下图:获取到下载链接后，直接使用 curl 命令下载即可:sudo curl -O https://www.python.org/ftp/python...

2019-08-13 09:25:31 6216

原创在IntelliJ IDEA使用.gitignore插件的方法和作用

在IDEA工具中使用Git提交代码时，往往会把本地一些不必要的文件提交到服务器上去，如：.idea,pom.xml等一些本地配置文件提交到服务器，其中.idea文件中包含自己本地项目的Git提交地址和密码等信息；这些东西提交到服务器上时，别人更新下来时，会造成诸多不便，因此通过在IDEA中配置.gitignore文件来忽略提交这些文件，就可以很好的解决这一问题和麻烦！1.安装.gitignore...

2019-08-09 16:19:07 807

原创 Linux安装MySQL

本次安装的是mysql-5.7.27-1.el6.x86_64.rpm-bundle.tar官方下载地址：wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.20-1.el6.x86_64.rpm-bundle.tar解压tar -xvf mysql-5.7.20-1.el6.x86_64.rpm-bund...

2019-08-09 12:46:04 197

原创 Zookeeper笔记

Zookeeper为分布式程序提供协调服务，作为第三方管理一些共享数据最主要的功能：保管客户端提交的数据（极其少量的数据），每一份数据在zookeeper叫做一个znode配置Zookeeper1.上传zk安装包2.解压3.配置（先在一台节点上配置） 3.1添加一个zoo.cfg配置文件 $ZOOKEEPER/conf mv zoo_sample.cfg zoo.cfg...

2019-08-08 15:04:56 147 1

原创大数据生态圈之MapReduce笔记

Map/**mapper阶段业务逻辑实现的类Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>*/public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ /* KEYIN：表示mapper数据输入的时候ke...

2019-07-29 20:24:51 167 1

原创 SpringBoot&swagger

@Api：用在请求的类上，表示对类的说明 tags="说明该类的作用，可以在UI界面上看到的注解" value="该参数没什么意义，在UI界面上也看到，所以不需要配置" @ApiOperation：用在请求的方法上，说明方法的用途、作用 value="说明方法的用途、作用" notes="方法的备注说明" @ApiImplicitParams：用在请求的方法...

2019-07-10 14:15:10 623 1

转载 java 后台开发中model与entity（实体类）的区别

以前写项目，都是先快速创建entity、dao、service再说，其他的包一般都是根据不同的框架来创建不同功能的包。比如用struts框架创建一个action包，用servlet就创建一个servlet包，用jersey框架就创建一个resource包。但是最近看了一个国外的开源项目源代码，有一个包叫domain，打开一看里面就是存的实体类，功能和我们平时用的entity是一样的，那为什么要用d...

2019-07-10 11:39:55 2763