sd116460-CSDN博客

原创 A/B测试

A/B测试A/B测试是促进业务持续增长的最实用，最有效的方式产生迭代想法->论证迭代想法（A/B测试）->实施迭代想法A/B测试可以解决那些常见的业务问题：产品迭代：改变用户的交互界面来提升用户体验，优化新用户的注册流程来提高转化率，确定产品优惠券的最有价值，增加产品功能来提升用户留存算法优化：通过提高推荐系统算法的准确度来提高用户粘性，通过提高搜索排名算法的准确度来提升结果的点击率，通过提高广告显示算法的精确度来提升广告的点击率市场营销：确定最优的营销内容，确定最优的营销时

2021-02-19 15:31:21 554

原创 python链接kafka

python链接kafka，向本地写入数据这是一个简单的demo，学习kafka的一小步，同理可用到向数据库的数据读写，还有数据分析伪流式数据读取，用生产者来读取指定位置的数据，消费者进行数据的处理from kafka import KafkaProducer,KafkaConsumerimport jsonimport datetimeimport time# 生产者存储json数据producer = KafkaProducer( value_seria

2021-01-25 18:05:36 300

原创数据分析：数据量级不平衡的数据进行处理

对于不平衡数据（事件）的balance处理对小概率事件进行预测（判断）的时候，一定要对数据做balance处理，不然会使得模型天然的倾向于大概率的结果。处理方式：1.上采样少数类别：上采样是从少数类别中随机扶着观测样本以增强其信号的过程，最常见的集中试探法是使用简单的放回抽样的方式重采样，从sklearn中导入重采样模块这种处理方式会导致准确率急转而下，但是性能指标更有意义2.下采样多数类别：下采样包括从多数类别中随机的一处观测样本，防止他的信息主导学习算法，其中最常见...

2020-12-17 15:42:03 1299

原创 python操作clickhouse 删除指定数据

python操作clickhouse删除指定数据def info_del2(i): client = click_client(host='地址', port=端口, user='用户名', password='密码', database='数据库') sql_detail='alter table SS_GOODS_ORDER_ALL delete where order_id='+str(i)+';' try:

2020-12-17 11:01:52 1060

原创 linux复制文件至本地

命令如下：scp 服务器用户名@ip地址:文件绝对路径__本地文件绝对路径这里的__横线指的是空格有一个坑。。。在你执行这条命令时，必须是在本地的一个终端执行的，而不是在已经登陆的服务器终端执行的，之前在服务器执行这条命令，一直提示找不到对应路径。。。找到原因后差点笑死，因为在服务器执行就代表了把服务器的文件下载到服务器，因为这里的本地指的是登录的终端的地址...

2020-10-14 16:24:09 1937

原创 python 数组内字符串转数字

row='1,2,3.0,nan'#字符串转数组，并去除特殊符号，去掉.0转为格式上的整数list(row.replace('nan','0').replace('.0','').split(','))['1', '2', '3','0']#将格式上的整数，转换为类型上的整数list(map(int,list(row.replace('nan','0').replace('.0','').split(',')) ))[1, 2, 3]方法：list(map(int,st.

2020-09-24 15:07:20 4914

原创 python上传文件至指定服务器

import paramiko#创建ssh对象ssh = paramiko.SSHClient()#ssh.load_host_keys("C:/Users/Administrator/.ssh/known_hosts")#允许连接不在know_hosts文件的主机上ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())filename = ['artist_followby_user.tsv','artist.tsv','acti.

2020-09-21 14:46:54 4925 2

原创 pandas展示所有列

pandas在进行数据展示时，优势因为列数过多，会将中间的列压缩为省略号。添加语句：pd.set_option('display.max_columns', None)可以展示所有数据

2020-09-21 14:44:00 1602

原创 python X[；,0],X[:,1:]的含义

X=result[:,1:]表示：x是result中取下标（字段下标）从1到全部的数据列X[:,0]表示;xx是result中取下标（字段下标）为0的数据列

2020-09-02 18:31:15 1047

原创多项式贝叶斯分类算法

# 中文文本分类import osimport jiebaimport warningsfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.naive_bayes import MultinomialNBfrom sklearn import metricswarnings.filterwarnings('ignore')def cut_words(file_path): """ .

2020-09-02 18:09:21 630

原创 python操作es进行数据的查找，删除

python操作ES的基础都依赖于python的from elasticsearch import Elasticsearch 包from elasticsearch import Elasticsearchimport jsonimport pandas as pdimport rees = Elasticsearch(hosts="xxxxx", port=xxxx)if __name__ == '__main__': query = {'query': {'matc

2020-08-19 11:37:24 1324

原创使用pandas计算分组前十名并排序

result.loc[:,'count_sub']=result['last_week_count']-result['llast_week_count'] print(result.head()) result.sort_values(['artist_third_id','count_sub'],ascending=False,inplace=True) #按照评论增长数排序 result=result.groupby('artist_third_id').head(1...

2020-08-10 14:38:32 6358

原创 python数据处理/包含字典的数组

从mongo提取数据的时候，遇到了一类让人有点头疼的数据，数据类型是一个数组，数组内包含的是字典，大致如下：在处理的过程中想了半天办法，也学了不少东西：先说说怎么处理这类数据，再来说我中间用到的几种新的方法，虽然没有起到特别大的作用，但是学到了不少新东西。解决办法算是用了比较暴力的方法：使用mongo的aggregate方法筛选数据，这里的col是我已经创建好了的一个指定mongo的表pipline = [ {'$match': {"$and": [{"crawl_time":

2020-08-04 10:38:57 2762 1

原创 python 链接ES(elasticsearch)

python链接ES进行数据操作首先需要安装ES相关的python包pip install elasticsearch安装完成后开始进行链接操作：代码如下：from elasticsearch import Elasticsearch# es = Elasticsearch() # 默认连接本地elasticsearch# es = Elasticsearch(['xxx.xx.xx.xx:9200']) # 连接指定9200端口es = Elasticsearch.

2020-07-23 10:25:25 3923

原创 python 执行定时脚本

from apscheduler.schedulers.background import BackgroundSchedulerimport osimport timeimport datetimedef task_list_info(): """ :return: """ # 你的脚本存储位置 os.system('python /home/...........')if __name__ == "__main__": sch...

2020-07-17 18:18:39 1099

原创基于密钥登录的sftp数据传输python脚本

# daily_learn_note#### 介绍日常学习总结####sftp使用密钥进行文件传输import datetimeimport paramiko# 该包需要安装my_key = paramiko.RSAKey.from_private_key_file('密钥存储位置')transport = paramiko.Transport(('地址',端口号))transport.connect(username='账户名',pkey=my_key)s...

2020-06-11 10:45:42 998

原创 mysql特殊语法

#增加自增长主键alter table table_name add COLUMN id bigint not NULL primary key auto_increment;#去表内的空格和换行符号UPDATE table_nameSET id_type = REPLACE(REPLACE(id_type,char(10), ''), char(13), '');#去...

2019-11-26 18:22:08 314

原创使用python发送邮件

import smtplibfrom email.mime.text import MIMETextfrom email.header import Header# 发件人邮箱账号sender = '发件人'# 收件人可多人receiver = ['收件人']ccreceiver = ['抄送者']# 标题subject = '标题'smtpserver = ...

2019-11-26 18:06:38 251

原创 Tableau Reader与Tableau的文件互相打开问题

使用Tableau创建的文件，为了让其他人也能够看到但是不能够修改数据，为了达到这一目的可以让阅读者使用Tableau Reader来阅读文件，但是有一个前提，当我们使用Tableau创建好了文件之后，要先进入工作簿或者进入仪表盘（具体看你使用哪个）将我们使用的所有的数据源的数据提取一次，点击上方的数据选项，选择使用到的数据库，右键选择提取数据，然后保存，对所有的你是用的数据源都要这样操作一次，然...

2019-07-26 16:56:32 1744

原创 Tableau的安装与下载

http://www.ddooo.com/softdown/138984.htm这里是Tableau的安装与下网载站，按照步骤来就可以了，很简单的过程

2019-07-08 10:07:34 10521 2

原创 hive中的权限管理

角色的创建与删除：Create role role_name；角色删除：drop role role_name角色的授权与撤销：将角色role_test授权给X：Grant role role_test to user X；取消用户X的授权：Revoke role role_test from user X；授权用户某种权限Grant select...

2018-12-10 17:02:02 709

原创 hive基础

非关系型数据库语言，语言逻辑与MySQL大致相似，但是要求能够更加严格一点。hive> ALTER TABLE student1 ADD COLUMNS > (address STRING,grade STRING);在添加属性的时候，需要添加columns关键字（列）•ROW FORMAT DELIMITED 行格式分隔如果文件数据是纯文本，...

2018-12-10 17:01:24 110

原创有关hive中UDF函数

用户自定义函数udf：Hive支持的udf用户自定义函数有三种：udf函数可以直接作用于select语句，对查询结构做格式化处理之后，在输出内容用户自定义函数 UDFUDF(User Defined Function,用户自定义函数) 对数据进行处理。UDF 函数可以直接应用于 select 语句，对查询结构做格式化处理后，再输出内容。Hive可以允许用户编写自己定义的函数UD...

2018-12-10 16:59:12 641

原创 hive基础知识

进公司实习，第一个任务就是自学hive。。。。知识点总结帮助自己学习Hive -语法：非关系型数据库语言，语言逻辑与MySQL大致相似，但是要求能够更加严格一点。hive> ALTER TABLE student1 ADD COLUMNS > (address STRING,grade STRING);在添加属性的时候，需要添加columns关键字（列...

2018-11-29 21:11:43 508

原创 Java项目之多线程聊天室（客户端以及服务端）

package com.company;import java.io.IOException;import java.io.PrintStream;import java.net.ServerSocket;import java.net.Socket;import java.sql.SQLOutput;import java.util.Map;import java.util.Sc...

2018-09-01 13:22:59 2309

原创用Java实现快速排序

package FirstDay;public class QuickSort { public static void Sort(Integer[]array,int left,int right){ if(left>right) {//递归退出条件 return; } int tmp=array[left];...

2018-08-28 10:37:49 122

原创 HashMap的迭代输出

import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Set;public class test { public static void main(String[] args) { Map<Integer, String>map...

2018-08-28 10:29:24 879

原创 Java集合类

java类集（JDK1.2，java.util包）： lang包：语言有关的所有包，io包：输入输出包，传统IO，util包：java类集本质：动态对象数组核心接口：Collection：针对单个对象的处理public interface Collection 《E》 extends Iterable<E>public interface Iterable<T&g...

2018-08-26 23:29:56 144

原创 TCP协议与UDP协议的区别

TCP协议与UDP协议的区别TCP面向字节流，UDP面向数据报TCP协议较为复杂，UDP协议较为简单TCP是可靠连接，UDP不可靠TCP经常用于可靠传输的情况，重要状态更新等场景UDP用于对高速传输和实时性要求较高的通信领域，视频传输等，UDP可用于广播TCP的可靠性体现于：1.确认应答机制（三次握手，四次挥手）2.数据的按序到达3.超时重传4.去重（1到4的保...

2018-08-22 17:17:21 230

原创简单的数据库指令及操作

进入数据库：mysql -u root -pmysql服务的启动与关闭：在root权限下：启动 service mysqld start 关闭 service mysqld start1.create database xxx；创建数据库2.show database；显示数据库3.use xxx；使用xxx库4.show tables；显示当前库中的表5....

2018-08-14 18:14:37 944

原创基于反射实现的动态代理设计模式

package FanShe_Factory;import java.lang.reflect.InvocationHandler;import java.lang.reflect.Method;import java.lang.reflect.Proxy;interface ISubject2{//核心操作接口 public void eat(String foodname...

2018-08-10 11:29:54 203

原创基于反射实现的工厂设计模式

package FanShe_Factory;interface IFruit{ public void eat();}class Apple implements IFruit{ @Override public void eat() { System.out.println("吃苹果之前要洗一洗"); }}class Orange im...

2018-08-10 11:18:07 240

原创总结反射与单级VO操作

public class Emp { private String name; private String job; public String getName() { return name; } public void setName(String name) { this.name = name; } ...

2018-08-10 11:12:28 179

原创类加载器的作用范围和双亲委派模型

JVM定义把类加载阶段中的通过类的全名称，取得此类的“二进制字节流”这种操作的实现的代码模块叫做类加载器public ClassLoader getClassLoader（）；取得当前类加载器类加载器分为四种，按照从顶层到底层的顺序为：Bootstrap：启动类加载器、ExClassLoader：扩展类加载器、AppClassLoader：应用程序类加载器、自定义类加载器Bootstr...

2018-08-10 11:08:37 453

原创 java 回文数的判断

package FirstDay;import java.util.Iterator;class Judge{ public boolean judegNumber(int n) { String str=String.valueOf(n);//将整数数组转换为字符串 int len=str.length(); int pre=0;...

2018-08-10 10:32:08 2669

原创打印流与输出流

掌握打印流以及Scanner类的常用方法，使用打印流和Scanner优化之前的FileInputStream与FileOutputStream操作。要求:在桌面上新建一个Test.txt,使用打印流向文件中输出如下: Hello 123 hello bit 然后使用Scanner类读取文件内容并输入到控制台。 package bite.IO;import java.io.File...

2018-08-10 09:56:42 3992

原创序列化与反序列化文件内容的读写

复习序列化与反序列化的概念，要求自定义Person类，其中三个属性name,age,school. age属性不作为序列化保存而其他两个属性使用序列化保存在本地文件TestSer.txt中。使用序列化和反序列化的方式将自定义类序列化与反序列化操作。 package bite.IO;import java.io.File;import java.io.FileInputStream;...

2018-08-10 09:53:22 4565

原创掌握打印流以及Scanner类的常用方法，使用打印流和Scanner优化之前的FileInputStream与FileOutputStream操作。要求:在桌面上新建一个Test.txt,使用打印流向

package bite.IO;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.InputStream;import java.io.OutputStream;import java.io.PrintWriter;public cl...

2018-08-09 18:23:03 520

原创 java知识点总结IO

IO的操作部分重点掌握两个代码模型，IO的核心组成是5个类（File、OutputStream、InputStream、Reader、Writer）一个接口（Serializable）File文件操作类：java.io.File是一个普通类，直接产生实例化对象即可。如果要实例化对象则需要用到两个构造方法：public File（String pathname）；public Fil...

2018-08-09 13:11:51 140

原创直接插入排序

直接插入排序的思路为：默认数组的第一位有序，将有序序列扩展。在扩展的过程中，从有序序列的下一位往前遍历。当插入第i（i>1）个元素时，前面的array[0]，array[1]。。。。。array[i-1]已经排好序，此时用array[i]的排序码与array[i-1],array[i-2]...的排序码顺序进行比较，找到插入位置即将array[i]插入，原来的位置上的元素顺序后移。...

2018-08-06 15:36:35 90

空空如也

空空如也