自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 收藏
  • 关注

原创 A/B测试

A/B测试A/B测试是促进业务持续增长的最实用,最有效的方式产生迭代想法->论证迭代想法(A/B测试)->实施迭代想法A/B测试可以解决那些常见的业务问题:产品迭代:改变用户的交互界面来提升用户体验,优化新用户的注册流程来提高转化率,确定产品优惠券的最有价值,增加产品功能来提升用户留存算法优化:通过提高推荐系统算法的准确度来提高用户粘性,通过提高搜索排名算法的准确度来提升结果的点击率,通过提高广告显示算法的精确度来提升广告的点击率市场营销:确定最优的营销内容,确定最优的营销时

2021-02-19 15:31:21 554

原创 python链接kafka

python链接kafka,向本地写入数据这是一个简单的demo,学习kafka的一小步,同理可用到向数据库的数据读写,还有数据分析伪流式数据读取,用生产者来读取指定位置的数据,消费者进行数据的处理from kafka import KafkaProducer,KafkaConsumerimport jsonimport datetimeimport time# 生产者 存储json数据producer = KafkaProducer( value_seria

2021-01-25 18:05:36 300

原创 数据分析:数据量级不平衡的数据进行处理

对于不平衡数据(事件)的balance处理对小概率事件进行预测(判断)的时候,一定要对数据做balance处理,不然会使得模型天然的倾向于大概率的结果。处理方式:1.上采样少数类别:上采样是从少数类别中随机扶着观测样本以增强其信号的过程,最常见的集中试探法是使用简单的放回抽样的方式重采样,从sklearn中导入重采样模块 这种处理方式会导致准确率急转而下,但是性能指标更有意义2.下采样多数类别:下采样包括从多数类别中随机的一处观测样本,防止他的信息主导学习算法,其中最常见...

2020-12-17 15:42:03 1299

原创 python操作clickhouse 删除指定数据

python操作clickhouse删除指定数据def info_del2(i): client = click_client(host='地址', port=端口, user='用户名', password='密码', database='数据库') sql_detail='alter table SS_GOODS_ORDER_ALL delete where order_id='+str(i)+';' try:

2020-12-17 11:01:52 1060

原创 linux复制文件至本地

命令如下:scp 服务器用户名@ip地址:文件绝对路径__本地文件绝对路径这里的__横线指的是空格有一个坑。。。在你执行这条命令时,必须是在本地的一个终端执行的,而不是在已经登陆的服务器终端执行的,之前在服务器执行这条命令,一直提示找不到对应路径。。。找到原因后差点笑死,因为在服务器执行就代表了把服务器的文件下载到服务器,因为这里的本地指的是登录的终端的地址...

2020-10-14 16:24:09 1937

原创 python 数组内字符串转数字

row='1,2,3.0,nan'#字符串转数组,并去除特殊符号,去掉.0转为格式上的整数list(row.replace('nan','0').replace('.0','').split(','))['1', '2', '3','0']#将格式上的整数,转换为类型上的整数list(map(int,list(row.replace('nan','0').replace('.0','').split(',')) ))[1, 2, 3]方法:list(map(int,st.

2020-09-24 15:07:20 4914

原创 python上传文件至指定服务器

import paramiko#创建ssh对象ssh = paramiko.SSHClient()#ssh.load_host_keys("C:/Users/Administrator/.ssh/known_hosts")#允许连接不在know_hosts文件的主机上ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())filename = ['artist_followby_user.tsv','artist.tsv','acti.

2020-09-21 14:46:54 4925 2

原创 pandas展示所有列

pandas在进行数据展示时,优势因为列数过多,会将中间的列压缩为省略号。添加语句:pd.set_option('display.max_columns', None)可以展示所有数据

2020-09-21 14:44:00 1602

原创 python X[;,0],X[:,1:]的含义

X=result[:,1:]表示:x是result中取下标(字段下标)从1到全部的数据列X[:,0]表示;xx是result中取下标(字段下标)为0的数据列

2020-09-02 18:31:15 1047

原创 多项式贝叶斯分类算法

# 中文文本分类import osimport jiebaimport warningsfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.naive_bayes import MultinomialNBfrom sklearn import metricswarnings.filterwarnings('ignore')def cut_words(file_path): """ .

2020-09-02 18:09:21 630

原创 python操作es进行数据的查找,删除

python操作ES的基础都依赖于python的from elasticsearch import Elasticsearch 包from elasticsearch import Elasticsearchimport jsonimport pandas as pdimport rees = Elasticsearch(hosts="xxxxx", port=xxxx)if __name__ == '__main__': query = {'query': {'matc

2020-08-19 11:37:24 1324

原创 使用pandas计算分组前十名并排序

result.loc[:,'count_sub']=result['last_week_count']-result['llast_week_count'] print(result.head()) result.sort_values(['artist_third_id','count_sub'],ascending=False,inplace=True) #按照评论增长数排序 result=result.groupby('artist_third_id').head(1...

2020-08-10 14:38:32 6358

原创 python数据处理/包含字典的数组

从mongo提取数据的时候,遇到了一类让人有点头疼的数据,数据类型是一个数组,数组内包含的是字典,大致如下:在处理的过程中想了半天办法,也学了不少东西:先说说怎么处理这类数据,再来说我中间用到的几种新的方法,虽然没有起到特别大的作用,但是学到了不少新东西。解决办法算是用了比较暴力的方法:使用mongo的aggregate方法筛选数据,这里的col是我已经创建好了的一个指定mongo的表pipline = [ {'$match': {"$and": [{"crawl_time":

2020-08-04 10:38:57 2762 1

原创 python 链接ES(elasticsearch)

python链接ES进行数据操作首先需要安装ES相关的python包pip install elasticsearch安装完成后开始进行链接操作:代码如下:from elasticsearch import Elasticsearch# es = Elasticsearch() # 默认连接本地elasticsearch# es = Elasticsearch(['xxx.xx.xx.xx:9200']) # 连接指定9200端口es = Elasticsearch.

2020-07-23 10:25:25 3923

原创 python 执行定时脚本

from apscheduler.schedulers.background import BackgroundSchedulerimport osimport timeimport datetimedef task_list_info(): """ :return: """ # 你的脚本存储位置 os.system('python /home/...........')if __name__ == "__main__": sch...

2020-07-17 18:18:39 1099

原创 基于密钥登录的sftp数据传输python脚本

# daily_learn_note#### 介绍日常学习总结####sftp使用密钥进行文件传输import datetimeimport paramiko# 该包需要安装my_key = paramiko.RSAKey.from_private_key_file('密钥存储位置')transport = paramiko.Transport(('地址',端口号))transport.connect(username='账户名',pkey=my_key)s...

2020-06-11 10:45:42 998

原创 mysql特殊语法

#增加自增长主键alter table table_name add COLUMN id bigint not NULL primary key auto_increment;#去表内的空格和换行符号UPDATE table_nameSET id_type = REPLACE(REPLACE(id_type,char(10), ''), char(13), '');#去...

2019-11-26 18:22:08 314

原创 使用python发送邮件

import smtplibfrom email.mime.text import MIMETextfrom email.header import Header# 发件人邮箱账号sender = '发件人'# 收件人 可多人receiver = ['收件人']ccreceiver = ['抄送者']# 标题subject = '标题'smtpserver = ...

2019-11-26 18:06:38 251

原创 Tableau Reader与Tableau的文件互相打开问题

使用Tableau创建的文件,为了让其他人也能够看到但是不能够修改数据,为了达到这一目的可以让阅读者使用Tableau Reader来阅读文件,但是有一个前提,当我们使用Tableau创建好了文件之后,要先进入工作簿或者进入仪表盘(具体看你使用哪个)将我们使用的所有的数据源的数据提取一次,点击上方的数据选项,选择使用到的数据库,右键选择提取数据,然后保存,对所有的你是用的数据源都要这样操作一次,然...

2019-07-26 16:56:32 1744

原创 Tableau的安装与下载

http://www.ddooo.com/softdown/138984.htm这里是Tableau的安装与下网载站,按照步骤来就可以了,很简单的过程

2019-07-08 10:07:34 10521 2

原创 hive中的权限管理

角色的创建与删除:Create role role_name;角色删除:drop role role_name角色的授权与撤销:将角色role_test授权给X:Grant role role_test to user X;取消用户X的授权:Revoke role role_test from user X;授权用户某种权限Grant select...

2018-12-10 17:02:02 709

原创 hive基础

非关系型数据库语言,语言逻辑与MySQL大致相似,但是要求能够更加严格一点。hive> ALTER TABLE student1 ADD COLUMNS > (address STRING,grade STRING);在添加属性的时候,需要添加columns关键字(列)•ROW FORMAT DELIMITED 行格式分隔如果文件数据是纯文本,...

2018-12-10 17:01:24 110

原创 有关hive中UDF函数

用户自定义函数udf:Hive支持的udf用户自定义函数有三种:udf函数可以直接作用于select语句,对查询结构做格式化处理之后,在输出内容用户自定义函数 UDFUDF(User Defined Function,用户自定义函数) 对数据进行处理。UDF 函数可以直接应用于 select 语句,对查询结构做格式化处理后,再输出内容。Hive可以允许用户编写自己定义的函数UD...

2018-12-10 16:59:12 641

原创 hive基础知识

进公司实习,第一个任务就是自学hive。。。。知识点总结帮助自己学习Hive -语法:非关系型数据库语言,语言逻辑与MySQL大致相似,但是要求能够更加严格一点。hive> ALTER TABLE student1 ADD COLUMNS      > (address STRING,grade STRING);在添加属性的时候,需要添加columns关键字(列...

2018-11-29 21:11:43 508

原创 Java项目之多线程聊天室(客户端以及服务端)

package com.company;import java.io.IOException;import java.io.PrintStream;import java.net.ServerSocket;import java.net.Socket;import java.sql.SQLOutput;import java.util.Map;import java.util.Sc...

2018-09-01 13:22:59 2309

原创 用Java实现快速排序

package FirstDay;public class QuickSort { public static void Sort(Integer[]array,int left,int right){ if(left>right) {//递归退出条件 return; } int tmp=array[left];...

2018-08-28 10:37:49 122

原创 HashMap的迭代输出

import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Set;public class test {    public static void main(String[] args) {        Map<Integer, String>map...

2018-08-28 10:29:24 879

原创 Java集合类

java类集(JDK1.2,java.util包): lang包:语言有关的所有包,io包:输入输出包,传统IO,util包:java类集本质:动态对象数组核心接口:Collection:针对单个对象的处理public interface Collection 《E》 extends Iterable<E>public interface Iterable<T&g...

2018-08-26 23:29:56 144

原创 TCP协议与UDP协议的区别

TCP协议与UDP协议的区别TCP面向字节流,UDP面向数据报TCP协议较为复杂,UDP协议较为简单TCP是可靠连接,UDP不可靠TCP经常用于可靠传输的情况,重要状态更新等场景UDP用于对高速传输和实时性要求较高的通信领域,视频传输等,UDP可用于广播TCP的可靠性体现于:1.确认应答机制(三次握手,四次挥手)2.数据的按序到达3.超时重传4.去重   (1到4的保...

2018-08-22 17:17:21 230

原创 简单的数据库指令及操作

进入数据库:mysql -u root -pmysql服务的启动与关闭:在root权限下: 启动 service mysqld start 关闭 service mysqld start1.create database xxx;创建数据库2.show database;显示数据库3.use xxx;使用xxx库4.show tables;显示当前库中的表5....

2018-08-14 18:14:37 944

原创 基于反射实现的动态代理设计模式

package FanShe_Factory;import java.lang.reflect.InvocationHandler;import java.lang.reflect.Method;import java.lang.reflect.Proxy;interface ISubject2{//核心操作接口 public void eat(String foodname...

2018-08-10 11:29:54 203

原创 基于反射实现的工厂设计模式

package FanShe_Factory;interface IFruit{ public void eat();}class Apple implements IFruit{ @Override public void eat() { System.out.println("吃苹果之前要洗一洗"); }}class Orange im...

2018-08-10 11:18:07 240

原创 总结反射与单级VO操作

public class Emp {    private String name;    private String job;    public String getName() {        return name;    }    public void setName(String name) {        this.name = name;    }   ...

2018-08-10 11:12:28 179

原创 类加载器的作用范围和双亲委派模型

JVM定义把类加载阶段中的通过类的全名称,取得此类的“二进制字节流”这种操作的实现的代码模块叫做类加载器public ClassLoader getClassLoader();取得当前类加载器类加载器分为四种,按照从顶层到底层的顺序为:Bootstrap:启动类加载器、ExClassLoader:扩展类加载器、AppClassLoader:应用程序类加载器、自定义类加载器Bootstr...

2018-08-10 11:08:37 453

原创 java 回文数的判断

package FirstDay;import java.util.Iterator;class Judge{ public boolean judegNumber(int n) { String str=String.valueOf(n);//将整数数组转换为字符串 int len=str.length(); int pre=0;...

2018-08-10 10:32:08 2669

原创 打印流与输出流

掌握打印流以及Scanner类的常用方法,使用打印流和Scanner优化之前的FileInputStream与FileOutputStream操作。要求:在桌面上新建一个Test.txt,使用打印流向文件中输出如下: Hello 123 hello bit 然后使用Scanner类读取文件内容并输入到控制台。 package bite.IO;import java.io.File...

2018-08-10 09:56:42 3992

原创 序列化与反序列化文件内容的读写

复习序列化与反序列化的概念,要求自定义Person类,其中三个属性name,age,school. age属性不作为序列化保存而其他两个属性使用序列化保存在本地文件TestSer.txt中。 使用序列化和反序列化的方式将自定义类序列化与反序列化操作。 package bite.IO;import java.io.File;import java.io.FileInputStream;...

2018-08-10 09:53:22 4565

原创 掌握打印流以及Scanner类的常用方法,使用打印流和Scanner优化之前的FileInputStream与FileOutputStream操作。要求:在桌面上新建一个Test.txt,使用打印流向

package bite.IO;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.InputStream;import java.io.OutputStream;import java.io.PrintWriter;public cl...

2018-08-09 18:23:03 520

原创 java知识点总结IO

IO的操作部分重点掌握两个代码模型,IO的核心组成是5个类(File、OutputStream、InputStream、Reader、Writer)一个接口(Serializable)File文件操作类:java.io.File是一个普通类,直接产生实例化对象即可。如果要实例化对象则需要用到两个构造方法:public File(String pathname);public Fil...

2018-08-09 13:11:51 140

原创 直接插入排序

直接插入排序的思路为:默认数组的第一位有序,将有序序列扩展。在扩展的过程中,从有序序列的下一位往前遍历。当插入第i(i>1)个元素时,前面的array[0],array[1]。。。。。array[i-1]已经排好序,此时用array[i]的排序码与array[i-1],array[i-2]...的排序码顺序进行比较,找到插入位置即将array[i]插入,原来的位置上的元素顺序后移。...

2018-08-06 15:36:35 90

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除