自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 pyspark里加自增ID

这个需求好多时候是建立在想横向合并两个pyspark_dataframe,但是pyspark_dataframe与pandas_dataframe有所不同,无法用concat这类函数硬拼接,pyspark里的monotonically_increasing_id函数到一定长度之后两个df自增的中间会隔断,突然从一个比较大的数开始,合并之后就是空或缺行的dataframe,如下图:解决方式如下:...

2020-03-25 10:26:31 853

原创 pyspark ml 报错: need struct type but got struct type:tinyint,size:int,indices:array

pyspark model transform 之后出现列probability,若要提取预测为1的概率:直接对原列处理的报错:`argument 1 requires string type, however, 'probability' is of struct<type:tinyint,size:int,indices:array<int>,values:array&...

2020-03-25 10:12:13 5189

原创 Linux安装TensorFlow2

快速安装:python -m pip install tensorflow -i https://pypi.douban.com/simple不建议直接pip install tensorflow,太慢,容易超时个人遇到的bug:tensorboard 1.14.0 has requirement setuptools>=41.0.0, but you'll have setupt...

2020-03-16 20:48:53 1209

原创 mac上装lightgbm

最近接触到一个跟xgboost可以一起玩的东西,这个小家伙不能直接install,比较傲娇吧可能(安装不可官网照抄,要注意版本的)一、环境MAC: 10.14Python: python3.6二、配置软件安装brew install cmakebrew install gccps:gcc直接装就好,新版本不要放–without-multilib。我装的是gcc 9.2.0三、安装...

2019-10-08 12:09:58 225

原创 Echarts+Tomcat(Idea)可视化

整理一下Echarts做可视化的代码流程~一、下载Tomcathttps://www.jianshu.com/p/69496fb3495e安装猫的基本点都有了二、下载Echarts.min.jshttps://www.echartsjs.com/zh/download.html官网页面往下走,选在线定制,会发现能看到的就是Echarts.min.js,下载后那文件命名就是这个三、...

2019-10-04 13:37:38 4226 1

原创 逻辑回归评分卡计算

训练集train = data[data.obs_mth != '2018-11-30'].reset_index().copy()跨时间验证集val = data[data.obs_mth == '2018-11-30'].reset_index().copy()训练模型x = train[feature_lst]y = train['bad_ind']val_x = va...

2019-09-27 11:07:05 966

原创 决策树模型分类标准可视化

目的:可视化解释树模型*电脑里要有graphvizbrew install graphvizpip3 install -U pydotplus*树模型:dtree = tree.DecisionTreeRegressor(max_depth = 2,min_samples_leaf = 500,min_samples_split = 5000)dtree = dtree.f...

2019-09-24 12:40:11 373

原创 排序算法-冒泡排序(Java解释)

public class BubbleSort { public static void main(String[] args) { int[] arr=new int[]{43,55,66,21,2,45,43,-84,-1,20}; for (int i=0;i<arr.length-1;i++){ //i表示第几轮,i=0为第一轮 ...

2019-06-24 14:29:26 161

原创 基于隐语义模型(LFM)的协同过滤推荐算法(ALS)

       在Python里,直接用LFM就可以,在scala里边,借助spark-mllib的ALS模型,可以理解ALS是在spark里LFM思想的解决方案。之前试过Python的,Python确实写的少是门优秀的机器学习语言,但是spark是大环境所趋,scala开发后放进MongoDB里也是很合时宜的选择,贴一下scala的代码,后面发现更好用的函数...

2019-06-15 10:48:14 4025 6

原创 墙内同学mac上Chrome装插件

今天更非技术~window用户没这么多麻烦,mac装插件就要拐个弯,下面就是这个弯:要给Chrome装个查词插件,业界必应还是良心啊,所以就想奔着必应去一、改文件名我在某某网站下载的一个查词插件:原文件名:20190612161445chromecj.com.crx我要改下文件名:20190612161445chromecj.com.zip二、终端命令行解压+换成你自己的权限为避...

2019-06-12 16:54:39 2633

原创 使用scala将数据写入linux上的MongoDB数据库

** 这篇主要记录一下数据量较大时使用scala处理数据,运用spark组件连接linux上的MongoDB并创建数据库进行数据写入**import com.mongodb.casbah.commons.MongoDBObjectimport com.mongodb.casbah.{MongoClient, MongoClientURI}import org.apache.spar...

2019-06-10 19:27:05 1080 2

原创 studio 3t连接linux上的MongoDB

一、linux上的步骤用本地wmware上的linux测试,先在linux上启动MongoDB并测试其功能:留意这句:db.createUser({user:"admin",pwd:"password",roles:["root"]})二、本机所装可视化工具的操作studio 3t本机装好后(很容易装,没有特别要注意的设置),进入后就能看到左上方的连接,新建连接:user nam...

2019-06-10 12:00:36 2491

原创 ES启动错误Exception in thread "main" 2019-06-05 23:50:50,099 main ERROR No log4j2 configuration file fou

ES不在root下启动~ES启动错误:Exception in thread “main” 2019-06-05 23:50:50,099 main ERROR No log4j2 configuration file found. Using default configuration: logging only errors to the console. Set system proper...

2019-06-06 15:30:58 5754 7

原创 【scala报错】报错Error:scalac: missing or invalid dependency detected while loading class file '**.class'

在idea里写好scala,spark-sql的脚本,运行时报这个错是说maven配依赖时下载那个Dataset.class文件时出错,spark-sql在1.6版本及之后就是Dataset,那就是关键的函数包没下载好了,好了直接说解决方法:一、删之前配好的idea滑到最下-》External Libraries-》找到maven帮你配好的文件,就是spark-sql2.11-》co...

2019-06-03 17:59:33 5321 1

原创 在idea中编写好程序并打包到spark集群测试

一、scala程序idea中写的某个程序(采取传参形式,尽量不要写死):package com.atguiguimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { //1.创建配置信息 val conf=n...

2019-05-31 18:51:08 579

原创 用scala一句话写wordcount

package ***object wordcount { def main(args: Array[String]): Unit = { val lines = List("atguigu han hello ", "atguigu han aaa aaa aaa ccc ddd uuu") //val res1 = lines.flatMap((s: String)...

2019-05-30 11:19:22 295

原创 hive 中over()窗口函数

简单找一份数据用来实验:hql:select name,orderdate,cost, sum(cost) over() as sample1,--所有行相加 sum(cost) over(partition by name) as sample2,--按name分组,组内数据相加 sum(cost) over(partition by name order by orderdate)...

2019-05-17 18:13:48 2461

原创 hadoop2.X集群搭建

1.准备Linux环境1.0先将虚拟机的网络模式选为NAT(mac网络设置https://blog.csdn.net/Jacquelin_1/article/details/89600215)1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=master ###1.2修改IP修改配置文件方式 vim /...

2019-05-11 20:03:42 189

原创 mac 虚拟机VMware fusion设置nat模式

linux新手,环境:centos6.5, vmware fusion11,想要搭建Hadoop实验环境,先要解决网络问题原博主文[https://www.cnblogs.com/pyyu/p/9689138.html]1.点击vmware Fusion > 偏好设置 > ( command + , )网络2.修改网络设置,添加一个vmnet NAT第一步左下方解锁,新增vmn...

2019-05-06 14:26:55 4476

原创 终端无法登陆linux系统以及web界面显示连不上服务器

Linux新手,初遇一些centos的操作问题,记录一下各种报错终端无法登陆Linux:检查网络是否为服务器设置的ip,例如图书馆等地方会突然跳网web界面显示连不上服务器:终端运行sudo service firewalld stop ,中止防火墙或者运行sudo setenforce 0 ,宽松模式updating~~...

2019-04-24 12:51:52 1887

原创 XGboost算法原理

用到的数学基础:泰勒公式目标函数关于目标函数,分开两部分讨论:损失函数正则项损失函数

2019-04-13 15:23:38 739

原创 AUC公式原理详解

AUC:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。开始抽样:在有M个正样本,N个负样本的数据集里。一共有MN对样本(一对样本即,一个正样本与一个负样本)。统计这MN对样本里,正样本的预测概率大于负样本的预测概率的个数。计算:(一)2个正样本:C,D2个负样本:A,B样本对:(C,A) (C,B...

2019-04-09 12:09:02 3316

原创 Python 批量update MySQL数据库表某字段

import pymysql#链接数据库conn=pymysql.connect(host='127.0.0.1', user='medatc', passwd='ahcuy4ahtee4aequai4AhyeikoomieR3', ...

2019-02-21 17:24:19 5313

原创 python里写sql的like函数应将%换为%%

mysql里句子:selecti.id,i.short_code,i.name,i.brand,i.model,i.manufacturer,c.registration_numberfrom items i left join cfdas c on i.cfda=c.idwhere i.name like '%呼吸机%'Python里读取相同内容:item1=pd.r...

2019-02-13 14:52:28 2538 2

原创 MySQL concat函数:当某一个字段存在null时的连接方式

concat函数连接时如果某一字段有null时连接结果就是null,真是个妖怪【·~·】用ifnull处理一下,默认值设为’’~~select c.name_zh,c.registration_number,c.manufacturer_zh,c.manufacturer_en,concat(ifnull(c.manufacturer_zh,&quot;&quot;),ifnull(c.manufact...

2019-01-29 15:28:41 1656

原创 python里删除某字段里含有某个字符的行,以及isin()逆函数

只是一种可选的方法,小伙伴们有其他方法就请做补充~~需求:删除表MDISP_cfda_model(198K条数据)的字段model里含有‘见附件、见附表、见附页’等行(20K条左右),这些行不能用于我的分析ex_list=list(MDISP_cfda_model['model']) ex_list_new=[]for i in ex_list: if '见附' in i:...

2019-01-16 16:07:01 6402 3

原创 python结巴分词词云图

导入结巴分词from wordcloud import WordCloudimport jieba# 词频计算import jieba.analyse as analysefrom scipy.misc import imreadimport osfrom os import pathimport matplotlib.pyplot as pltfrom PIL import I...

2018-12-27 16:34:21 1474

原创 python替换DataFrame里某一列的数据为另一个数据

将原表里包含‘血透机’三个字的元素替换为‘血透机’‘’’ex_list3=list(maintenance[‘name’]) #找到原表这一列转化为listfor i in ex_list3:if ‘血透机’ in i:maintenance[‘name’]=maintenance[‘name’].replace(i,‘血透机’)‘’’...

2018-12-27 14:38:19 21402

movielen10000000数据集

慕课网个性化推荐算法实战课程item2vec用到的1000W数据集

2019-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除