自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 收藏
  • 关注

原创 使用sklearn做特征工程

使用sklearn做特征工程目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filter    3.1.1 方差选择法    3.1.2 相关系数法    3.1.3 卡方检验    3.1.4 互信息法  3.2 Wrapper

2020-07-15 04:19:43 213

原创 特征工程-特征选择、特征表达、特征预处理

特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。一、特征选择1. 特征的来源在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分别讨论。选择合适的特征    我们首先看当业务已经整理好各

2020-07-15 02:30:42 457

原创 数据分析——数据清洗

数据分析前的准备工作包括:首先是要明确问题以及分析的方向,其次数据的收集,然后是数据的清洗,最后是数据的分析工作。整个过程最错综复杂的就是数据清洗工作,本次尝试着把之前遇到的数据清洗的一些步骤和方法做一个总结,并且随着以后的工作和学习不断完善。1、数据预处理当我们导入一份数据后,我们需要对数据的大概有个了解。利用描述性统计可以很方便的对数据有个大致的了解,数据包括数值类型和非数值类型(一般是Object),通过对count max min mean std 等以及 唯一值 出现次数最多的(top),频率

2020-07-15 02:16:22 626

原创 aws 未完成sagemaker ner

https://aws.amazon.com/cn/blogs/china/use-amazon-sagemaker-to-run-chinese-named-entity-recognition-based-on-tensorflow/?nc1=b_rphttps://www.bilibili.com/video/BV1f5411s7Yz?from=search&seid=16029321477206824532可以直接用他的notebook右上角创建实例环境和notebook 一样

2020-06-03 11:37:14 196

原创 coderpad

header都是要自己加的,我用C++写过很多次反正环境里什么都没有。一般简单一些的题目比如array会让你自己写test case跑如果是tree之类的不太好写的test case就口头跑了。coderpad 是可以run的,可以显示运行结果。test的方式看面试官要求。有的口述,也有的写main面试官默认给你的界面会关掉编译运行的功能,但是。。他那边是可以打开的。。。二面给我开了一下吓死我了。。。。我跑case都是直接comment说给他听,如果他真的想让你run也不是不可能。。。http://

2020-06-02 07:29:40 1267

原创 金融知识图谱

一、简介NLP:1.word level:序列标注任务(上图d),分词、词性标注、命名实体识别都属于序列标注任务,所谓序列标注就是对一个序列的每个部分(可以是词,可以是字)进行分类,上图d就是一个实体识别任务(我们后续会详细讲到),实际上我感觉语音识别如果是在帧层面上进行音素分类的话,也可以作为一种序列标注任务。 2.sentence level :我认为只要是在句子层面分类的任务都可以归结为该类,如文本分类,情感识别,关系抽取,语音情感识别等。在这里注意关系抽取是知识图谱中将文本数据进行

2020-06-02 01:29:39 614

原创 求职-15家最欢迎应届毕业生的企业

AmazonEY(世界四大会计师事务所之一)PwC(世界四大会计师事务所之一)Deloitte(世界四大会计师事务所之一)Lockheed Martin(国防&航空航天)Boeing(国防&航空航天)AccentureJPMorgan Chase & Co. (美国最大金融服务机构之一)9. MicrosoftBMTarget(零售百货集团)12. GoogleGoldman Sachs (世界最大投资银行之一)14. OracleRaythe.

2020-05-25 06:16:10 199

原创 使用Cassandra数据库的优缺点是什么?

from quoraCassandra是一个非常依赖用例的数据库。在大多数情况下,一个简单的MySQL或PostgreSQL实例即可完成工作。当您发现自己需要Cassandra提供的特定属性时,使用它可能很有意义。使用Cassandra有许多不同的利弊,其中许多取决于您希望如何使用它。我认为,在决定是否使用Cassandra时,人们倾向于寻找一些东西。优点写入速度:卡桑德拉(Cassand...

2020-05-06 23:39:36 6114

原创 IDEA 如何自动导入(import)

https://blog.csdn.net/qing_gee/article/details/103252772

2020-05-05 10:36:36 498

原创 Mac电脑中Idea配置Tomcat

https://www.jianshu.com/p/93f91d7f3b59以后遇到环境变量 安装的问题都可以看看https://blog.csdn.net/weixin_41463971/article/details/88413623?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu...

2020-04-24 07:31:56 392

原创 Redis安装与卸载

https://www.cnblogs.com/zerotomax/p/7468833.html#uninstall主要是卸载我真是要疯了make: *** [install] Error 1这是因为普通用户没有管理员的权限,输入”sudo make install“,然后会提示你输入密码,输入开机密码之后,就能正常安装了...

2020-04-06 14:33:32 284

原创 0320 java 滑动窗口

209Given an array of n positive integers and a positive integer s, find the minimal length of a contiguous subarray of which the sum ≥ s. If there isn’t one, return 0 instead.Example:Input: s = 7, ...

2020-03-21 04:01:47 119

原创 0318 KMP

最终还是选择用java而不是python,其实没有什么难不难,当初学个乘法口诀也是很难,人总是要不断进取的。希望在美国找工作顺利一、基础知识二、codepackage basic_class_02;public class Code_01_KMP { public static int getIndexOf(String s, String m) { if (s =...

2020-03-19 05:15:53 97

原创 0315 财经爬虫实战

1.新浪财经股票实时数据爬取实战from selenium import webdriverchrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(chrome_options=chrome_options)browser.g...

2020-03-16 09:27:53 723

原创 0315 Selenium详解

1.难点 获取不了网页真正的源代码Selenium是一个自动化测试工具,它能够驱动浏览器模拟人的操作,比如鼠标点击,键盘输入等操作。通过Selenium库我们能够相对比较容易地获取到网页的源代码,并且而且学完它之后,我们还可以进行之后会讲到的批量PDF下载等。让人头疼的问题:获取不了网页真正的源代码。比如 上交所公开信息及新浪财经 的股票实时数据,这个你用我们之前所用用的获取...

2020-03-16 07:26:08 124

原创 0315 金融爬虫笔记

3.1.1 获取网页源代码获得网页源代码的代码:import requestsheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}url = 'https:...

2020-03-16 04:43:23 161

原创 Typora 的入门使用教程

参考教程

2020-03-16 03:29:59 836

原创 spark streaming之快速入门

https://blog.51cto.com/12967015/2172874

2020-03-09 04:23:27 72

原创 电影推荐 dataloader 笔记

package com.atguigu.recommenderimport java.net.InetAddressimport com.mongodb.casbah.commons.MongoDBObjectimport com.mongodb.casbah.{MongoClient, MongoClientURI}import org.apache.spark.SparkConf...

2020-03-01 02:49:16 222

原创 比较好的查包和参数的地址

比较好的查包和参数的地址做个备注以后能用https://rdrr.io/cran/datarobot/man/CreateUserPartition.html

2020-02-29 06:09:40 179

原创 基于spark与机器学习的电影推荐系统

参考自己补充的精华

2020-02-28 08:16:05 390

原创 七月金融风控

评价:个人认为课程质量不高,老师是懂金融风控的。但是代码和课程的难度只能说是入门级。抱着扎实代码和学习新的代码表达的态度,希望自己坚持看完吧。一、金融风控业务详解二、决策树知识对应的代码三、分箱操作...

2020-02-27 09:32:52 208

原创 neo4j的学习笔记

基础知识https://blog.csdn.net/qq_32971807/article/details/539064422.mac的安装https://www.cnblogs.com/aongao/p/7912513.html

2020-02-27 05:46:56 92

原创 brew 安装anaconda

成功了,直接点开就能用https://www.jianshu.com/p/c2cc91231f5d

2020-02-26 22:39:29 3296

原创 新知识学习 Kubernetes

基础知识参考希望以后有用吧为了云计算课程学习的

2020-02-26 11:31:59 64

原创 新知识学习 Docker

参考和存档科比和杰克逊 真是很遗憾你们去世了才真正开始认识你们要成为你们一样为了优秀而不断追赶的人。

2020-02-26 08:13:50 59

原创 mac 安装虚拟机类软件出现的问题

1.参照·论坛的教程首先看留言,是否这个教程成功然后一定一定要对应博主的软件版本,不然…遇到问题看看有没有 简单的 解决方法 多看几个我安装过程中出现的问题#mac local:line 25:eject:command not found这个直接 右键选择清除就行了 不要信那个百度教程 搞得好麻烦#安装CentOS8的时候出现:Pane is dead因为之前的操作 ...

2020-02-25 14:14:31 280

原创 hive面试总结参考

1.广2.精

2020-02-25 05:11:10 130

原创 Docker学习

第1章 Docker架构第2章 Docker Client创建与命令执行Docker使用手册

2020-02-24 03:17:03 72

原创 brew大法好 安装neo4j

对于我这种刚入空门的渣渣安装软件配置环境就几乎耗光了我所有的力气别人的家的教程,很多手机,在你的电脑上是不行就是不行真是要死1.主要安装https://cloud.tencent.com/developer/article/14386402.报错需要java1.8https://www.cnblogs.com/nightfallsad/p/11736906.html记得用这个安装...

2020-02-23 01:54:47 592

原创 jenkins简介

1.安装https://www.jianshu.com/p/567fc30d1d472.介绍https://www.jianshu.com/p/787a3fa0fdab目测我也用不上他,这是个bug

2020-02-23 01:41:11 95

原创 MAC 安装IntelliJ IDEA后的报project sdk is not defined错误

问题1.project sdk is not defined2.系统说 你指定的文件夹不对3.mac通过idea打开显示不是jdk文件夹名字,尽管finder里面显示的是。找到他点开,选择content即可。下面是参考教程https://cloud.tencent.com/developer/ask/33855...

2020-02-22 23:05:09 787

原创 mac安装mongodb 亲测成功

所以说大多数教程都是windows版本的mac的教程都自己操作不成功真是崩溃啊https://www.jianshu.com/p/59fab73f4d91成功了

2020-02-22 10:02:59 124 1

原创 MongoDB总结 在nosql课堂上

排版太烦了放弃一、Nosql简介Nosql的全称为”not only sql”,为非关系型数据库。这类数据库的主要特点是:非关系型、分布式、开源的、水平可扩展的。Nosql最典型的应用为key-value存储。Nosql的最主要的用途是大数据的处理,这个问题在传统的关系型数据库中有严重的系统瓶颈,而nosql的诞生很好的解决了这个问题。传统的数据库在应付web2.0网站,特别是超大规模和...

2020-02-22 07:26:23 103

原创 笔记整理 信用卡欺诈 干净数据简单操作

#没学会的东西都是沉没成本#不及时复习的后果就是浪费更多的时间1.查看数据特征,一般我们认为欺诈数目是少数import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata=pd.values_counts(data['Class'],sort=True).sort_index()# .sort_index...

2020-02-17 06:47:37 118

原创 mysql学习之34道经典面试题

好好学习准备求职希望在美国顺顺利利早日过上自己想要的生活https://blog.csdn.net/qq_35558797/article/details/80445264

2020-02-12 11:45:00 121

原创 Code_11_MaxGap 相邻两数最大插值 高频面试题

一、概念理解二、代码package basic_class_01;import java.util.Arrays;public class Code_11_MaxGap { public static int maxGap(int[] nums) { if (nums == null || nums.length < 2) { return 0; } int...

2020-01-24 03:10:33 163

原创 Code_10_GetAllNotIncluded

寻找连个有序数组A,B,两者不重复的部分package basic_class_01;import java.util.ArrayList;import java.util.Arrays;import java.util.HashMap;import java.util.List;public class Code_10_GetAllNotIncluded { public s...

2020-01-24 02:33:20 193

原创 Code_09_Comparator

一、基础知识参考二、代码package basic_class_01;import java.util.Arrays;import java.util.Comparator;public class Code_09_Comparator { public static class Student { public String name; public int id; ...

2020-01-24 01:37:48 86

原创 Code_06_BucketSort

一、概念理解二、代码 // only for 0~200 value public static void bucketSort(int[] arr) { if (arr == null || arr.length < 2) { return; } int max = Integer.MIN_VALUE; for (int i = 0; i < arr.le...

2020-01-22 06:50:20 101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除