自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

JasonStudy

专注Python/数据挖掘和数据分析/机器学习/自然语言处理

  • 博客(65)
  • 资源 (9)
  • 收藏
  • 关注

原创 2019第十六届研究生数学建模成绩分析

2019研究生数学建模成绩分析,主要从以下几个方面进行分析建模成绩数据来源:2019研究生数学建模成绩汇总1. 按‘队长所在单位’统计每个学校的获奖数量,并画出柱状图展示2. 按每个学校获奖人数进行统计,并画出柱状图进行展示统计每个学校的获奖人数用柱状图展示统计各个学校各个名次及次序的获奖人数信息如下:3. 分析A、B、C、D、E、F每个题的获奖数量及占比4. 每个题获奖数量...

2019-11-11 22:51:27 5938 3

原创 2018研究生数学建模成绩分析

2018年第十五届 全国研究生数学建模成绩分析,数据来源:2018研究生数学建模成绩汇总。2018第十五届全国研究生数学建模竞赛完整赛题下载。2018研究生数学建模成绩汇总。统计每个学校的获奖数量,统计每个学校的获奖人数,统计每个题的获奖数量及比例,统计每个题的获奖人数与参与人数比例,按省份绘制各个省份的参与人数热力图,按省份绘制每个省份的获奖人数热力图,最终的建模成绩总结分析。

2018-11-11 19:29:41 14687 5

原创 Python数据预处理之---统计学的t检验,卡方检验以及均值,中位数等

Python数据预处理过程:利用统计学对数据进行检验,对连续属性检验正态分布,针对正态分布属性继续使用t检验检验方差齐次性,针对非正态分布使用Mann-Whitney检验。针对分类变量进行卡方检验(涉及三种卡方的检验:Pearson卡方,校准卡方,精准卡方)等。卡方检验具体的使用准则,四格表卡方检验用于进行两个率或两个构成比的比较。要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。

2018-10-02 21:31:49 4149 3

原创 Excel2010中安装MegaStat插件 MegaStat for Excel2010(2007也适用)

最近在学习网易公开课中的统计学入门基础课程,哈里斯堡社区大学公开课:统计学入门其中就要使用到MegaStat插件,可以做很多关于统计学的图表分析,例如频率分布图,各种检验,,,,,MegaStat是一款强大的Excel小插件,对于经常使用Excel做统计分析的人并不陌生,很实用。安装文件MegaStat下载,点击下载安装方法:1.把MegaStat.xla(一个宏文件)拷贝放在C:\Users\X...

2018-03-25 11:41:09 6645 1

原创 程序员实用工作技能之Docker

Docker常用命令;运行docker镜像;删除容器;构建docker镜像;删除镜像;查看正在运行的镜像

2021-12-29 23:03:34 3735

转载 linux 修改socket连接数提升高并发能力

在Linux平台上,无论编写客户端程序还是服务端程序,在进行高并发TCP连接处理时,最高的并发数量都要受到系统对用户单一进程同时可打开文件数量的限制(这是因为系统为每个TCP连接都要创建一个socket句柄,每个socket句柄同时也是一个文件句柄)。可使用ulimit -n命令查看系统允许当前用户进程打开的文件数限制linux默认只允许1024个连接请求。为了提升服务的并发能力,需要修改socket连接数。linux系统默认ulimit为1024个访问 用户最多可开启的程序数目。一般一个端口(

2021-03-10 20:31:17 2006

原创 关系抽取概述及研究进展Relation Extraction Progress

关系抽取的定义、关系抽取的主流评测数据集、关系抽取的主流方法、关系抽取相关的经典论文、相关代码资源几个方面进行介绍。关系抽取是从一段文本中提取出发生在两个实体或多个实体之间的语义关系的任务。关系抽取Relation Extraction,也称关系分类Relation Classification(判断实体Entity之间属于哪种关系,多分类问题)。有监督的学习方法:该方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,学习各种分类模型,然后使用训练好的分类器预测关系。半监督的学习方法、无监督的学习

2019-08-29 17:48:24 6478 9

原创 n个数全排列根据正数第m个排列找出倒数第m个排列(康托展开)

n个数全排列根据正数第m个排列找出倒数第m个排列(康托展开)题目要求:把1~n的所有排列按字典序排成一排,从中选出一个排列,假设它是正数第m个排列,希望你能回答倒数的第m个排列是什么?例如1到3的所有排列是:1 2 31 3 22 1 32 3 13 1 23 2 1若选出的排列是1 2 3,则m=1,而你应该输出的排列是3 2 1.输入描述:第一行数字n,表示排列的长度第...

2019-08-03 17:55:33 919

原创 C语言实现栈(基于结构体指针)

C语言实现复杂的结构体栈,实现了基于结构体元素的栈,主要功能包括:栈初始化、判断栈空、清除栈中所有元素、出栈、入栈、判断栈满、读取栈顶元素、栈中当前元素个数、多次出栈、栈元素反转、栈顶元素唯一入栈、栈搜索、栈当前容量。

2019-05-19 12:31:05 3460

原创 研究生数学建模竞赛准备

研究生数学建模竞赛准备,熟悉一下数学建模的32种基础的常规方法,认真学习和研读一下最近几年的研究生数学建模优秀论文,选择几个感兴趣的问题,仔细看看优秀论文的建模思路和写作思路。编程技术方面选择:Matlab、Lingo:优化问题,线性模型,运筹学问题;Python:数据分析和数据挖掘大数据、神经网络深度学习之类;统计类问题Spss方便。TSP旅行商问题图网络、多目标规划、遗传算法、粒子群算法。组队很关键

2019-05-16 17:22:00 12469 3

原创 爬取上交所公司信息,根据公司股票代码获取公司注册地址以及地址的经纬度

之前爬取网页上的静态数据时,直接解析页面html内容即可,但是有时候会遇到table数据内容存放于动态的JavaScript中,使用浏览器才能加载出来,简单的爬取网页的html内容,发现找不到数据。利用selenium和PhantomJS模拟浏览器的方式去动态获取网页内容任务:根据上交所上市公司的股票代码,爬取该公司的注册地址,并利用百度地图api获取地址的经纬度。

2019-05-13 13:12:43 5014 1

原创 Python基于百度地图API根据地址获取经纬度

利用Python根据地址获取经纬度(地理编码),申请百度地图秘钥,request访问api接口、解析返回的json数据,得到经纬度数据。

2019-05-13 11:52:44 10544 5

原创 sqlserver存储过程和触发器

sqlserver存储过程和触发器存储过程就是作为可执行对象存放在数据库中的一个或多个SQL命令。 通俗来讲:存储过程其实就是能完成一定操作的一组SQL语句。存储过程的特点,触发器和存储过程的区别,触发器的优点,触发器的作用:实现由主键和外键所不能保证的复杂参照完整性和数据的一致性,它能够对数据库中的相关表进行级联修改,提高比CHECK约束更复杂的的数据完整性,并自定义错误消息。

2019-01-17 11:57:53 4781

原创 Numpy练习

Numpy练习excise创建全0的数组,并查看数组占用内存大小;修改数组中的值;数组改变形状;生成10*10的数组,并输出最小和最大值;设置矩阵的边界为0;创建对角矩阵 对角线上取值1,2,3,4;创建一个8*8的棋盘状矩阵;np.random.random,np.dot,np.random.randint,np.datetime64,np.divide,np.random.uniform,np.linspace

2019-01-12 23:15:55 4804

转载 Oracle Check约束

最近做一份数据库的任务,发现MySQL中不支持在创建表定义字段时使用check约束,如果要在MySQL中使用类似字段约束取值,有两种方式:1.枚举enum,2.创建触发器MySQL关于check约束无效的解决办法下面正式记录一下,Oracle数据库各种各样的check约束的使用方法引用: https://www.cnblogs.com/ChineseIntelligentLanguag...

2019-01-08 20:53:53 8775 1

原创 秋招-SQL备战练习3

秋招-SQL备战练习,表employees_test,audit,titles_test,emp_bonus,salaries。构造触发器audit_log,在向employees_test表中插入一条数据的时候,触发插入相关的数据到audit中。titles_test中,删除emp_no重复的记录,只保留最小的id对应的记录。titles_test 中将id=5以及emp_no=10001的行数据替换成id=5以及emp_no=10005,使用replace实现。查找字符串’10,A,B’ 中逗号’,'

2018-11-19 21:29:58 345

原创 秋招-SQL备战练习2

续接上一篇博客秋招-SQL备战练习1(最后的冲刺)备注:下文中的SQL语句使用与SQLite,也基本适用于MySQL中用到的数据库表如下:电影表filmCREATE TABLE IF NOT EXISTS film (film_id smallint(5) NOT NULL DEFAULT '0',title varchar(255) NOT NULL,description te...

2018-11-19 21:03:37 339

原创 秋招-SQL备战练习1(最后的冲刺)

查找最晚入职员工的所有信息;查找所有已经分配部门的员工的last_name和first_name;获取所有非manager的员工emp_no;统计出当前各个title类型对应的员工当前薪水对应的平均工资。结果给出title以及平均工资avg。查找所有员工的last_name和first_name以及对应的dept_name,也包括暂时没有分配部门的员工;查找员工编号emp_no为10001其自入职以来的薪水salary涨幅值growth;查找所有员工自入职以来的薪水涨幅情况;统计各个部门对应员工涨幅的次数

2018-11-19 20:42:22 432

原创 分类模型的效果评估

对模型进行效果评估,验证模型的性能,混淆矩阵、精准率(Precision)、召回率(Recall)也称查全率、准确率(Accuracy)、F1也称F1_score、Fβ、真正例率TPR、假正例率FPR、ROC、AUC、PR、AUC、宏精准率macro_precison、宏召回率macro_recall、宏F1 macro_F1、微精准率micro_precison、微召回率micro_recall、微F1 micro_F1。结合Sklearn讲解如何绘制ROC曲线、PR曲线。利用Python画ROC曲线。

2018-11-17 21:42:13 3152

原创 2018研究生数学建模心路历程

2018研究生数学建模感想及心得体会,记录下心路历程。包括审题选题、代码编程,算法建模,解题思路,数据处理,模型验证。题目恐怖袭击事件的量化分析建模。对未确立作案者的恐怖袭击事件找出可能的作案嫌疑组织或个人。恐怖袭击事件的时空特性、蔓延特性、级别等进行挖掘和建模。初步考虑层次分析法,模糊动态加权评分法,最后考虑使用PCA主成分分析法确立变量的权重,基于密度聚类DBSCAN,ARMA时序模型,以及空间蔓延模型,莫兰指数等,关联规则的挖掘。最终获全国二等奖。

2018-11-14 17:24:05 12086 18

原创 数据分析岗-机器学习相关知识

数据分析岗-机器学习相关知识。解释共线性,共线性即多重共线性,多重共线性判断依据,共线性问题解决方法,解释相关关系。线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。逻辑回归,SVM支持向量机,决策树(信息增益ID3、增益率C4.5、Gini指数Cart树)。简述随机森林,随机森林的优点。GBDT和XGBoost的区别。

2018-11-04 15:21:20 643

原创 秋招面试准备-数据库知识

索引、触发器、存储过程、连接、死锁机制、数据库的恢复、备份、union、MySQL引擎。聚簇索引和非聚簇索引,唯一索引、主键索引和聚集索引,索引的创建方法,索引的内部原理B+树,触发器是什么?如何创建触发器?什么是存储过程?存储过程的创建和使用方法,存储过程的优缺点。SQL中的join,死锁机制,数据库的恢复、备份,UNION 操作符用于合并两个或多个 SELECT 语句的结果集,mysql各种引擎对比、实战。

2018-10-31 21:29:39 508

原创 Linux命令英文解释(按英文字母顺序)

Linux(Centos)常用命令的英文解释(按英文字母顺序组织)、Linux常用命令全拼、Linux命令大全查询:apt-get、bash、cp、chmod、cmp、df、insmod、ls、ln、lsmod、mkdir、ps、rpm、rmdir、su、unzip、who、zip

2018-10-29 16:03:37 937

原创 Python numpy小练习

《统计建模与R软件》书中练习题、Python集合numpy实现,矩阵的转置,单位矩阵,hibert矩阵,矩阵行列式、矩阵的逆矩阵、矩阵的逆矩阵和特征向量,按行按列输出。

2018-10-24 22:16:39 1087

转载 MySQL存储引擎之MyISAM与InnoDB区别

转载自:https://blog.csdn.net/xifeijian/article/details/20316775?utm_source=copyMyISAM 和InnoDB 讲解  InnoDB和MyISAM是许多人在使用MySQL时最常用的两个表类型,这两个表类型各有优劣,视具体应用而定。基本的差别为:MyISAM类型不支持事务处理等高级处理,而InnoDB类型支持。MyISAM类型...

2018-10-15 17:20:00 195

转载 笔记︱风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)

转载自:https://blog.csdn.net/sinat_26917383/article/details/51725102 本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营——...

2018-10-06 20:54:35 763

原创 Python GUI编程tkinter之菜单详解

关于tkinter中的菜单详解

2018-10-03 21:09:41 1253 1

原创 Python GUI编程之消息传递机制&用户登录

PythonGUI编程之-消息传递机制及简单的用户登录1.消息的传递机制2.消息的格式,键位对应名称查询3.tkinter实现简单的用户登录界面4.tkinter绑定

2018-10-03 21:04:16 1525

原创 Python GUI 编程tkinter--画五角星和简单的动画制作

1.利用Python的tkinter画一个五角星;2.做一个简单的动画,画布上的对象移动分析五角心的五个顶点的坐标:确立五角星的中心点和半径,再确立五角星的五个角的坐标信息。绑定鼠标的点击事件,让画布上的对象随着鼠标的不断点击不停地移动。

2018-10-03 19:38:07 2869

原创 Python GUI编程之tkinter入门案例--简单的自动文件下载器

利用Python3.6开发了一个简易版的文件批量下载软件demo,使用的GUI工具是tkinter。默认打开桌面的文件夹,可以实现自动读取文本文件中的文件超链接,实现自动下载到桌面。

2018-10-02 21:01:43 2483

原创 只含有0,1,2的数组的排序(java实现)

要求对只含有0,1,2的数组进行排序,时间复杂度为O(n),空间复杂度为1秋招笔试题/*思路: * 设置三个标记指针:iZero, iOne, iTwo * 令iZero从前往后遍历,指向第一个非0的位置,iTwo从后往前遍历,指向第一个非2位置然后iOne从iZero开始往后遍历: * 遇到0就和iZero交换,iZero++;遇到1则iOne++;遇到2就和iTwo交换,iTwo向前...

2018-10-01 14:43:15 1392

原创 Python编程的17个特别实用的技巧(trick)

Python编程的17个特别实用的技巧trick。Python的使用人数众多,特别集中在机器学习,数据挖掘和数据分析,量化交易分析,爬虫,Python Web开发等领域,交换变量;将列表合成一个字符串;查找列表中出现频率最高的值;检查两个字符串是不是相同字母不同顺序组成的;反转字符串; 反转列表;转置二维数组;链式比较; 链式函数调用;复制列表;字典的get方法;通过key排序字典;For else;转换列表为逗号分隔符格式;合并字典;列表中最小和最大的索引;移除列表中的重复元素。

2018-09-26 20:09:17 622

原创 XGBoost 输出特征重要性以及筛选特征

1.输出XGBoost特征的重要性from matplotlib import pyplotpyplot.bar(range(len(model_XGB.feature_importances_)), model_XGB.feature_importances_)pyplot.show()XGBoost 特征重要性绘图也可以使用XGBoost内置的特征重要性绘图函数# pl...

2018-08-26 10:27:00 13364

原创 数据挖掘博客收集

1.Distance correlation(距离相关系数)https://blog.csdn.net/jiaoaodechunlv/article/details/806555922.Python sklearn.feature_selection.chi2() Exampleshttps://www.programcreek.com/python/example/81276/skl...

2018-08-24 09:58:00 261

原创 Python实现统计学的各种检验

1.使用python中的Numpy进行t检验http://www.atyun.com/7476.html2.scipy中的卡方检验http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C3.如何检测数据中的特异值?http://www.360doc.com/content/18/0207/12/501539...

2018-08-08 09:12:00 2471

原创 Centos7 教程收集ing

CentOS7 常用命令集合https://blog.csdn.net/o0darknessyy0o/article/details/52072054#t11.centOS7下实践查询版本/CPU/内存/硬盘容量等硬件信息https://blog.csdn.net/dream_broken/article/details/52883883 2.Centos7 安装Python3...

2018-08-04 11:02:00 199

原创 数据挖掘比赛优秀经验贴-收集ing

(1)TOP5%Kaggler:如何在 Kaggle 首战中进入前 10% | 干货https://www.leiphone.com/news/201703/kCMQyffeP0qUgD9a.html(2)这十套练习,教你如何使用Pandas做数据分析https://www.kesci.com/home/project/59e77a636d213335f38daec2 (3)pytho...

2018-07-17 17:40:00 375

原创 pandas高级操作总结

1.pandas中的列的分位数# 查看列的分位数import pandas as pd# set columns typemy_df['col'] = my_df['col'].astype(np.float64)# computations for 4 quantiles : quartilesbins_col = pd.qcut(my_df['col'], 4)bins_c...

2018-07-15 22:29:00 954

原创 Numpy 的常用操作

1.创建数组array 1 # 创建数组array 2 import numpy as np 3 a = np.array([1,2,3]) #创建数组 4 b = np.array([(1.5,2,3), (4,5,6)], 5 dtype=float) 6 c = np.array([(1.5,2,3), (4,5,6)], 7 [(3,2,1), (4,5...

2018-07-15 21:46:00 257

原创 数据挖掘特征提取方法-汇集

1.基于树模型提取特征# 使用树模型提取特征import numpy as npfrom sklearn import feature_selectionfrom sklearn.ensemble import GradientBoostingClassifiermatrix = np.array(X)target = np.array(target)temp = featur...

2018-07-15 21:20:00 2904

2019研究生数学建模成绩汇总.xlsx

2019年第十六届研究生数学建模比赛成绩汇总,包含A、B、C、D、E、F每个题的获奖情况汇总数据,可以用户成绩数据的分析。

2019-11-11

数学建模的三十二种常规方法

32种方法分别是:线性规划、整数规划、非线性规划、动态规划、图与网络、排队论、对策论、层次分析法、插值与拟合、数据的统计描述和分析、方差分析、回归分析、微分方程建模、稳定状态模型、常微分方程的解法、差分方程模型、马氏链模型、变分法模型、神经网络模型、偏微分方程的数值解、目标规划、模糊数学模型、现代优化算法、时间序列模型、存贮论、经济与金融中的优化问题、生产与服务运作管理中的优化问题、灰色系统理论及其应用、多元分析、偏最小二乘回归、支持向量机(数学建模)、作业计划(数学建模)

2019-04-07

2018年中国研究生数学建模C题恐怖袭击获奖论文

2018年中国第十五届华为杯研究生数学建模C题恐怖袭击二等奖论文,论文最后附有部分Python代码,供学习和参考。欢迎下载,学习和讨论。这是我们团队的获奖论文,如有疑问私信咨询。

2018-12-07

2018年中国研究生数学建模竞赛赛题

2018年第十五届中国研究生数学建模竞赛赛题,赛题信息完整,欢迎下载!!!

2018-11-14

2018研究生数学建模成绩汇总

2018研究生数学建模成绩汇总Excel,可以用做数据分析展示的数据资源,联系数据分析和可视化

2018-11-11

数据流聚类知识&Stream;、CluStream、Birch算法

数据流聚类相关知识以及Stream、CluStream、Birch算法的讲解

2018-04-27

MegaStat for Excel(2010/2007)

MegaStat excel2007/2010插件,一款强大的统计分析插件,方便使用,功能强大

2018-03-25

基于密度的聚类-DBSCAN、OPTICS、DENCLUE

基于密度的聚类-DBSCAN、OPTICS、DENCLUE,自己整理,容易理解、并举例演示算法过程,简洁明了

2017-12-12

轨迹大数据处理关键技术研究综述

轨迹大数据处理关键技术研究综述ppt,根据“轨迹大数据:数据处理关键技术研究综述”,软件学报上的一篇文章整理而来,包括轨迹数据概述、轨迹数据预处理、轨迹索引与检索、轨迹数据挖掘、轨迹数据隐私保护、轨迹数据处理新技术及总结

2017-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除