自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

转载 Kaggle竞赛中最终成为0.3%的获奖经验

自动化数据准备及协作平台Dataland的联合创始人Lavanya Shukla,在博客上分享了她在Kaggle竞赛中最终成为0.3%的获奖经验。先放上原文地址:https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competitionKaggle经典房价预测题目(Advanced Regression ...

2019-06-16 12:53:15 1683

原创 pd.read_excel()练习

# -*- coding: utf-8 -*-import pandas as pdimport numpy as npdf11=pd.read_excel("C:/Users/Administrator/Desktop/20190527/表1.xlsx")df12=pd.read_excel("C:/Users/Administrator/Desktop/20190527/表2.xls...

2019-05-29 19:23:17 2927

原创 恐怖袭击等级预测量化与ARMIA时间序列建模的例子

一.恐怖袭击的全球分布量化图:(量化分类由k-means算法得)# coding:utf-8import pandas as pdimport mpl_toolkits.basemap #地图只在Spyder中加载是成功的!!!import matplotlib.pyplot as pltimport seaborn as snsplt.style.use(...

2019-05-19 11:10:10 1772 1

原创 Chrome71中HTTP Graph Collector Chrome插件离线安装方法

httpgraph插件检测自己主机对web页面的访问,并将web页面间关系用Gephi做可视化。效果图如下所示:1.下载插件:HTTP Graph Collector Chromehttps://extension.extfans.com/extensions/lkkdeokncfjlinldgikoabgknklnnkoe_0.1.crx2.离线插件具体安装过程:1>将插件名称重...

2019-05-13 23:50:49 763

原创 Echarts绘图使用经验

摘要1.如何查找echarts相对路径中的数据文件(针对动态加载);2.他山之石可以攻玉(通过类比echarts其他代码中的相同键值对的书写,做相同字段的静态直接替换,或者对近义词字段直接做替换来绘图)1.查找echarts相对路径中的数据文件(针对动态加载)以 https://echarts.baidu.com/echarts2/doc/example/webkit-dep2.html ...

2019-05-13 09:59:51 2098

转载 word2vec 中的数学原理详解

word2vec 中的数学原理详解      word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增...

2019-05-12 20:44:32 228

转载 sklearn多标签分类算法练习

1.例1import numpy as npimport pandas as pdimport scipyfrom scipy.io import arff#数据集data, meta = scipy.io.arff.loadarff('D:/Programs/meka1.9.2/data/Yeast.arff')df = pd.DataFrame(data)columns1=df...

2019-05-12 15:02:02 2616 1

原创 DataFrame和Series练习

主要练习DataFrame的import pandas as pdzhou=[[1,2,3,4],[5,6,7,8]]df=pd.DataFrame(zhou,columns=['x1','x2','x3','x4'])df1=df.copy() #拷贝一个DataFrame的副本import osimport datetimeimport nump...

2019-05-01 11:25:08 615

原创 基于SVD分解的简易菜品推荐系统

简易推荐系统功能:1.基于物品相似度,向同一用户推荐不同的相似商品(user:items=1:N);2.基于用户相似度,将同一商品推荐给不同的未购买用户(users:item=N:1);#coding=utf-8"""简易推荐系统: 1.基于物品相似度,向同一用户推荐不同的相似商品(user:items=1:N); 2.基于用户相似度,将同一商品推荐给不同的未购买用户(u...

2019-04-29 20:03:15 1158

原创 Excel中多个模型的ROC曲线的同时绘制

1.ROC曲线绘制2.AUC计算原理1.ROC(receiver operating characteristic curve )曲线,中文名是接受者操作特性曲线,ROC是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。常常被用于说明二分类应用中模型性能的好坏!直观地说,ROC左上角的曲线越凸(突出的弧度越大)...

2019-04-26 19:06:57 14082 2

原创 LDA主题模型练习1

**1.**本文针对LDA主题模型进行学习和联系,核心摘要如下:**2.**NLP中的共现对应条件概率(独立时最特殊),最大似然估计计算字符的共现例子:**3.**LDA主题模型代码实例#-*-coding:utf8-*-import jiebadir1='E:/ssssszzz/lda/'def stopwordslist(filepath): stopwords = [l...

2019-03-31 11:16:18 988 1

转载 GaussianHMM和ensemble.bagging的例程

import numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.linear_model import RidgeCV, LassoCVfrom sklearn.model_selection import train_test_splitfrom sklearn.ensembl...

2019-03-31 09:33:48 1884 1

原创 回文字母卡片序列的基元素长度

package CommandPattern1.edu.com;import java.util.Scanner;public class Test4 { public static boolean isHuiWen(String text) { int length = text.length(); for (int i = 0; i &...

2019-03-14 21:38:09 154

原创 weka和meka的.bat批量处理命令小结

1.weka和meka中都可以先导入数据,然后直接选择模型配置各项参数,然后右键复制模型配置参数,粘贴到记事本中再做少量添加就变成了可执行的命令行命令。命令行执行可以输出各个样本预测的概率和标签。2.最笨的命令行方式(需要批量处理的文件个数少时)weka和meka均适用。2.1.wekacd D:/Programs/weka-3.9/Weka-3-9java weka.classifie...

2019-02-28 11:06:36 782

转载 weka中的各种算法说明

1) 数据输入和输出 WOW():查看Weka函数的参数。 Weka_control():设置Weka函数的参数。 read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据。 write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。2) 数据预处理 N...

2019-02-27 09:48:00 1944

转载 25个Java机器学习工具&库

本列表总结了25个Java机器学习工具&库:1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分...

2019-02-25 08:55:29 299

原创 matlab实现管道铺设四阶段的三维立体完成透视图

本文希望将某处管道铺设的四个阶段的完成情况通过hold on完成三维叠加后的完成透视图。效果类似于这样子:管道铺设四阶段的三维立体完成透视图:1.使用hold on命令,完成图形的三维叠加尝试过程;2.完成各个阶段新修建管线的高亮和放大显示,并标注阶段名称和图标各种信息。一.mian函数%% 使用邻接矩阵和hold on命令实现某处管道施工中的四阶段实现adress1=[300,65...

2019-02-23 16:01:43 2160

原创 词云之matlab实现复杂数字图像背景剔除

为了制作各种好看的词云标签,一张好的背景图片寻找起来并不容易,例如本文所使用的"汗血宝马"的图片,背景不是我所需要的,如何实现对图像的有效分割?去除背景噪声是本文关注的重点。本文拟采用matlab来实现这个简易的功能。1.本文将对马进行测试:2.数字图像背景去除最好的方式有以下几种:a.PhontoShop,使用选择工具即可;b.最简单的阈值分割理论;(本文的方法),C++,matlab.

2019-01-21 19:42:49 13556 4

原创 sklearn中的投票机制学习笔记

投票机制(voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。机器学习分类算法的输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(Soft voting)。 sklearn中的投票机制使用VotingClassifier来实现。1....

2019-01-13 21:09:30 7946

转载 区块链产业云图

区块链以其"可溯源"的特点,广泛应用于机场物流管理,版权保护,分布式账本等等方面。但是也由于其是否真正"去中心化"而饱受质疑,确切的说,目前要实现完全的去中心化,同时保证分布式条件下的支付功能,效率依然很低,去中心化后的第三方监管对交易双方权益的监管和保护缺失。区块链究竟能走多远,未知…,但是,事物是在运动变化的,人们解决这个"去中心化"的方案可能只是时间的问题,所以个人对区块链的未来还是充满信心...

2019-01-13 20:10:46 1081

原创 Apriori和FPgrowth代码实例

本文分别使用商场购物篮数据集和电影数据集来分别针对Apriori和FPgrowth进行实际的运用和学习。1.dataset:https://github.com/ywchiu/python_for_data_science 中的Data文件夹下面有具体数据。按照本文的csv文件进行读取即可。2.Apriori用于购物篮分析2.1.代码import numpy as npimport m...

2019-01-13 13:54:09 1243

原创 银行间市场评论员文章词云绘制效果

本文以《中国金融》银行间市场金融科技标准化建设一文为原始材料,对改文章做了自定义分词,并统计词频,最后绘制词云。以期通过机器来认识机器思维和人的思维之间存在的一些差异。对《杀死一只知更鸟》中律师阿蒂克斯的这句话自己有了很深的认同感--------去掉那些形容词,剩下的就是事实了!名词在人们思维中确实是扮演了非常重要的角色,因为名词往往用来说明时间、地点、人物、事情、概念、实体、类、关系或联系、属性...

2019-01-09 10:01:57 781

转载 Matplotlib数据可视化画图练习

本节内容转自阿里天池技术论坛。详细网址如下:https://tianchi.aliyun.com/learn/liveDetail.html?spm=5176.11510288.4851103.4.2706b7bd7jjU4d&classroomId=261 ,但是再好的博客,不如到权威官方文档学习来的实在!博客从形式上教会人例化参数,传入实参。而更深层次的学习,查看官方文档更有用,这样可...

2019-01-03 11:45:04 6156

原创 将电子书转为PDF涉及的PDF拆分合并总结

因为阅读网上的很多电子书存在翻页繁琐和查找不方便的问题,也很难在网站上做笔记。故查阅部分资料想要自己写一个小爬虫,然后可以将爬取到的电子书内容页面(html格式)最终保存成PDF格式。故编写如下爬虫代码来实现此功能。由于Python3和Python2.7的版本兼容性问题,故只在正确爬取了电子书后,我并不能将很好的将已经处理成单页的PDF文件拼接起来合成一个大的PDF文件。但是,条条大路通罗马,我发...

2019-01-02 23:20:09 1018

原创 Python面向对象的理解

python中一切皆为对象,类型的本质就是类!Python常用的数据结构如:List、tuple、dict、array、DataFrame或者Series等等都是类,类的实例就是对象。甚至连fp=open(’…/data/zhou.txt’)的句柄fp都可以作为(变量)对象传入函数。一切就是这么神奇!为了提高代码的复用性和更好的封装函数或变量的作用域,使用类再做一次封装会有用很多。1.Pytho...

2019-01-01 20:22:25 1796

原创 Java简易计算器实现&控制台万年历的设计实现

本文例程出自《Java核心技术》,主编:马志强、张然等。感觉这本书部分章节写的还可以,比很多入门级的书更加直白和趣味性强,更接近实际项目层面!1.Java简易计算器实现1.1.效果1.2.代码package charpter06.edu.com.login.JMenuTest;import java.awt.BorderLayout; import java.awt.Color; ...

2018-12-28 23:04:17 303

原创 使用post提交表单的爬虫小程序

本文针对复杂数据网站进行数据爬取测试,本文使用的爬虫工具是psotman,通过postman来模拟和尝试生成post连接,以找出爬虫URL的准确形式,最后将代码整合后形成完整的批量化数据爬取代码。1.爬取ctd药物数据网站上的drug数据:ctd数很多生物研究常常使用的大型数据库之一,但是要想每次粘贴进去4000个药物名称进行批量查询和下载,往往会导致数据库的反应时间过长,文件过大中途与服务器...

2018-12-27 18:55:48 1438

原创 使用matlab分析器跟踪matlab代码执行时间

本文针对各大matlab版本均有效!可以通过往程序中嵌入语句,以达到使用matlab分析器跟踪matlab代码执行时间的目的。1.代码function InlineSubAnonymousNestedDemo %% 用inline解决 tic; k=linspace(0,5); y1=zeros(size(k)); for i=1:length(k) ...

2018-12-26 16:01:36 1735

原创 使用随机数制作百家姓签名墙

本文拟取用matlab随机数函数,自动生成好看酷炫的百家姓签名墙,实现字体的旋转和随机变大变小。学习突然变得充满趣味性多啦!1.效果:2.代码:axis off; %隐去坐标轴set(gcf,'menubar' ,'none' ,'toolbar' ,'none');%不显示当前figure 菜单栏和工具栏%百家姓列表Xingshi=unique({'赵','钱','孙','李','...

2018-12-26 15:24:39 1281

原创 10折交叉验证深入理解

交叉验证(Cross Validation),有的时候也称作循环估计(Rotation Estimation),是一种统计学上将数据样本切割成较小子集的实用方法,该理论是由Seymour Geisser提出的。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报...

2018-12-25 15:22:08 65082 17

原创 Python3 PCA理解小攻略

主成分分析(Principal Component Analysis,PCA), 是一种多元统计方法,也广泛应用于机器学习和其它领域。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。它的主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。关于PCA...

2018-12-23 17:52:26 1720

原创 logistic regression using Theano and stochastic gradient descent

本文是学习Theno教程做的网页版笔记!后续的学习过程中会重点关注如下的网站:http://deeplearning.net/tutorial/logreg.htmlhttps://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006...

2018-12-22 16:12:05 256

原创 爬虫小程序

应爬取新数据的急迫需求,学习和整理如下爬虫程序供后续学习和使用!修改各个路径和URL后本代码就可以正常执行了。主要步骤:1.西刺网上爬取IP数据;2.检验爬取的IP的有效性;3.将有效IP封装在List数据结构中构造成一个IP池,每次爬取数据时,随机从IP池中选取一个IP来做代理使用,防止自己电脑被反爬虫和谐掉!4.传入有效的目标网站的URL即可访问数据。#爬取可用公网IP构建IP池,...

2018-12-16 22:35:13 1332

原创 Python3实现二叉树的逐层遍历,并将奇数层顺序输出,偶数层逆序输出

任意给定一棵二叉树,实现对二叉树的逐层遍历,并将奇数层顺序输出,偶数层逆序输出。如建立如下的二叉树:···················root········ ·····7 ·········· 8·········6·····2······5·1······3·····4class TreeNode(object): def __init__(self,data=0,le...

2018-12-13 20:19:34 1016

原创 10折交叉验证中数据集的简易划分方式总结

DataFrame中自己手动做10折交叉验证时,实现采样出一折后,对原始的总的数据的索引集合与采样出的那一折的索引集合做差,获得另外的9折的索引用于构造训练集。"""1.10折交叉验证中数据的随机划分函数"""def cross_10folds(path,columns1): import

2018-12-08 18:51:31 9041

原创 Python3各种数据结构下的排序及去重汇总

1.List的排序;2.dict的排序;3.DataFrame和Series的排序;1.List的排序······使用 list.sort() 方法,此方法为就地排序(并且返回 None 来避免混淆)。通常来说这不如 sorted() 方便——但是当你不需要保留原始列表的时候,这种方式略高效一些。······另外一个区别是 list.sort() 方法只可以供列表使用,而 sorted(...

2018-12-07 23:00:45 515

原创 Python3 pd.merge()使用实例

本文想要将各个国家的恐怖袭击次数(频率),按照国家编号,依次赋给原始数据中113249条记录。实现如下效果:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#读入数据data=pd.read_excel('E:/E盘备份/C盘jupyter代码备份/C2018/data/C2018mathmod...

2018-12-06 15:38:52 5529

原创 构造正负样本:drug特征和atc特征和类标签

pos_sample_df是一个drug和ATC编码之间是否有associations的邻接矩阵,我需要根据这个矩阵来实现正负样本的构造。即:邻接矩阵中drug和ATC有边则用来构造正样本,无边用来构造负样本。其中有2000种drug,3000个ATC,drug和ATC的特征均为500x1,邻接矩阵中的1为正样本标签,0为负样本标签。拼接后的一个样本为1001x1的列向量。import nump...

2018-12-06 15:21:52 704

原创 Python3脚本实现csv文件和arff文件的相互转换

本文实现在Python3环境下,编程实现csv文件和arff文件的相互转换。本文所用数据来自于weka3.8或者weka3.9中data子目录下的airline.arff文件。使用Python代码实现airline.arff到airline.csv文件的转换(实质是信息的抽取和重新组织)和airline.csv文件到airline1.arff文件的转换(实质是行文本数据的拼接)。airline.a...

2018-11-30 22:29:15 3705 1

原创 weka java.io.IOException: Read unknown nominal value P2for attribute class (line: 20306)

最近weka3.8中遇到这么一个问题,百思不得解:在命令行下面,我想要通过weka命令将.csv文件转换成.arff文件:java weka.core.converters.CSVLoader C:\Users\Administrator\Desktop\train0.csv > C:\Users\Administrator\Desktop\train0.arff但是遇到了这么一个bug...

2018-11-30 00:00:20 737

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除