初夏11-CSDN博客

原创 matplotlib不显示中文问题

1.下载simheihttps://www.fontpalace.com/font-download/SimHei/2.下载的simhei放到..../matplotlib/mpl-data/fonts/ttf/目录下3.删除~/.cache/matplotlib的缓冲目录4.代码中添加：matplotlib.rcParams['font.sans-serif'] = ['S...

2019-01-23 14:16:41 435

原创 mac安装 tensorflow以及出现numpy.core.multiarray failed to import问题

安装tensoflow问题，sudo pip install --upgrade https://storage.googleapis.com/tensorflow/mac/tensorflow-0.8.0-py2-none-any.whl安装完后，import tensorflow 会出现 numpy.core.multiarray failed to import问题这是由

2016-09-13 14:18:30 7309

翻译 python—解决“Unable to find vcvarsall.bat”错误

[python安装目录]Lib/distutils/msvc9compiler.py修改MSVCCompiler函数：vc_env = query_vcvarsall(VERSION, plat_spec)为：vc_env = query_vcvarsall(12.0, plat_spec)12.0改成你安装的msvs对应的版本号补充：m

2016-08-11 00:14:12 365

原创 spark下的贝叶斯模型

贝叶斯模型调用函数比较简单，重点是数据格式的读取。还是在代码中说明吧import osimport sysfrom numpy import arrayfrom pyspark import SparkConffrom pyspark import SparkContext#from __future__ import print_function

2016-05-05 11:55:45 1148

原创 spark下的分词--spark+jieba

在网上找到的相关的spark程序都是spark自带的实例，或者没有python相关的代码，根据自己业务上的使用与调研，现在把涉及的spark相关的程序给介绍一下：首先1.spark下的切词。对于我这个spark小白来说，切词对我都是挺难的，因为没找到相关的实例。其实spark下是可以直接调用一下结巴jieba切词的。只不过格式要换一下。现在上一下代码：split_jieba2.py

2016-05-05 11:02:35 10769 4

原创基于scikit-learn(sklearn)做分类--3.优化--保存模型

上一章主要是讲了分类的过程，这一章主要是讲一些优化问题主要是对于训练的模型，要保存下结果，而不用重复的训练.import split_jieba2from sklearn.externals import joblibdef train(): tfidf_train_2 = tv.fit_transform(train_data);

2016-04-27 17:25:15 3794

原创基于scikit-learn(sklearn)做分类--2.分类

上一步对文本进行了切词，下一步就是进行了分类：//这里有个问题是，假如用predict_proba（）这个函数的时候，可以得到一篇文章属于一个类并得到属于这个类的概率，返回一个列表，而predict（）这个函数只能得到文本最应该属于的那个类，只能返回一个类。同时，对于给予中文类别，那么返回的可能是数字类别，现在没有找到中文类别和数字类进行对应的函数，于是直接自己把类别和数字进行对应，返回的类别

2016-04-27 17:17:31 4770

原创基于scikit-learn(sklearn)做分类--1.切词

原来看了很多例子，想做一个文本分类，大致是关于对网页内容进行分类，大约10个类。没有自己写程序，而是调用的包，主要是用的sklearn中的文本分类包，现在就把主要的程序贴上，供别人参考。1、切词首先是拿到文本进行切词，使用的是jieba分词，不过可以自己导入自定义词典。import jiebaimport sysimport osimport reimport

2016-04-27 16:20:07 1742

转载 yarn

Yarn设计的初衷就是为了在同一套集群上面跑不同的应用框架,不同的分布式框架各有优势，针对的业务场景是不一样的。MapReduce能更好的处理大批量的ETL业务而Spark则相对更为专注于Machine Learning。对于公司而言，这些业务如果能在同一集群上面跑则能有效降低成本。要允许不同框架同时运行在同一集群，最首要解决的问题就是如何分配资源。在没有Yarn的

2016-04-13 18:32:02 799

转载 pyspark的初始调用

1，直接进入pyspark进行命令行代码a.首先查看pyspark的安装目录$SPARK_HOME b.对于pyspark，打开文件的路径有两种，默认是从hdfs读取文件，也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读　　本地文件读取 sc.textFile("路径").在路径前面加上 file

2016-04-12 18:31:55 5918

转载 spark机器学习-前言

MapReduce有其严重的缺点,如启动任务时的高开销、对中间数据和计算结果写入磁盘的依赖。这些都使得Hadoop不适合迭代式或低延迟的任务。Apache Spark是一个新的分布式计算框架,从设计开始便注重对低延迟任务的优化,并将中间数据和结果保存在内存中。Spark提供简洁明了的函数式API,并完全兼容Hadoop生态系统。Spark还提供针对Scala、Java和Python语言的原

2016-04-12 09:53:06 497

转载 sklearn基础知识-准备阶段

6.标签特征二元化处理分类变量还有另一种方法，不需要通过OneHotEncoder，我们可以用LabelBinarizer。这是一个阈值与分类变量组合的方法。In [1]:from sklearn import datasets as diris = d.load_iris()target = iris.targetHow to do it...导入La

2016-04-11 19:42:19 4719

转载基于sklearn的例子-准备阶段

Getting readyscikit-learn的内置数据库在datasets模块里。用如下命令导入：In [1]:from sklearn import datasetsimport numpy as np在IPython里面运行datasets.*?就会看到data

2016-04-11 16:13:37 3304

翻译第四章监督学习

4.1 Generalized Linear Models 广义线性模型yˆ(w,x)=w0+w1x1+...+wpxp w是权重线性回归就是找到 w = (w1 , ..., wp ) 使平方差最小>>>fromsklearnimportlinear_model>>>clf =linear

2016-04-11 16:02:30 392

翻译第三章：WORKING WITH TEXT DATA

这一章是完整的进行一个数据挖掘的过程：在这一章中，学习1，如何加载一个文件组件和分类，2，抽取特征向量，3，训练一个线性模型，4使用网格搜索调优。3.2 加载一个20新闻组数据20,000 newsgroup documents, >>>categories =['alt.atheism','soc.re

2016-04-11 13:38:42 509

翻译第二章 scikit-learn 统计学习中数据处理

2.1 统计学习关于统计量和配置2.11 数据集 >>>fromsklearnimportdatasets>>>iris =datasets.load_iris()>>>data =iris.data>>>data.shape 显示数据量和特征维度这个是二维度数组作为特征的情况。>>>

2016-04-10 00:27:41 961

原创计划

1.下周就要开始做任务了，主要是关于文章对应label进行分类。计划先基于tfidf的方法进行分类，或者学习完sklearn可以使用一些svm或者用已有的逻辑回归或者随机森林或者lda进行分类。这是下周的计划。2.而自己的计划是先把sklearn 学习完，然后翻译完后。2000多页，最多一个月吧。3.把kaggle中的随机森林写完。一周4.然后把菜鸟网络中的任务完成，截止日期是5月16

2016-04-08 11:16:38 437 1

翻译第一章 sklearn 介绍

机器学习问题分为监督学习和非监督学习，监督学习分为分类和回归。非监督学习包含一些聚类问题。scikit-learn 包含一些标准数据集，如 iris and digits datasets 用于classification ， bostonhouse prices dataset 用于回归。1.2 加载数据集>>> from sklearn impo

2016-04-08 10:57:37 544

原创做最好的自己，成为最好的女子

每个人都有机会变成更好的自己，不到最后，你永远不知道自己会成为什么样子。

2016-04-08 09:35:13 310

转载 scikit-learn介绍

上一章主要介绍了几个python 常用的机器学习包。这一章主要介绍scikit-learn相关的内容，这个机器学习包官方文档介绍比较详细，不过都是英文版的介绍。下面要具体的分几章进行介绍。第1章，机器学习基础，将机器学习定义成一种通过学习经验改善工作效果的程序研究与设计过程。第2章，线性回归，介绍线性回归模型，一种解释变量和模型参数与连续的响应变量相关的模型。通过最小二乘法求解模型参数获得

2016-04-07 23:17:09 477

翻译 python 的机器学习库

现在想系统的学习一下机器学习的方法，首先想从关于python的机器学习库开始。关于python 的机器学习库，有一些常见的，用的最多的也许是scikit吧，后期继续调研。Python在科学计算领域，有两个重要的扩展模块：Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括：强大的N维数组对象Array；比较成熟的函数库；SciPy是一个开源的Python算法库和

2016-04-07 23:01:05 653

转载 vector list deque set map-底层实现

stl容器区别: vector list deque set map-底层实现stl容器区别: vector list deque set map （转）在STL中基本容器有: vector、list、deque、set、mapset 和map都是无序的保存元素,只能通过它提供的接口对里面的元素进行访问set:集合, 用来判断某一个元素是不是在一个组里面,使

2015-05-25 14:27:09 404

原创编辑距离 python

的编辑距离来求，然后说了一下怎么实现def leven(a,b): if len(a) > len(b): a,b = b,a if len(a) == 0 : return len(b) else: return len(a)

2015-05-25 11:27:43 760

转载 LearningToRank

转载http://itindex.net/detail/44310-learning-rank1.现有的排序模型主要可以分为以下两类：相关度排序模型和重要性排序模型。1.1 相关度排序模型(Relevance Ranking Model) 相关度排序模型根据查询和文档之间的相似度来对文档进行排序。常用的模型包括：布尔模型(Boolean Model

2015-05-25 09:52:24 476

原创链接

http://blog.csdn.net/chl033/article/details/4851408http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&ch=&tn=sitehao123&bar=&wd=%E8%81%9A%E7%B1%BB&rsv_pq=b154b8610003a48e&rsv_t=c6b28py7CbLuLf6J%2ByeK0o3jb

2015-05-24 22:26:41 463

原创关联容器map set

关联容器支持关键字查找和访问。两个主要类型是map和set。一个unordered multi_set是一个允许重复的关键字的，元素无序保存，一个set是一个要求不重复关键字的，有序存储的集合。map和multimap的头文件map中，set，multiset在set中。set只是查看关键字是否存在。map word_count;string word;++ word_count[

2015-05-24 19:15:52 257

u013083549的博客