6 今晚打佬虎

尚未进行身份认证

The things I wish I don't Know,Suck it .

等级
TA的排名 9k+

Python is Cool

Python is cool学习了1. Lambda, map, filter, reducelambda是python中构造匿名函数的关键字def square_fn(x): return x * xsquare_ld = lambda x: x * xfor i in range(10): assert square_fn(i) == square_ld(i)...

2019-12-04 11:30:07

7.handle Streaming Data

Optimizing PySpark and PySpark StreamingPageRank AlgorithmKNN (cartesian, broadcast)StreamingPage-Rank Algorithm by Using PySpark Codefrom pyspark.sql import SparkSessionspark = SparkSession.b...

2019-12-02 13:51:21

6.I/O操作(txt, json, hdfs, csv...)

from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('IO').getOrCreate()read txttextFile : only text contentwholeTextFiles : file path and text content通用的三个参数:pathminPart...

2019-12-02 13:48:00

5.Paired RDD的基本操作和PageRank

Paired RDD (k:v)from pyspark.sql import SparkSessionimport pyspark.sql.functions as Ffrom pyspark.sql.types import *spark = SparkSession.builder.appName('Paired_RDD').getOrCreate()temp = ['...

2019-12-02 13:44:59

4.RDD对象的基本操作

RDD对象的基本操作from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('learn_RDD').getOrCreate()# Create RDD of list.List = [2.3,3.4,4.3,2.4,2.3,4.0]rdd = spark.sparkContext.para...

2019-12-02 13:39:15

3.Python data types

Python data types# Create a long integer# 在Python 3里,只有一种整数类型 int,表示为长整型,没有 python2 中的 Long # Create a StringpythonStr = "Learning PySpark is fun"pythonStrpythonStr[9]'P'# find pythonSt...

2019-12-02 13:33:01

Armadillo:踩坑指南(ubuntu-16.04+clion)

Armadillo本来是要安装mlpack的但是他有一个依赖Armadillo.这个库,不建议在ubuntu 16.04上sudo apt-get install,apt-get一时爽,找不到.so的时候急的直挠头。建议手动安装:1.下载压缩包地址:http://arma.sourceforge.net/download.html这里面还有一个小坑, 压缩包的格式是这样的`.tar.x...

2019-11-28 16:08:55

Meta-Programming in Python

2019-10-24 19:06:26

PySpark : 写数据到Hive(local data)

把本地数据导入到Hivefrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName('write_data').getOrCreate()import pyspark.sql.functions as Ffrom pyspark.sql.types import * # Row, StructTyp...

2019-10-11 18:31:32

PySpark : Structured Streaming

Spark Structured Streamingmain difference between streaming and batch datadetails on the Structured Streaming APIuse for Structured Streaming on imcoming data and save output result in m...

2019-10-10 14:36:04

DataGame : AIIA 2019

任务描述需要利用历史流量数据,对未来一段时间内的小时粒度流量进行精准预测,从而为设备缩扩容提供参考依据。本赛题提供多个地市两年内小时粒度的 4G 流量脱敏数据,要求参赛者利用提供的数据,自建算法模型,对未来三个月的流量使用情况进行小时粒度的预测,最终提交预测结果的具体数据。评测指标包括多种准确性指标,同时考虑未来三个月内每日流量峰值预测结果、每日小时粒度预测结果,以及特定节假日期间预测结果,最终...

2019-09-17 10:30:46

DataGame: IKCEST 2019

IKCEST 2019马马虎虎

2019-09-14 11:50:38

装饰器的四个用法

装饰器的用法和用例参数检查装饰器缓存装饰器代理装饰器上下文装饰器参数检查(检查被装饰函数的输入输出参数类型)XML-RPC:轻量级的远程过程调用协议,该协议提供了扩展,可以用来发现服务器的API,Python的xmlrpc模块实现了这个扩展。rpc_info = {}def xmlrpc(in_=(), out=(type(None), )): # in_ , ...

2019-06-19 19:17:41

PHLK:生成器、装饰器

Generatordef printf(nums): for num in nums: print('num is %d'%num) yield numdef adder(nums): for num in nums: print('adding %d'%num) if num % 2 == 0: ...

2019-06-19 19:14:55

Python:内置类型

chapter 2.1字符串与字节序列字符串编码为字节序列字节序列转换为字符串字节数组bytearray字符串的拼接list实现细节列表推导zip序列解包字典集合字符串与字节序列(str,bytes)Python3中只有一种能够保存文本信息的数据类型,就是str(string,字符串,不可变序列)Python2中用str来表示字节字符串Python3中用byte...

2019-06-02 22:42:43

Py2,Py3的差异

chapter 1Python3.x与Python2.7相比的主要变化print()是一个函数,必须加括号.捕获异常由except ext, var变为expect exc as vat.弃用<>,改用!=.from module import *,只能用于模块,不能用在函数中.from .[module] import name,是相对导入的唯一正确语法.sorted...

2019-06-02 22:38:17

GCN图卷积网络简单实现

GraphConvolutionalNetwork从信息传递的角度来分析GCN在GCN中每个node都有自己的representationhih_ihi​根据信息传递的范式,每个node会收到它的邻接node发送的message(representation)每个node将收到邻居的message进行聚合得到hi^\hat{h_i}hi​^​聚合后的...

2019-05-13 15:45:25

Pyspark:NLP(文本分类)

PySpark : NLP 文件分类目录IntroductionNLP five major stepsCorpusTokenizeStopwordsBag of WordsCount VectorizerTF-IDFText ClassificationEvaluationIntroductionNLP :  The area that focuses on ...

2019-05-08 20:40:31

Pyspark:电影推荐

目录Data setCreate SparkSession and Load dataEDAFeature EngineeringSplitting DatasetTrain ModelEvaluationRecommend MovieData set  来自一个开源电影数据集,约10万条数据。Create SparkSession and Load datafrom ...

2019-05-06 16:08:06

DLG:图分类

DGL : Graph ClassificationDGL中的data.MiniGCDataset的类提供了一个合成的数据集。数据集有8种不同类型的图.load datafrom dgl.data import MiniGCDatasetimport matplotlib.pyplot as pltimport networkx as nx%matplotlib inline#...

2019-05-04 23:05:56

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 推荐红人
    推荐红人
    发布高质量Blink获得高赞和评论,进入推荐栏目即可获得
  • 新人勋章
    新人勋章
    用户发布第一条Blink获赞超过3个即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。