自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 Java学习_4

这里我们看一下 java 中的 日期和时间1. 日期和时间首先是 java.util 包提供了 Date 类来封装日期和时间。下面所有关于日期和时间的内容其实都是基于 Date() 类来说的。Date 类使用两个构造函数来实例化 Date 对象。第一个构造函数用当前时间来实例化Date()第二个接受一个参数,该参数是从1970年1月1日起的毫秒数。Date(lo...

2018-10-22 22:07:00 232

原创 Java学习_3

这一节我们看一下 java 运算符、循环控制语句1. java 运算符:这里只看一下几个你不太熟悉的:逻辑运算符:&&、||、!  -------------- 与或非条件运算符:语法: variable x = (expression) ? value1 : value2     条件成立,就等于前面的,否则等于后面。例子: a = (b==30)...

2018-10-22 22:06:11 254

原创 Java学习_2

这一节看一下java基本数据类型和变量类型1. 基本数据类型这里和其他语言的基本数据类型是一致的(多了一个byte)。只强调一下自动类型转换和强制类型转换自动类型转换:     这里需要注意的是,这个自动类型装换是有一个隐含的顺序:  强制类型转换: 2. 变量类型在java 里面支持的变量类型有:类变量(静态变量):独立于方法之外的变量,用...

2018-10-22 22:05:07 258

原创 Java学习_1

之前的JDK已经配好了,今天下载了eclipse for java. 开始学习一下基础 java。 1. 基础语法      首先,在终端用javac FileName.java 对脚本进行编译,之后会自动生成ClassName.class。然后终端 java ClassName就可以运行,一定注意是java 类名才可以运行      其次,在所有Java代码中要注意,1) j...

2018-10-22 22:01:19 194

原创 关于python中的 lamda 匿名函数

lambda表达式 是指 匿名函数。 通常是需要一个函数,但是又不想去命名一个函数 的场合下使用(或者说不允许 def 出现的地方)。有如下几种使用方式:1. lambda 的一般形式是关键字 lambda 后面跟参数,紧跟一个冒号,之后是一个表达式。lambda 是一个表达式而不是一个语句。作为一个表达式,lambda 返回一个值。2. lambda 表达式常用来编写跳转表 ( ...

2018-10-15 21:34:01 541

原创 关于Python中的 yield

今天研究一下 python 中的 yield。首先要明白的是 generator 叫做“迭代器”,是可以用在 for 循环中的,包括 生成器 和 带有 yield 表达式的 generator function.              这里yield 有两个优点:                               1. 不会把所有数据取出来放进内存里,而是返回一个对象,用...

2018-10-15 15:02:50 319

原创 周工作计划__19

上个星期实验室的工作完成的不错,提前完成了任务。但是个人学习的部分还是不够。上次罗列的任务基本没有做。 这个星期的工作计划有:1.  完成组播系统功能模块的文档编写。2. 开始看机器学习的书。3. 开始学习java(以后肯定用的到,过几天就会安排郊游中国的项目了。) 你看到师兄们都拿到很好的Offer。所以自己也要加油加油。健完身一定还要来实验室,电脑就不要带回...

2018-10-15 14:04:06 704

原创 组播工作计划更新

今天晚上在ubuntu上面调试了很久原来的代码,其中DC端的代码成功运行起来了。sds域的代码还没有运行起来,现在的问题是 libmysqlclient.so.16这个共享包没有配置好。弄了很久也没有解决。不过其实把原来的代码跑起来也没什么用了。现在工作的重点是,要把整个框架重新画出来,然后根据之前的论文把所有的技术框架和技术难点一一罗列出来,并且要写出相关的解决方案。之后,根据这...

2018-10-09 21:20:20 180

原创 关于组播的基础知识

1. 组播的基础概念:        就是说一对多的通信。这个是相对于单播和广播而言的。IP 组播是对硬件组播的抽象,是对标准 IP 网络层协议的扩展,它通过使用特定的 IP 组播地址,按照最大投递的原则,将 IP 数据报传输到一个组播群组的终端集合。其基本思想是:当某发送方向一组用户发送数据时,它不必向每个用户都发送一份数据,而只需将数据发送到一个特定的预约的组地址,所有加入该组的用户均...

2018-10-08 15:16:49 1478

原创 windows下最强大的SSH连接软件

今天在下载文件夹的时候用sz命令遇到了问题,因为sz/rz命令只能用来下载单个的文件。(优点就是说可以直接在linux中安装,不用在windows端进行多余软件的安装)。去查了一下,发现了另外一个很厉害的SSH软件叫做  Bitvise SSH这个软件和Xshell类似,但是其集成了FTP和FQ(翻墙),可以下载文件夹(对比于上面提到的sz命令)这个是SSH登录界面。登录之后就弹出...

2018-10-08 11:07:40 7737

原创 周工作计划__18

这是国庆节后的第一个星期。上一个星期的计划都完成了。很好的一点是确定了工作的方向。本周的工作计划:1. 让董鉴在ARM板子上装好操作系统。并把组播的c&s端代码跑起来。2. 研究一下组播的关键代码,编写相关ppt。3. 研究一下多主机之间的组播通信。 在空余时间学习:1. Linux系统中那些文件目录的作用。2. 做漫画的作业3, 基本过一下java...

2018-10-08 09:08:19 401

原创 Python3下使用WC和numpy做云图

分为两个部分来完成:1. 得到分词。2. 数据处理3. 生成云图。 1. 分词的获取。这里的分词可以是来源于爬取的文本,之后用 jieba 包做一下分词(用jieba.cut()方法)。会得到分词集合(这里返回的是generator)。可以写一个小函数来对分词结果进行初步处理。如下,可以避免单个字或者换行符号。2. 数据处理上面得到了最原始的文本分词。这里需要将...

2018-09-27 20:23:11 560

原创 win下,基于VBox安装ubuntu虚拟机

主要参考了http://www.cnblogs.com/rocedu/p/6012545.html,希望大家尊重原创。下面总结一下安装虚拟机的过程。前期需要: VBox + Ubuntu.iso这里理解一下,VBox作为虚拟机运行的环境。而Ubuntu镜像作为虚拟机的操作系统。简单来说就是VBox创建了一个没有操作系统的主机,之后我们用镜像装了系统。 1. 在VBox中创建虚拟...

2018-09-25 11:41:21 360

原创 周工作计划__17

首先需要说明的是,上一个星期的工作都完成了。不过个人感觉有几点问题。问题:1. 每天的学习时间太少了。      这个主要是说晚上的情况,晚上如果不来实验室的话,一天的学习时间只有5-6个小时,这样算下来是远远不够的。这一点从你的更新博客的数量就可以看出来,整个九月份没有更新几篇靠谱的博客。      所以要对自己提出要求,除了去健身,晚上一定要坚持在实验室学习。还要保证晚上的学习...

2018-09-25 09:13:12 1904

原创 周工作计划__16

这是开学的第三周,这个星期开始上课。本周的工作重点有:1. check一下课程,看一下哪个需要退,哪个还要继续抢。        这里想抢一下跨文化交流的英语课(不过也没那么所谓)2. 加油看看论文,跟星宇争取在这个星期跟老师讨论一下。3. 锻炼身体常态化。         要让自己的身体适应这个节奏。4. 帮薛波波把电脑的事情搞定。...

2018-09-18 09:04:32 169

原创 分布式基站中的BBU和RRU

分布式基站是相对于传统的宏基站来说的。分布式基站一个典型的例子就是EnodeB(Evolutional Node B,LTE中的基站。)分布式基站由两个主要的模块组成: BBU(Base Band Unit)和 RRU(Remote Raido Unit)射频拉远单元。基本思想就是说把基带和射频分开来处理,以达到分布式的效果,完成复杂区域(如大楼内部等)的覆盖工作。BBU和RRU之间由...

2018-09-14 10:41:19 16050

原创 关于屏幕分辨率的一点常识

平时经常听人说什么分辨率是多少多少。今天我们来总结一下常见屏幕分辨率和相关的接口。 ############### 先看分辨率 ################ 1. 720p / 1080p (Progressive Scan,逐行扫描)720p对应的分辨率为像素1280*720=92w像素1080p对应的分辨率为1920*1080=207w像素这里跟1080p类似的...

2018-09-13 10:32:47 6571

原创 周工作计划__15

这个星期是研究生入学的第一个星期,作为新阶段的开始,要培养好的习惯和良好的心态。在前两天完成了注册等乱起八糟的事情。 接下来的时间里,主要工作内容如下:1.  养成每天早起的习惯。7:00起床,收拾一下你的 FACE & HAIR,吃早饭。2. 看关于组播的那些资料,跟老师探讨一下这个东西到底在做什么。3. 跟进一下国庆回家车票的事情 。 Keep on f...

2018-09-12 17:04:59 171

原创 MongoDB基础学习

之前对Redis有过使用,了解的还算比较清楚。redis的优势在于其处理数据的速度非常快,所以常常用作去耦合的中间件。而MongoDB对于Json形式的数据处理有着非常大的优势(在Mongo中叫做Bson)下面学习一下MongoDB的基本概念和操作。 1. 安装和连接:安装不用说了,去官网下载到安装包然后安装,之后有一点需要注意的是,在安装目录下,有一个mongod.exe和m...

2018-08-21 17:50:53 189

原创 周工作计划__14

本周是实习的最后一个星期。上个星期跑了三天抖音,可以看到基本稳定在每天获得1W用户,还是很可观的。这个星期的工作重点主要是完成工作交接:1. 工作总结做一下,可能HR会要问2. 关于抖音这一块,写一个操作文档。把具体每个脚本是怎么样工作的写明白。3. 收拾东西溜溜。 休息一个多星期。准备开学。Keep On Fightiiiiiiiiiiiiiiiiiiiiiiiiiiiiii...

2018-08-20 11:55:35 667

原创 MTIMproxy的强大之处

1. MITM(Man In The Middle) Attack 中间人攻击 在之前抓取抖音的工程中,使用了mitmproxy这个强大的抓包工具(或者说是中间人拦截工具)。而mitmdump这个命令作为脚本的接口,功能及其强大,在监听包的同时还可以做一系列相关的操作,比如更改包头,获取response,获得各种包的信息,应该说是应有尽有。所以,加上适当的开发,一定可以做到实现你想...

2018-08-17 17:16:49 778

原创 关于计算机中的编码问题: ASC2/ Unicode/ Utf-8

这些关于编码的问题在之前的课本中都已经学过,不过细节不是很清楚了。现在来巩固一下:1. ASC2asc2是最早的编码。美国人发明的东西,所以这种编码只是编了127个字符,包括大小写英文字母和一些符号。规则是一个字符编8bit,也就是说1B. 显而易见,这个东西太狭窄了,只能给美国人用。所以就出现了其他的编码方式。 2. GBK2312GBK编码是针对中文的编码,每个...

2018-08-16 14:48:52 2006

原创 关于Http和 Https

前几天在公司的网站被黑的时候,就听到别人在说什么http和https的问题,当时不太懂。现在看一下。1. HTTPHttp 比较熟悉了,就是Hyper Text Transfer Protocol,是应用最为广泛的网络协议了。该协议没有任何加密操作,以明文的方式传递信息,所以如果在中间被人截去,别人也是可以读懂的。 2. HTTPS安全版的HTTP       详细地讲...

2018-08-15 14:57:41 322

原创 周工作计划__13

在Aibee工作的倒数第2个星期。上一个星期没有写工作计划。上个星期的整个工作都是围绕着在机器上面的调试来做的,经历了把机器搬回潘哥家里(由于占用公司的带宽严重问题),远程调试,用几天时间发现速度限制的问题,再重新换方法,到爬粉丝,到现在确定的 推荐页 刷包,mitmdump抓URL写入数据库,配合服务器上的脚本下载 的方法。  本周的工作计划如下:在上个星期已经完成确定的新方...

2018-08-13 11:04:01 196

原创 Python自动发送邮件(zmail 模块)

通过第三方(比如QQ,163) 提供的SMTP服务,我们可以用脚本来发送邮件。 1. 获取相关邮箱的SMTP服务:               首先要在QQ邮箱打开相关的SMTP服务,然后把授权码记下来,即为脚本中登陆的密码。2. 使用zmail模块来发送邮件 相关的send模块参数:具体的详细参数可以看   https://github.com/ZYunH/z...

2018-08-06 14:52:42 1697

原创 周工作计划__12

上个星期都在调试,在看抖音模拟器的速度问题。刚刚看了一下周末跑的情况-----2.5天跑了4000个用户。比起之前算的少了很多,但是去看日志,仍然是3分钟/用户。所以问题应该是重复。是这个刷的方法的问题。  本周工作任务:1. 等工资2. 跟公司同事请教一下买小米股票的情况3.把lofter弄完4. 等待接下来的任务(抖音这个事基本就告一段落了,可以放在那里让他...

2018-08-06 11:06:50 167

原创 Linux常用命令

这里根据我个人的掌握情况和使用情况,列出常用的命令:1. ln (Link):为某个文件在另外一个位置建立一个同步链接,占非常少量的磁盘空间。                分为 硬链接 和 软链接。                 ln -s 文件名 链接名                    2. less : 作为查看很大的log文件的指令。          ...

2018-08-02 17:26:51 263

原创 周工作计划__11

入职已经过去一个月了,这已经是第5个星期了。上个星期,我们尝试了在服务器端搭建Genymotion模拟器,但是由于VT的问题,无法完成。然后申请回来了机器。AMD 16核64G内存,1080Ti显卡的机器,帅的一批。这个星期工作内容入下:1. 星期一配好环境,进行测试,看一下一共最多可以运行多少台模拟器。然后估算一下时间。跟潘哥讨论一下2. 星期二开始正式跑脚本。然后期间在旁边调试...

2018-07-30 10:31:40 392

原创 深度爬取网易Lofter的爬虫

这里的Lofter的工作是公司要的。主要目的是爬取大量用户的相册,之后做计算机视觉的训练集来用的。个人感觉这个是爬虫很常见的一个作用领域。(不过说实话,还是感觉有点low,觉得爬虫还是比较底层的工作。)说回lofter。像这种爬取图片的一般都不难。但是Lofter这个网站,难就难在了其网页中用时间戳来做一系列的包参数,如果没有仔细研究的话,还是不好请求到包的。下面看一下我是怎么完成整个工作...

2018-07-25 13:51:38 5479 1

原创 随记4

这几天配Linux上面的Genymotion模拟器真的让我有点怀疑人生,因为很多东西自己真的不懂,感觉还是太菜了。好在于今天我坚持用Windows的服务器,比Linux提前一步,看到了Gen模拟器在服务器端是不能用的。这样及时止损,避免浪费更多的时间在这个上面。不过今天认识到了关于OpenGL的相关知识。可以用软件模拟相关的硬件功能从而让服务器端可以运行图形界面。Mesa_For_Wind...

2018-07-24 18:36:50 160

原创 周工作计划__10

关于抖音的爬虫,这已经是第三个星期了,觉得进度有点慢。这个星期无论如何要把这个爬虫做完。加油现在已经完成了windows版本上面的工作,包括调试什么的。但是没有同时运行多个模拟器。本周工作:1. 在Linux环境中配置    1) mitmproxy.   类似于mitmdump -s 那中命令。    2) Appium 环境的搭建(之前看是有Linux的版本的)    ...

2018-07-23 10:14:42 210

原创 周工作计划__9

这是入职的第四个星期。这周的工作计划还是围绕着抖音的爬虫来进行的,具体的有:1.  写好Download.py 的下载脚本。要关注几点:    1)下载视频的去重。(用临时队列来完成)    2)用户的去重。(用Redis数据库中的Set来完成)2. 写好自动化测试的脚本。    现在其实已经写了差不多了,不过具体在进入个人主页的点击时候会有问题,某些主页就找不到这个控件。相应的解决方法可以是用T...

2018-07-16 10:29:55 755

原创 JAVA环境变量配置 could not find java.dll

配置Java环境变量的时候。最终cmd 下javac可以读取,但是输入java -version 就会报错。    could not find java.dll    could not xxxxxx Environment这时候其实知识环境变量顺序的问题。把%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin  两个环境变量移到java/classpath前面...

2018-07-12 11:08:43 1098 2

原创 周工作计划__8

这里已经拖到今天才写周工作计划。      因为今天下午偷个懒,写了自己的爬虫。爬BiliBili.哈哈哈哈。周末的话,把B站和Lofter的爬虫的教程都写一下。写在自己的博客里。      本周主要工作:1. 摸索抖音爬取的相关工作。目前已经用mitmproxy进行了下载工作。下面,就是用Appium看怎么完成自动化控制APP。然后就完成了整体的设计。...

2018-07-10 19:20:44 244

原创 Requests请求时SSLError的解决方法。

爬虫中,requests请求可能会遇到SSL Error的问题,看了别人的博客,是说证书的问题。解决方法:requests.get(url, verify =  False ) 意思是不去认证。

2018-07-10 17:04:42 5456 2

原创 关于全局变量和局部变量的问题

昨天在写代码的时候,遇到了一个很让人抓狂的问题,其实很简单,就是全局变量和局部变量的问题。***********************************************声明 变量A    function:        使用 变量A**********************************************按照上面的逻辑来写。不然会出现局部变量屏蔽面的变量的问题 ...

2018-07-10 13:37:56 378

原创 RE 的小问题

写爬虫时候正则匹配必不可少!    这里有一个问题,就是说对于 “?”“.”类似这种特殊符号的匹配。类似于转义符号,\? 即可匹配! 已经犯过两次这个错误了。浪费了很多时间。下次遇到正则匹配,匹配不到内容的时候,从后面向前删除,就明白问题在哪里!  Plus: 正则的返回结果是一个List...   要用的时候一定要 re.findall()[0] 这样用 一、小括...

2018-07-09 15:56:56 266

原创 Python中的进程/线程/协程

在爬虫中的数据下载部分,由于单线程下载非常慢,这里要考虑使用多线程。1. 进程1) 在Unix/Linux操作系统里面,系统提供了Fork()调用,跟普通的函数不同,fork调用一次,返回两次。因为操作系统把当前进程(父进程)复制了一份(子进程),所以在父和子进程内分别返回,即返回两次。子进程返回0,父返回子进程的ID.2)   在windows里面没有fork调用,但是python提供了mult...

2018-07-06 17:18:12 6331

原创 Linux学习--4

之前看了Linux的基本操作。这一篇笔记中,我们来看一下关于把脚本爬虫部署到Linux服务器上面的做法。 1. 配置Linux环境:    首先是要把Linux上面的环境配好,比如Redis / Python3 / Requsts库/ Redis库。总之需要的依赖都要配好。 2. 上传代码和Json文件:    对于Mac系统,直接由SCP(SSH Copy)命令来uplo...

2018-07-04 12:02:58 217

原创 Linux学习--3

Shell学习:Shell 是用C语言写的程序,用户通过shell程序来访问操作系统内核的服务。shell脚本。   Shell跟java,php一样,只需要文本编辑软件和相关的脚本解释器就可以运行了。大多数Linux中,默认的shell都是BASH(Bourne Again Shell)。1. 第一个shell脚本:vim test.sh然后写入 #!/bin/bash         # !是...

2018-07-03 13:05:53 183

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除