6 机灵鹤

学生身份

我要认证

暂无相关简介

等级
TA的排名 1w+

【程序人生】机灵鹤七月份的月度总结

最近天气越来越热了。有多热呢?这么说吧,吃雪糕都得大口嗦,嗦慢了就都流手指上了。0x00 工作方面忙碌了两个来月,参与项目终于在这个月下旬正式上线了。虽说项目中,我是全程被大佬们带躺的,但是毕竟是人生中参与的第一个正式的大型的商业项目,还是蛮有成就感的。尤其是在内测时,看着那么多“找茬”的玩家使用我负责的那个模块,而且一切正常运行时,别提多得意了。(讲道理,我负责的那部分逻辑确实简单,基本上也没有啥机会出BUG,但是就是开心撒 哈哈哈)项目忙完了,终于迎来了短暂的工作淡季,可以...

2020-08-01 15:56:24

Python 网络爬虫实战:爬取知乎一个话题下的全部问题

此前分享过一篇知乎的爬虫《Python网络爬虫实战:爬取知乎话题下 18934 条回答数据》,这篇爬虫主要是用来爬取知乎中一个问题下的全部回答数据。而在后续跟读者朋友们的交流中发现,大家关心的其实不仅局限在爬取一个问题的回答,而是爬取某一个话题下,全部问题的全部回答。所以这篇爬虫我会教大家,如何使用爬虫,爬取知乎中某一个话题下的全部问题。0x00 思路分析事实上,知乎话题下的所有问题没有想象中那么容易爬取。我们任取一个话题(如:https://www.zhihu.com/topic.

2020-07-05 20:13:37

【程序人生】机灵鹤六月份的月度总结

转眼间,已经是六月的尾巴,我的第一份工作也刚好满3个月整了。今年虽然梦幻开局,虽然经过了超长的寒假待机,经历了居家隔离闷到爆炸,经历了孤身一人来到一个陌生的城市,一个人找房子,搬家,上班,经历了工作中被 C++ 各种花式吊打......但是还好,一切都有一个不错的结果。房子顺利租到了,离公司不远,住着不算宽敞但也挺自在;工作也找到了,在一个很厉害的项目组,有一帮很厉害的同事;经过了前期 C++ 的毒打之后,我也逐渐可以上手项目了;工资够花,除了给家里打一些之外,还能买点自己喜欢的东西;博客也重新..

2020-06-30 21:23:01

【Python 骚操作】使用 Gitbook + Typora 打造一个属于自己的电子书网站

前段时间,我在互联网冲浪时候,发现了一个写作的工具组合 Gitbook + Typora,堪称神器。安利到 Blink 和朋友圈之后,有一朋友表示很感兴趣,希望我简单出一个教程,介绍一下这套工具怎么使用。好吧,安排!0x00 效果展示Gitbook + Typora ,我称之为 “神器”,不仅是因为他可以用来写文章,更在于它可以将你写的 Markdown 文章直接转换成 pdf,转成各种常用格式,甚至可以转换成网页直接发布到网上。正好我的个人网站备案审核通过了,就利用 Gitbook.

2020-06-26 16:56:13

Python 网络爬虫实战:去哪儿网旅游攻略图文爬取保存为 Markdown电子书

接上回,《Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据》。我们爬取到了数千篇的旅游攻略文章的数据。但是事情还没有结束,对于大部分的人来讲,最希望得到的东西应该不是这种干巴巴的 Excel 数据,而是这种图文并茂的文章吧!其实之前我们爬过很多类似的网站,比如 《人民日报新闻爬虫》,《知乎问题回答爬虫》,都是爬取大段的文章。不过区别在于,那些爬虫的关注点在于文字,主要用来做分词,语义情感等方面的分析,不需要人工阅读,所以直接将图片,超链接,排版格式等东西舍弃,仅..

2020-06-21 00:10:16

【Pyppeteer】如何避开网站的反爬检测

【问题描述】有些网站的反爬机制是很强的,不仅网络请求中的参数经过 JS 加密,甚至还针对一些常用的爬虫工具,如 Selenium 作了屏蔽。比如前段时间我爬取的卫健委官网,反爬机制就相当变态(传送门:Python网络爬虫实战:卫健委官网数据的爬取)。本文教你如何设置 Pyppeteer 来完美地避开这些反爬机制的检测。【解决方法】方法一:在导入 launch 之前 把 --enable-automation 禁用 防止监测webdriverfrom pyppeteer imp.

2020-06-18 21:39:37

【Pyppeteer】如何进行超时时时间设置

【问题描述】在爬取网页的过程中,不可避免会有一部分链接失效,或者各种原因导致服务器响应慢,甚至不响应。这里有一个“超时时间” 的参数设置,就是如果服务器在指定时间内没有响应的话,程序直接停止等待响应,抛出异常。Pyppeteer 默认的超时时间是 30 秒。很多时候,30秒其实有点太长,或者太短了,我们希望可以根据项目实际情况,自己设置超时时间。【解决方法】我在网上找了一些方法,也做了一些测试。不知道是不是我的方法有问题,目前只有 方法三和 方法四 测试成功。这里将我...

2020-06-18 20:59:38

【Pyppeteer】爬取多个网页时,如何只创建一个浏览器窗口,打开多个页签

【问题描述】使用Pyppeteer 工具写爬虫时,我们一般可以用这样的方式来爬取网页。import asynciofrom pyppeteer import launch url = 'http://www.baidu.com' async def fetchUrl(url): browser = await launch({'headless': False,'dumpio':True, 'autoClose':True}) page = await browser..

2020-06-18 14:01:12

Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据,再也不愁旅游去哪儿玩了

好久不见!今天我们来爬取 去哪儿网站的旅游攻略数据。0x00 找一个合理的作案动机作为一名立志成为技术宅的普通肥宅,每次一到周末就会面临一个人生难题:这周末怎么过?本来是没有这些问题的,该吃吃该睡睡,打打游戏敲敲代码,也挺自在。只是后来毕业,来到一个新的城市,赚的钱除了吃住还有富余,总觉得如果不趁着周末和假期出去好好逛逛这个城市,就等于白来一趟,那就太亏了。话虽如此,旅游岂是说走就走的。好几次我下定决心出门,结果在小区门口的十字路口,看着车来车往陷入沉思:我特么去哪儿玩...

2020-06-11 21:25:00

Python网络爬虫实战:卫健委官网数据的爬取

好久不见!这次我们来爬一下 国家卫健委官网 的文章。零 爬虫和反爬机制间的博弈关于我跟网站反爬机制之间的各种博弈过程,我其实在另一篇博客中详细写了,可惜不知道哪儿触碰到了 CSDN 的审核机制,审查没有通过。其实也是一些失败的爬虫尝试,没什么意思。真的有人感兴趣的话可以私下加我交流。讲道理,卫健委的网站比我想象中要难爬的多,反爬机制是真的强。经过无数次的 412 错误,我发现这个网站的反爬机制有以下几个特点(个人经验,总结不准确或者有遗漏的点欢迎大家补充)。服务器在处...

2020-05-28 19:17:09

【程序人生】盛趣游戏 U3D 面经(已拿 offer )

2020秋招,有幸拿到了盛趣游戏公司的 U3D 开发的 Offer。面试共有两面,技术面试和HR面。话说我一开始以为至少也有两轮技术面吧,于是第一轮技术面通过后,我在牛客上连着刷了一周的题目,C++,C# 基础,数据结构,算法,计算机网络,操作系统原理等等,刷了一千多题。结果,第二轮面试,我信心满满的打开视频面试链接时,对面居然是一个可爱而漂亮的小姐姐,然后告诉我这是 HR 面。。。内心,...

2019-11-10 15:32:42

【操作系统】C/C++中涉及到的内存的五大区域

C 和 C++ 语言相比于其他高级编程语言,一个很明显的优势就是,可以直接控制内存管理,执行效率更高。所以啊,面试过程中已经多次被问到了关于内存中几大区域的问题,比如内存分为几个区域,哪些区域是存放哪些数据等等。没有好好下功夫学习过这部分的我直接给问懵了。赶紧偷偷来复习一下。内存一共分为 5 个区域,分别是:堆区,栈区,静态区,常量区,和代码区。先来看一下内存中 5 大区域的...

2019-11-03 15:30:47

【编程语言】关于 malloc,calloc,realloc,new 进行动态内存分配的区别

前天面试被问到了这四种内存分配方法的区别,瞬间懵比,半天说不出个所以然,好尴尬。看来基础还是不扎实,下来赶紧整理整理,恶补一下。malloc 函数:void *malloc(unsigned int size)在内存的动态分配区域申请一块长度为 size 的连续空间。如果申请成功,则返回分配空间的首地址,如果不成功,则返 NULL。申请的内存不会初始化,里面的值是随机的不可预知...

2019-11-02 10:40:57

【编程语言】C++中未初始化的数组的默认值问题

之前写代码,一般都是用 Vector 来的,很少使用数组。刷题时冷不丁遇到这种 “数组未初始化时的默认值” 问题,一时间还真有点懵。这个其实不是什么难题,就是平时接触少,没在意,生疏了。记住三点:全局数组,未初始化时,默认值都是 0; 局部数组,未初始化时,默认值为随机的不确定的值; 局部数组,初始化一部分时,未初始化的部分默认值为 0;下面来编码验证一下:#inc...

2019-11-01 10:44:49

Python网络爬虫实战:爬取携程网酒店评价信息

这个爬虫是在一个小老弟的委托之下写的。他需要爬取携程网上的酒店的评价数据,来做一些分词和统计方面的分析,然后来找我帮忙。爬这个网站的时候也遇到了一些有意思的小麻烦,正好整理一下拿出来跟大家分享一下。这次爬取过程稍微曲折,各种碰壁,最终成功的过程,还是有点意思。所以本文我会按照自己当时爬取的思路来讲述,希望能给大家一些思路上的启发。分析部分略长,如果赶时间可以直接拉到最下面,...

2019-10-28 21:18:00

【数据结构和算法】八大排序算法分析和比较

最近找工作面试,真的是被数据结构和算法给反复吊打了。平时做项目基本都是在写业务逻辑,即使遇到了关于数据结构算法的东西,也是一个接口调用搞定。基础的一些东西反而薄弱了,拿排序算法来说吧,长时间不写,光是记清楚算法复杂度就够呛了,更别说手撸算法了。痛定思痛,决心还是放低心态,从基础做起,把每个算法亲手敲一遍。排序算法是最基础的算法,也是面试官比较容易问到的算法。就像相声演员需要联系...

2019-10-26 16:51:04

Python网络爬虫实战:利用 Python & ADB & 人脸识别实现自动给抖音漂亮小姐姐视频点赞

这只爬虫做了些什么事儿呢?通过 ADB 控制你的手机,帮你自动刷抖音 调用百度人脸识别的接口,给视频画面中出现的小姐姐打分 自动给颜值 70 以上的小姐姐的视频点赞有趣的是,根据抖音的推荐算法,连着刷几天之后,抖音里给你推荐的全是漂亮小姐姐了。0. 成果展示先演示一下效果。连接手机(手机要允许ADB调试),运行爬虫程序,程序会自动打开抖音APP,自动寻找漂亮的小姐姐...

2019-10-24 10:12:45

【程序人生】虚拟现实(VR)版霍兰德职业兴趣岛测试

毕设项目是关于 “虚拟现实技术在心理筛查中的应用” 方面的。无意间看到霍兰德职业兴趣岛测验挺有意思的,特别适合用VR的形式沉浸式地来做。于是顺手就改造了一版 VR 版 的霍兰德职业兴趣岛测验。如果你不知道什么叫 “霍兰德职业兴趣岛测验” ,可以先看一看下面的题目。大概就是这样,题目中描述了六个风格各异的岛屿,每个岛屿其实对应着一种职业兴趣类型,你喜欢某几个岛屿或者讨厌某几...

2019-10-22 13:54:59

【程序人生】1024 程序员节 —— 分享我的技术生活

10月24日,专属于程序员的【1024程序员节】马上就要到了,作为一只小程序员,心情也是很开心呀。刷题时候正好看到了 LeetCode 上有个活动,分享我的技术生活。感觉挺有意思的,就参加一下吧,顺便也总结总结自己的程序员生活。1、作为程序员的你,桌子上都有哪些东西?平时桌上其实挺乱的,为了拍照特意收拾了一下。雷柏机械键盘、Logitech 鼠标,AOC 显示器,无线充...

2019-10-21 20:17:44

【Unity3D】如何读取并播放 Android 本地的 wav 音频

由于目前做的项目是发布在 Android 平台的,所以遇到了还蛮多的关于 Android 方面的问题的。最近遇到一个问题,就是需要在程序中读取并播放外部(本地存储)的 wav 音频。此问题已解决,现将解决方法整理分享如下。解决方法:1. 用 WWW 来加载本地的 wav 文件, 然后将 wav 文件加载为 AudioClip。 private AudioSourc...

2019-10-20 18:32:03

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 推荐红人
    推荐红人
    发布高质量Blink获得高赞和评论,进入推荐栏目即可获得
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取