1 cui_yonghua

尚未进行身份认证

海底月是天上月

等级
TA的排名 1w+

写爬虫遇到的各类较难的xpath汇总

1. 如网站:http://www.afinance.cn/new/yzcj/List_19.html,提取时间的xpath如下://div[@class="nrbf"]/font[@class!="a"]/text()[1]提取到的截图如下:

2020-02-13 10:29:57

用python连接数据库并定义表的字段(sqlalchemy)

# 导入:from sqlalchemy import Column, String, create_enginefrom sqlalchemy.orm import sessionmakerfrom sqlalchemy.ext.declarative import declarative_base# 创建对象的基类:Base = declarative_base()# 定义Us...

2020-01-31 23:56:02

用python数据库的封装类_插入数据(pymysql)

import pymysqlclass Databse(object): def __init__(self): self.conn = pymysql.connect( host = 'localhost', user = 'root', passwd = '', db = 'worm' ) ...

2020-01-31 23:54:46

用python查询数据库中的数据并保存至文本(pymysql)

#coding=utf-8import pymysql as MySQLdb #这里是python3 如果你是python2.x的话,import MySQLdbhost = xxxxuser = xxxxpasswd = xxxxport = xxxxdb = xxxxclass SelectMySQL(object): def select_data(self,s...

2020-01-31 23:53:10

python连接mysql数据库案例(Python经典编程案例)

import loggingimport pymysqlclass MySQLCommand(object): def __init__(self,host,port,user,passwd,db,table): self.host = host self.port = port self.user = user sel...

2020-01-31 23:50:29

用python实现简单记事本功能

用python实现简单记事本功能,代码如下:import tkinter as tkimport tkinter.scrolledtext as tkstimport fileinputfrom tkinter import *import osimport win32clipboardimport tkinter.fontimport tkinter.filedialog ...

2020-01-31 23:48:44

用python实现带界面的计算器 (Python经典编程案例)

用python实现带界面的计算器,代码如下:"""实现带界面的计算器(可做加减乘除操作)"""from tkinter import *import tkinter.fontfrom functools import partialdef get_input(entry, argu): entry.insert(END, argu)def backspace(e...

2020-01-31 23:32:46

python常用的爬虫框架

11111

2020-01-30 23:59:48

java常用的爬虫框架

目前主流的Java爬虫框架主要有Nutch、Crawler4j、WebMagic、WebCollector等。1. 分布式爬虫:Nutchgithub地址:https://github.com/andrewcao95/nutch-crawlerNutch是apache旗下的一个用Java实现的开源索引引擎项目,通过nutch,诞生了hadoop、tika、gora。Nutch的设计初衷主要是...

2019-12-31 18:51:26

常见反爬虫策略 及应对措施

一般网站从三个方面反爬虫:请求网站访问时的请求头Headers,用户行为,目标网站的目录和数据加载方式。前两个方面反爬虫策略中最为常见的,而第三个则是应用ajax(异步加载)的方式加载页面目录或者内容,增大爬虫在对目标网站形成访问之后获取数据的难度。但是仅仅检验一下请求头或者做几个ip限制显然无法达到网站运营者对anti-spam的要求,所以更进一步的反制措施也不少。最主要的大概有:Cookie...

2019-12-31 18:35:03

在爬虫框架scrapy中使用selenium

1. wangyi.pyimport scrapyfrom selenium import webdriver'''在scrapy中使用selenium的编码流程: 1.在spider的构造方法中创建一个浏览器对象(作为当前spider的一个属性) 2.重写spider的一个方法closed(self,spider),在该方法中执行浏览器关闭的操作 3.在下载中...

2019-12-27 20:29:35

selenium的介绍,win10系统配置selenium,并用python爬取网页的案例

1. selenium的介绍Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些 JavaScript 动态渲染的页面来说,此种抓取方式非常有效。2. 准备工作首先需要安装 Chrome浏览器,然后到 https://chromedriver.storage.googleapi...

2019-12-25 16:03:15

向PostgreSQL中json中加入某个字段 或者更新某个字段的SQL语句

需求:通过SQL的方式,对JSON里面的某个字段统一处理,更新成一个新值向PostgreSQL中json中加入某个字段。例如:向users表中id为3的data列中加入 {“uptate_data”: “7”}执行SQL:update users set data = '{"uptate_data": "7"}'::jsonb where id = 3;执行效果如下图:向Po...

2019-12-20 20:23:46

python报错:ImportError: cannot import name 'Interface'

报错结果如下:Traceback (most recent call last): File "main.py", line 16, in <module> from scrapy.selector import Selector File "D:\Program\Anaconda3\lib\site-packages\scrapy\__init__.py", lin...

2019-11-22 20:08:54

scrpay 报错: twisted.internet.error.CannotListenError: Couldn't listen on .. Address already in use.

报错:2019-11-21 08:41:14 [middleware.py:53] INFO: Enabled item pipelines: 468 ['business_spider.pipelines.BusinessFilesPipeline'] 469 2019-11-21 08:41:14 [engine.py:256] INFO: Spider opened ...

2019-11-21 17:32:23

运行scrapy 报错:CRITICAL: Unhandled error in Deferred [Errno 11] Resource temporarily unavailable

报错如下:2019-11-21 03:56:07 [engine.py:256] INFO: Spider opened2019-11-21 03:56:07 [logstats.py:48] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)Unhandled error in Deferred:...

2019-11-21 12:00:14

git报错:fatal:cannot be resolved to branch. fatal:The remote end hung up unexpectedly

git报错:$ git push origin FIX/gelonghui_subject_spiderfatal: FIX/gelonghui_subject_spider cannot be resolved to branch.fatal: The remote end hung up unexpectedly截图如下:原因是没有区分 分支名的大小写。...

2019-11-13 12:38:47

用Python 爬取心灵毒鸡汤、你好污啊 网站数据并存入本地txt文件

1. 网站如下:https://www.nihaowua.com/home.html2. 代码如下:import requestsimport randomfrom lxml import etreefrom fake_useragent import UserAgentdef get_random_ua(): #随机UA ua = UserAgent() ret...

2019-11-10 23:16:29

分别用java,go,python语言 实现猜石头剪刀布的游戏的功能

游戏规则:人和电脑分别出剪刀、石头、布,直到人战胜电脑,游戏结束。1. 用Java语言实现import java.util.Scanner;/** * java实现人机猜拳游戏 * 人和电脑分别出剪刀、石头、布,直到人战胜电脑,游戏结束 */public class Scissors_Stone_Cloth { public static void main(String[...

2019-11-09 18:45:07

爬取百度图片并把图片存到本地

爬取百度图片并把图片存到本地:用到的模块:rerequestsurllibbs4osimport reimport requestsfrom urllib import errorfrom bs4 import BeautifulSoupimport osnum = 0numPicture = 0file = ''List = []def Find(url...

2019-11-09 13:29:49

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。