爬虫代理Scrapy框架详细介绍2-电子产品世界论坛

这些小活动你都参加了吗？快来围观一下吧！>>

电子产品世界 » 论坛首页 » 嵌入式开发 » 软件与操作系统 » 爬虫代理Scrapy框架详细介绍2

共5条 1/1 1 跳转至页

爬虫代理Scrapy框架详细介绍2

laical

菜鸟

2020-06-04 17:26:22 打赏

只看楼主 1楼

Scrapy Shell

1631f815a58dc5fd.webp.jpg

Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。

如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。（推荐安装IPython）

启动Scrapy Shell

进入项目的根目录，执行下列命令来启动shell:

scrapy shell "http://www.itcast.cn/channel/teacher.shtml"

图片描述

Scrapy Shell根据下载的页面会自动创建一些方便使用的对象，例如 Response 对象，以及 Selector 对象 (对HTML及XML内容)。

当shell载入后，将得到一个包含response数据的本地 response 变量，输入
response.body将输出response的包体，输出 response.headers 可以看到response的包头。
输入 response.selector 时，将获取到一个response 初始化的类 Selector 的对象，此时可以通过使用
response.selector.xpath()或response.selector.css() 来对 response 进行查询。
Scrapy也提供了一些快捷方式, 例如 response.xpath()或response.css()同样可以生效（如之前的案例）。

Selectors选择器

Scrapy Selectors 内置 XPath 和 CSS Selector 表达式机制

Selector有四个基本的方法，最常用的还是xpath:

xpath(): 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表
extract(): 序列化该节点为Unicode字符串并返回list
css(): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表，语法同 BeautifulSoup4
re(): 根据传入的正则表达式对数据进行提取，返回Unicode字符串list列表

XPath表达式的例子及对应的含义:

/html/head/title: 选择<HTML>文档中 <head> 标签内的 <title> 元素/html/head/title/text(): 选择上面提到的 <title> 元素的文字//td: 选择所有的 <td> 元素//div[@class="mine"]: 选择所有具有 class="mine" 属性的 div 元素

尝试Selector

我们用腾讯社招的网站http://hr.tencent.com/positio...举例：

# 启动scrapy shell "http://hr.tencent.com/position.php?&start=0#a"# 返回 xpath选择器对象列表response.xpath('//title')[<Selector xpath='//title' data=u'<title>\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058</title'>]# 使用 extract()方法返回 Unicode字符串列表response.xpath('//title').extract()[u'<title>\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058</title>']# 打印列表第一个元素，终端编码格式显示print response.xpath('//title').extract()[0]<title>职位搜索 | 社会招聘 | Tencent 腾讯招聘</title># 返回 xpath选择器对象列表response.xpath('//title/text()')<Selector xpath='//title/text()' data=u'\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058'># 返回列表第一个元素的Unicode字符串response.xpath('//title/text()')[0].extract()u'\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058'# 按终端编码格式显示print response.xpath('//title/text()')[0].extract()职位搜索 | 社会招聘 | Tencent 腾讯招聘response.xpath('//*[@class="even"]')职位名称:print site[0].xpath('./td[1]/a/text()').extract()[0]TEG15-运营开发工程师（深圳）职位名称详情页:print site[0].xpath('./td[1]/a/@href').extract()[0]position_detail.php?id=20744&keywords=&tid=0&lid=0职位类别:print site[0].xpath('./td[2]/text()').extract()[0]技术类

以后做数据提取的时候，可以把现在Scrapy Shell中测试，测试通过后再应用到代码中。

当然Scrapy Shell作用不仅仅如此，但是不属于我们课程重点，不做详细介绍。

官方文档：[http://scrapy-chs.readthedocs...

Item Pipeline

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。

每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用：

验证爬取的数据(检查item包含某些字段，比如说name字段)
查重(并丢弃)
将爬取结果保存到文件或者数据库中

编写item pipeline

编写item pipeline很简单，item pipiline组件是一个独立的Python类，其中process_item()方法必须实现:

import somethingclass SomethingPipeline(object):    def __init__(self):    
        # 可选实现，做参数初始化等        # doing something    def process_item(self, item, spider):        # item (Item 对象) – 被爬取的item        # spider (Spider 对象) – 爬取该item的spider        # 这个方法必须实现，每个item pipeline组件都需要调用该方法，        # 这个方法必须返回一个 Item 对象，被丢弃的item将不会被之后的pipeline组件所处理。        return item    def open_spider(self, spider):        # spider (Spider 对象) – 被开启的spider        # 可选实现，当spider被开启时，这个方法被调用。    def close_spider(self, spider):        # spider (Spider 对象) – 被关闭的spider        # 可选实现，当spider被关闭时，这个方法被调用

启用一个Item Pipeline组件

为了启用Item Pipeline组件，必须将它的类添加到 settings.py文件ITEM_PIPELINES 配置，就像下面这个例子:

# Configure item pipelines# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = {    #'mySpider.pipelines.SomePipeline': 300,    "mySpider.pipelines.ItcastJsonPipeline":300}

分配给每个类的整型值，确定了他们运行的顺序，item按数字从低到高的顺序，通过pipeline，通常将这些数字定义在0-1000范围内（0-1000随意设置，数值越低，组件的优先级越高）

重新启动爬虫

将parse()方法改为入门简介中最后思考中的代码，然后执行下面的命令：

scrapy crawl itcast

查看当前目录是否生成teacher.json

关键词： http Scrapy 代理

同煮山川

工程师

2020-06-04 22:13:16 打赏

2楼

介绍的很不错

风的印记

工程师

2020-06-07 21:49:12 打赏

3楼

学到了

Dummer3

工程师

2020-06-08 20:37:49 打赏

4楼

介绍的不错

船长demons

高工

2020-06-26 23:27:42 打赏

5楼

介绍的很详细

共5条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
请大声喊出：我要开发板！
【有奖活动】EEPW网站征稿正在进行时，欢迎踊跃投稿啦
【有奖活动】智能可穿戴设备AR/VR如何引领科技新潮流！
奖！发布技术笔记，技术评测贴换取您心仪的礼品
【有奖活动】震撼来袭！这场直播将直击工程师的心灵！

打赏帖
如何实现基于NXPiMX.RT1021的BH1730采集被打赏50分
【换取手持数字示波器】AHT10温度检测分享被打赏40分
【换取手持数字示波器】ACM32F070开发板点亮LCD屏和触控按键，串口，ADC被打赏40分
【换取手持数字示波器】ACM32F070LCD屏和触控按键功驱动蜂鸣器分享被打赏40分
【换取手持数字示波器】国民技术PWM功能知识分享被打赏40分
【换取手持数字示波器】放大器运放知识分享被打赏40分
【分享评测，赢取加热台】+开关电源AC输入知识分享被打赏30分
【换取手持数字示波器】N32G430点亮数码管与串口打印、ADC被打赏40分
老胖子聊电路--分析一个反馈电路被打赏50分
【换取手持数字示波器】+点亮WS2812RGB灯被打赏50分

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

EEPW论坛

爬虫代理Scrapy框架详细介绍2

回复