【建站服务】瓦房店设计网页公司-域名申请

当前位置：首页» 行业网站案例 » 【建站服务】瓦房店设计网页公司-域名申请

作者: 风兰 . 阅读量： 4 . 发表时间：2022-09-21 04:27:50

网站建设

上往建站提供服务器空间服务商，百度快照排名，网站托管，百度推广运营,致力于设计外包服务与源代码定制开发，360推广，搜狗推广,增加网站的能见度及访问量提升网络营销的效果,主营：网站公司,百度推广公司电话,官网搭建服务,网站服务企业排名,服务器空间,英文域名等业务，专业团队服务，效果好。

瓦房店设计网页公司

网站建设.png

rse(self, response):
    #open("teacher.html","wb").write(response.body).close()

    # 存放老师信息的集合
    items = []

    for each in response.xpath("//div[@class='li_txt']"):
        # 将我们得到的数据封装到一个 `ItcastItem` 对象
        item = ItcastItem()
        #extract()方法返回的都是unicode字符串
        name = each.xpath("h3/text()").extract()
        title = each.xpath("h4/text()").extract()
        info = each.xpath("p/text()").extract()

        #xpath返回的是包含一个元素的列表
        item['name'] = name[0]
        item['title'] = title[0]
        item['info'] = info[0]

        items.append(item)

    # 直接返回最后数据
    return items

我们暂时先不处理管道，后面会详细介绍。

保存数据

scrapy保存信息的最简单的方法主要有四种，-o 输出指定格式的文件，命令如下：

scrapy crawl itcast -o teachers.json

json lines格式，默认为Unicode编码

scrapy crawl itcast -o teachers.jsonl

csv 逗号表达式，可用Excel打开

scrapy crawl itcast -o teachers.csv

xml格式

scrapy crawl itcast -o teachers.xml

思考

如果将代码改成下面形式，结果完全一样。

请思考 yield 在这里的作用(Python yield 使用浅析)：

# -*- coding: utf-8 -*-import scrapyfrom mySpider.items import ItcastItem# 以下三行是在 Python2.x版本中解决乱码问题，Python3.x 版本的可以去掉import sys
reload(sys)sys.setdefaultencoding("utf-8")class Opp2Spider(scrapy.Spider):
    name = 'itcast'

*- coding: utf-8 -*-

import scrapy

from mySpider.items import ItcastItem

# 以下三行是在 Python2.x版本中解决乱码问题，Python3.x 版本的可以去掉

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

class Opp2Spider(scrapy.Spider):

name = 'itcast'

allowed_domains = ['itcast.com']

start_urls = ("http://www.itcast.cn/channel/teacher.shtml",)

def parse(self, response):