【建站服务】高端！网站定制/设计/优化/二次开发/制作/搭建-瓦房店高端网站建设-域名申请

当前位置：首页» 公司新闻 » 【建站服务】高端！网站定制/设计/优化/二次开发/制作/搭建-瓦房店高端网站建设-域名申请

作者: 风兰 . 阅读量： 4 . 发表时间：2022-09-21 04:27:36

网站建设

上往建站提供服务器空间服务商，百度快照排名，网站托管，百度推广运营,致力于设计外包服务与源代码定制开发，360推广，搜狗推广,增加网站的能见度及访问量提升网络营销的效果,主营：网站公司,百度推广公司电话,官网搭建服务,网站服务企业排名,服务器空间,英文域名等业务，专业团队服务，效果好。

高端！网站定制/设计/优化/二次开发/制作/搭建-瓦房店高端网站建设

网站建设.png

系）。

接下来，创建一个 ItcastItem 类，和构建 item 模型（model）。

import scrapyclass ItcastItem(scrapy.Item):
   name = scrapy.Field()
   title = scrapy.Field()
   info = scrapy.Field()

三、制作爬虫（spiders/itcastSpider.py）

爬虫功能要分两步：

1. 爬数据

在当前目录下输入命令，将在mySpider/spider目录下创建一个名为itcast的爬虫，并指定爬取域的范围：

scrapy genspider itcast "itcast.cn"

打开 mySpider/spider目录里的 itcast.py，默认增加了下列代码:

import scrapyclass ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowed_domains = ["itcast.cn"]
    start_urls = (
        'http://www.itcast.cn/',
    )

    def parse(self, response):
        pass

其实也可以由我们自行创建itcast.py并编写上面的代码，只不过使用命令可以免去编写固定代码的麻烦

要建立一个Spider，你必须用scrapy.Spider类创建一个子类，并确定了三个强制的属性和一个方法。

name = "" ：这个爬虫的识别名称，必须是唯一的，在不同的爬虫必须定义不同的名字。

allow_domains = [] 是搜索的域名范围，也就是爬虫的约束区域，规定爬虫只爬取这个域名下的网页，不存在的URL会被忽略。

start_urls = () ：爬取的URL元祖/列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。

parse(self, response) ：解析的方法，每个初始URL完成下载后将被调用，调用的时候传入从每一个URL传回的Response对象来作为唯一参数，主要作用如下：

负责解析返回的网页数据(response.body)，提取结构化数据(生成item)
生成需要下一页的URL请求。
将start_urls的值修改为需要爬取的第一个url

start_urls = ("http://www.itcast.cn/channel/teacher.shtml",)

修改parse()方法

def parse(self, response):
    filename = "teacher.html"
    open(filename, 'w').write(response.body)

然后运行一下看看，在mySpider目录下执行：

scrapy crawl itcast

是的，就是 itcast，看上面代码，它是 ItcastSpider 类的 name 属性，

是的，就是 itcast，看上面代码，它是 ItcastSpider 类的 name 属性，也就是使用 scrapy genspider命令的唯一爬虫名。

运行之后，如果打印的日志出现 [scrapy] INFO: Spider closed (finished)，代表执行完成。之后当前文件夹中就出现了一个 teacher.html 文件，里面就是我们刚刚要爬取的网页的全部源代码信息。

注意: Python2.x默认编码环境是ASCII，当和取回的数据编码格式不一致时，可能会造成乱码；我们可以指定保存内容的编码格式，一般情况下，我们可以在代码最上方添加

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

这三行代码是 Python2.x 里解决中文编码的万能钥匙，经过这么多年的吐槽后 Python3 学乖了，默认编码是Unicode了...(祝大家早日拥抱Python3)

2. 取数据

爬取整个网页完毕，接下来的就是的取过程了，首先观察页面源码：

<h4> xxxxx </h4>

<p> xxxxxxxx </p>

是不是一目了然？直接上 XPath 开始提取数据吧。

xpath 方法，我们只需要输入的 xpath 规则就可以定位到相应 html 标签节点，详细内容可以查看 xpath 教程。

不会 xpath 语法没关系，Chrome 给我们提供了一键获取 xpath 地址的方法（右键->检查->copy->copy xpath）,如下图:

高端！网站定制/设计/优化/二次开发/制作/搭建-瓦房店高端网站建设

上往建站提供搭建网站，域名注册，官网备案服务，网店详情页设计，企业网店，专业网络店铺管理运营全托管公司咨询电话，服务器空间，微信公众号托管，网页美工排版,致力于域名申请，竞价托管，软文推广，全网营销,提供标准级专业技术保障，了却后顾之忧,主营：虚拟主机，网站推广，百度竞价托管，网站建设，上网建站推广服务，网络公司有哪些等业务，专业团队服务，效果好。

服务热线：400-111-6878 手机微信同号:18118153152（各城市商务人员可上门服务）

关键词：网站建设,企业网站,网站制作,网页设计,高端网站建设,企业网站制作,网页制作,制作网站,网站设计,高端网页设计,高端网站设计,做网站,自适应网站

风兰产品: 营销型网站营销型网站建设全网营销推广手机网站建设

风兰服务: 7x24小时售后支持全省上门服务免费后台培训定期回访

风兰动态: 公司新闻行业新闻技术日志网络推广行业网站案例网站推广

关于风兰: 关于风兰工作室团队

全国服务热线

18114747181

上往建站
地址：全国各地都有驻点商务 | 　网站建设：上往建站

QQ在线咨询

售前咨询热线

18114747181

售后服务热线

400-000-1116

您身边的网站建设推广专家

18114747181

三、制作爬虫 （spiders/itcastSpider.py）

全国服务热线

三、制作爬虫（spiders/itcastSpider.py）