编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

如何使用scrapy爬取一个网站?Python爬虫:scrapy框架的基本使用

wxchong 2024-09-10 22:34:40 开源技术 7 ℃ 0 评论

scrapy的基本使用

  1. 创建一个工程命令:scrapy startproject ProName
# 比如这里我创建一个工程,名字叫demoPro
# 打开终端,输入:
scrapy startprojiect demoPro
  • 目录结构

这里先介绍2个,后续学习中再介绍其他

 `spiders`文件夹:爬虫文件夹

 	-  必须要存放一个爬虫源文件 

 `settings.py` : 工程的配置文件

2.cd ProName

创建好工程后,我们需要先进入项目目录

# 在终端输入
cd demoPro

3.创建爬虫源文件命令:

scrapy genspider spiderName www.xxx.com

编写对应的代码在爬虫文件中

其中:

- demo 是爬虫源文件的名称
- 网址可以先随便写

然后我们来看下默认生成的代码:

4.执行工程

我们修改下要爬虫的网址

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.baidu.com/']

    def parse(self, response):
        pass

执行工程命令:scrapy crawl spiderName

# 终端输入
scrapy crawl demo

上面就是scrapy基本操作使用步骤!
但我们看到,并没有爬取到我们想要的结果,难道还需要设置什么吗?

是的!我们下节课来学习scapy的简单爬虫配置!
关注
Python涛哥!学习更多Python知识!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表