网站首页 > 开源技术正文

如何使用scrapy爬取一个网站?Python爬虫:scrapy框架的基本使用

wxchong 2024-09-10 22:34:40 开源技术 13 ℃ 0 评论

scrapy的基本使用

创建一个工程命令：scrapy startproject ProName

# 比如这里我创建一个工程，名字叫demoPro
# 打开终端，输入：
scrapy startprojiect demoPro

这里先介绍2个，后续学习中再介绍其他

 `spiders`文件夹:爬虫文件夹

 	-  必须要存放一个爬虫源文件 

 `settings.py` : 工程的配置文件

2.cd ProName

创建好工程后，我们需要先进入项目目录

# 在终端输入
cd demoPro

3.创建爬虫源文件命令：

scrapy genspider spiderName www.xxx.com

编写对应的代码在爬虫文件中

其中：

- demo 是爬虫源文件的名称
- 网址可以先随便写

然后我们来看下默认生成的代码：

4.执行工程

我们修改下要爬虫的网址

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.baidu.com/']

    def parse(self, response):
        pass

执行工程命令：scrapy crawl spiderName

# 终端输入
scrapy crawl demo

上面就是scrapy基本操作使用步骤！
但我们看到，并没有爬取到我们想要的结果，难道还需要设置什么吗？

是的！我们下节课来学习scapy的简单爬虫配置！
关注Python涛哥！学习更多Python知识！

上一篇：盘点python常见的黑客技术(一) 超简单
下一篇：一些计算机安全领域中的二层发现工具

网站首页 > 开源技术正文

如何使用scrapy爬取一个网站?Python爬虫:scrapy框架的基本使用

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 开源技术 正文

如何使用scrapy爬取一个网站?Python爬虫:scrapy框架的基本使用

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 开源技术正文

取消回复欢迎你发表评论: