网站首页 > 开源技术正文

python爬虫必备库——requests（python爬虫常用库有哪些）

wxchong 2024-08-31 04:01:01 开源技术 28 ℃ 0 评论

requests库

requests库是一个python第三方库，它基于urllib开发，又比urllib更加简单高效。可以模拟浏览器向服务器发送HTTP请求。

安装方法

下面方法是使用清华源镜像安装。

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

requests库的引用

import requests

常用的请求方法是get和post，需要根据网页的请求分析是get还是post。如下图就是get请求。

使用方法如下：

首先定义一个url="https://*****"，这个url就是你将要爬取的地址，但这个地址可不是浏览器地址栏的地址，需要到F12中的网络（network）查看真实的地址。

requests的是使用格式如下:

resp=requests.get(url)

当有需要向服务器传递参数时，格式如下

resp=requests.get(url,data)

有些网站需要识别headers标头，以判断是否为真实的请求。这时候需要定义一个headers

headers={"user-agent":***********} #headers的user-agent可以在F12的网络里找到。如下图

resp=requests.get(url,data,headers=headers)

通过以上方法向服务器发送了get请求。那么怎么知道请求是否成功呢。

可以打印出status_code查看。若status_code=200，说明请求成功。格式如下

print(resp.status_code)

当status_code=200后，怎么获取返回的内容呢？就使用

resp.text

举个栗子（以pycharm作为演示IDE)

import requests

"""
使用"https://www.junjh.com/"小说网站进行requests的演示。

"""
url = "https://www.junjh.com/"
resp = requests.get(url)  # 向url发送一个get请求

print("#" * 50)  # 打印一行分隔线
print(resp.status_code)   # 打印返回的状态码
print("#" * 50)  # 打印一行分隔线
print(resp.text)  # 打印返回的页面内容
print("#" * 50)  # 打印一行分隔线
print("完成演示")

运行结果如下：

返回的状态码为200，说明请求成功。

下面是resp.text返回的内容。

requests的使用就到里。

网站首页 > 开源技术正文

python爬虫必备库——requests（python爬虫常用库有哪些）

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 开源技术 正文

python爬虫必备库——requests（python爬虫常用库有哪些）

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 开源技术正文

取消回复欢迎你发表评论: