编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

python爬虫必备库——requests(python爬虫常用库有哪些)

wxchong 2024-08-31 04:01:01 开源技术 9 ℃ 0 评论
  1. requests库

requests库是一个python第三方库,它基于urllib开发,又比urllib更加简单高效。可以模拟浏览器向服务器发送HTTP请求。

安装方法

下面方法是使用清华源镜像安装。

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

requests库的引用

import requests

常用的请求方法是get和post,需要根据网页的请求分析是get还是post。如下图就是get请求。

使用方法如下:

首先定义一个url="https://*****",这个url就是你将要爬取的地址,但这个地址可不是浏览器地址栏的地址,需要到F12中的网络(network)查看真实的地址。

requests的是使用格式如下:

resp=requests.get(url)

当有需要向服务器传递参数时,格式如下

resp=requests.get(url,data)

有些网站需要识别headers标头,以判断是否为真实的请求。这时候需要定义一个headers

headers={"user-agent":***********} #headers的user-agent可以在F12的网络里找到。如下图


resp=requests.get(url,data,headers=headers)

通过以上方法向服务器发送了get请求。那么怎么知道请求是否成功呢。

可以打印出status_code查看。若status_code=200,说明请求成功。格式如下

print(resp.status_code)

当status_code=200后,怎么获取返回的内容呢?就使用

resp.text

举个栗子(以pycharm作为演示IDE)

import requests

"""
使用"https://www.junjh.com/"小说网站进行requests的演示。

"""
url = "https://www.junjh.com/"
resp = requests.get(url)  # 向url发送一个get请求

print("#" * 50)  # 打印一行分隔线
print(resp.status_code)   # 打印返回的状态码
print("#" * 50)  # 打印一行分隔线
print(resp.text)  # 打印返回的页面内容
print("#" * 50)  # 打印一行分隔线
print("完成演示")

运行结果如下:

返回的状态码为200,说明请求成功。

下面是resp.text返回的内容。

requests的使用就到里。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表