网站首页 > 开源技术 正文
python读取当当首页的全部商品分类,首先要使用开发者工具找到全部商品分类所在的层级,
写代码来读取该层级下的文本和超链接。
找到层级:
代码如下:
详细代码:
from __future__ import print_function
import requests
import sys
#reload(sys)
#sys.setdefaultencoding("utf-8")
import importlib
importlib.reload(sys)
from lxml import etree;
#打印全部商品分类
resp =requests.get('http://category.dangdang.com/?ref=www-0-C')
doc_main=etree.HTML(resp.content.decode("gbk"))
for x in doc_main.xpath("//body/div/div/div/ul"):
print(*x.xpath("li/a/text()")+x.xpath("li/a/@href"))
猜你喜欢
- 2024-09-10 上了这么多年的班,你们知道doc和docx有什么区别?
- 2024-09-10 天天用Word DOC文件与DOCX文件“傻傻分不清”
- 2024-09-10 告别文件格式困扰!doc与docx大揭秘
- 2024-09-10 接私活利器丨X-SpringBoot轻量级的Java快速开发平台,源码分享
- 2024-09-10 Elasticsearch v7.x 集群最佳实践(Best practices)和核心概念
- 2024-09-10 X公司生产车间绩效考核制度.doc(生产企业车间绩效考核标准)
- 2024-09-10 《黑神话:悟空》现已解锁可玩,多家厂商推出联名款显卡
- 2024-09-10 阿里推出全新升级的DocOwl2文档理解LLM,性能飞跃提升
- 2024-09-10 XQuery编程 FLWOR + HTML(html编程技巧)
- 2024-09-10 XQuery 编程(编程xor)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)