🌿 BeautifulSoup:Python 网页解析神器
BeautifulSoup 是一个用于从 HTML 或 XML 文档中提取数据的库,常配合 requests
使用,语法优雅,容易上手。
✅ BeautifulSoup 解决了什么问题?
直接使用正则表达式处理 HTML 太复杂、容易出错。BeautifulSoup 提供树形结构解析 HTML,使用标签名和属性轻松查找、提取页面内容:
- 🧩 快速解析 HTML/XML
- 🔍 按标签、属性、文本内容查找
- 🌳 提供文档结构化导航
📦 安装
pip install beautifulsoup4
🔌 一起使用 Requests 获取网页
从 bs4 导入 BeautifulSoup
导入 requests
响应 = requests.获取("https://example.com")
汤 = BeautifulSoup(响应.文本, "html.parser")
打印(汤.标题.文本)
🏷️ 查找标签
打印(汤.标题) # 获取 <title> 标签
打印(汤.h1) # 获取第一个 <h1>
打印(汤.段落) # <p> 是 paragraph 段落