网页结构的简介和Xpath语法的入门教程 - OFweek电子工程网

当前位置： OFweek 电子工程网 > 开发工具/算法 > 正文

4日10日 OFweek 2025（第十四届）中国机器人产业大会
立即报名 >>>
7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>

网页结构的简介和Xpath语法的入门教程

2019-03-22 16:51

Python进阶学习交流

相信很多小伙伴已经听说过Xpath，之前小编也写过一篇关于Xpath的文章，感兴趣的小伙伴可以戳这篇文章如何利用Xpath抓取京东网商品信息以及Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结。今天小编继续给大家介绍一些Xpath知识点，希望对大家的学习有帮助。

1、Xpath让我们可以使用一种类似于Windows下的文件路径的方式，让我们可以定位到HTML或者XML结构中的具体元素。Xpath本身包含标一些准函数库，可以让我们的Xpath语法更加强大。

网页结构的简介和Xpath语法的入门教程

2、在HTML结构中，有一定的层级关系，主要的关系包括：父节点、子节点、同胞节点（兄弟节点）、先辈节点、后代节点。

网页结构的简介和Xpath语法的入门教程

一般的，像类似于这种结构，称之为一个节点。如上图，根据层次关系，我们可以知道节点是的父节点，相应的，节点是节点的子节点。同胞节点又叫兄弟节点，一般的处于同级层次的节点叫同胞节点，如上图中的节点和第一个节点、177～181行的标签都是属于同胞节点。先辈节点又叫祖先节点，一般的，一个节点的上层以上的节点均称为先辈节点，所以父节点也是属于先辈节点的一种。基于此，我们又可以称节点是的先辈节点。相对应的，一个节点的下层以下的节点均称为后代节点，所以子节点也是属于后代节点的一种。基于此，我们又可以称节点是节点的后代节点。

3、理解这些节点之间的关系之后，可以方便我们更好的理解Xpath语法，下表是部分常用的Xpath语法。

网页结构的简介和Xpath语法的入门教程

这里特别强调“／”和“／／”的区别，“／”一般代表的某个元素的子节点，而不是全部的后代节点；而“／／”一般代表的某个元素的后代节点，范围比“／”代表的要更加广泛一些。＠符号后边时常跟着class，代表选取名为class属性的节点，比较常见。

4、下面针对具体的网页源码，让大家了解一下网页结构。

网页结构的简介和Xpath语法的入门教程

如上图中的红色框框中，class为属性，而等于号后边的“grid－5”即为属性值，有的时候节点内不只是一个属性，如上图中的196行中，就有两个属性。

5、为了更加方便的定位到div或者其他节点下的标签，我们需要继续进一步的进行定位锁定，下表是部分常用的Xpath语法。

网页结构的简介和Xpath语法的入门教程

掌握了Xpath语法知识之后，我们就可以通过Xpath语法来进行编写Xpath表达式，以提取网页上的目标数据。

网页结构的简介和Xpath语法的入门教程

千里之行，始于足下。如果想学好Xpath，更是需要勤加使用，下一篇文章将给大家介绍Xpath在Scrapy爬虫项目中的使用。

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

登录登录即可访问所有OFweek服务

用户名/邮箱/手机：
密码：
忘记密码？
用其他账号登录： QQ | 微信 | 新浪微博

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

暂无评论

图片新闻

技术文库

LCS2110R-S单总线协议说明

行业报告

最新活动更多

一周热点月点击榜

企业服务广告服务猎头服务薪酬报告

电子工程猎头职位更多

扫码关注公众号
OFweek电子工程网
获取更多精彩内容

文章纠错

x

_*文字标题：

_*纠错内容：

联系邮箱：

_*验证码：

看不清，点击换一张

粤公网安备 44030502002758号

X