Python利用Xpath选择器爬取京东网商品信息

脚本专栏 2024/10/6 佚名

3 2 1

HTML文件其实就是由一组尖括号构成的标签组织起来的，每一对尖括号形式一个标签，标签之间存在上下关系，形成标签树；XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

首先进入京东网，输入自己想要查询的商品，向服务器发送网页请求。在这里小编仍以关键词“狗粮”作为搜索对象，之后得到后面这一串网址：

https://search.jd.com/Search"text-align: center">

狗粮信息在京东官网上的网页源码

仔细观察源码，可以发现我们所需的目标信息是存在<li data-sku="*****" class="gl-item">标签下的，那么接下来我们就像剥洋葱一样，一层一层的去获取我们想要的信息。

通常URL编码的方式是把需要编码的字符转化为%xx的形式，一般来说URL的编码是基于UTF-8的，当然也有的于浏览器平台有关。在Python的urllib库中提供了quote方法，可以实现对URL的字符串进行编码，从而可以进入到对应的网页中去。

在线复制Xpath表达式

很多小伙伴都觉得Xpath表达式很难写，其实掌握了基本的用法也就不难了。在线复制Xpath表达式如上图所示，可以很方便的复制Xpath表达式。但是通过该方法得到的Xpath表达式放在程序中一般不能用，而且长的没法看。所以Xpath表达式一般还是要自己亲自上手。

直接上代码，利用Xpath去提取目标信息，如商品的名字、链接、图片和价格，具体的代码如下图所示：

爬虫代码

在这里，小编告诉大家一个Xpath表达式匹配技巧。之前看过好几篇文章，大佬们都推荐Xpath表达式使用嵌套匹配的方式。在本例中，首先定义items，如下所示：

items = selector.xpath('//li[@class="gl-item"]')

之后通过range函数，逐个从网页中进行匹配目标信息，而不是直接通过复制Xpath表达式的方式一步到位。希望小伙伴们以后都可以少入这个坑~~

最后得到的效果图如下所示：

最终效果图

新鲜的狗粮再一次出炉咯~~~

小伙伴们，有没有发现利用Xpath来获取目标信息比正则表达式要简单一些呢？

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python,Xpath,选择器,爬取,京东,商品信息

标签：

Python,Xpath,选择器,爬取,京东,商品信息

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

金钱帮资源网 Copyright www.kbjia.com

评论“Python利用Xpath选择器爬取京东网商品信息”

Python利用Xpath选择器爬取京东网商品信息

暂无“Python利用Xpath选择器爬取京东网商品信息”评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年10月06日

Python利用Xpath选择器爬取京东网商品信息

Python,Xpath,选择器,爬取,京东,商品信息

pycharm sciview的图片另存为操作

Python用类实现扑克牌发牌的示例代码

评论“Python利用Xpath选择器爬取京东网商品信息”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接