PyQuery解析网页用法入门说明

1. Pyquery的安装

在使用pyquery解析库之前，首先简单介绍一下pyquery然后讲解如何安装pyquery库。

pyquery的基础概念

Pyquery也是一个功能很强大的网页解析库，它支持对xml、html文档进行jQuery查询。

安装pyquery

pyquery的安装其实很简单，下面介绍两种不同的安装方式(适用不同的操作系统)。

#方式一：pip安装 pip install pyquery

#方式二：wheel安装

#下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/

pip install pyquery-1.4.3-py3-non-any.whl

方式一：安装比较简单，通过pip install pyquery命令就可以直接安装;

方式二：首先需要下载whl文件，然后再去安装。

其下载链接为：http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml。

进入这个链接后找到pyquery-1.4.3-py3-none-any.whl，并将其下载到本地。

2. Pyquery的使用方法

通过上述方法安装好pyquery之后，我们开始导入pyquery，并通过一个例子去了解pyquery的基本使用方法。首先构造了一段html源码，然后初始化为pyquery对象。

完整代码如下：

from pyquery import PyQuery as pq

html = '''

<ul>

</ul>

</div>

'''

py= pq(html)

获取标签元素

目标：比如我们需要获取html中的li标签

#方式一

print(py('li'))

#方式二

# 注意下面id 前面需要加上#,class 前面需要加上.

print(py('#container .list li'))

这里有两种获取方式，第一种比较简单，第二种方法定位更加准确。针对上述的html源码，这两种方式获取的结果是一样的，其结果如下：

查询子级标签元素

目标：获取class为list的ul标签下的所有子标签(li标签)，其代码如下：

items = py('.list')

lis = items.children()

print(lis)

最后打印输出的结果同上，都是把所有的li标签打印输出。

查询父级标签元素

目标：获取class为list的ul标签的上一级标签(div标签)，其代码如下：

items = py('.list')

pa = items.parent()

print(pa)

打印输出结果：

<ul>

</ul>

</div>

获取元素信息

目标：获取class为i0 active的a标签元素，并提取出a标签元素的相关信息

站长网

PyQuery解析网页用法入门说明

作者: dawei

联系我们

作者: dawei

相关文章

用css做3D立体书本效果

css中做文字长阴影的立体效果的方法

怎么用css怎样做背景虚化的效果？

CSS3将元素设置为隐藏的方法

CSS让字体垂直居中表格的方法

CSS实现网页淡入效果的方法

联系我们