转载参考:http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/
1、背景
Python中的,专门用于HTML解析的库,比较好用的,就是BeautifulSoup
2、BeautifulSoup简介
Python中有专门用于HTML/XML解析的库
特点是:
即便是有bug,有问题的HTML代码也可以被解析。功能强大。
BeautifulSoup主页:
http://www.crummy.com/software/BeautifulSoup/
2.1 BeautifulSoup的版本
BeautifulSoup主要有两个版本:
2.1.1 BeautifulSoup 3
之前的,比较早的,是3.x的版本。
最新的可用的在线文档:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html
中文文档:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html
下载地址 :
http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/
中可以下载很多对应的版本。
2.1.2 BeautifulSoup 4: 缩写成bs4
因此有些代码中使用的导入文件是:
from bs4 import BeautifulSoup
其他的和使用3.x是一样的。
-----------使用easy_install 安装BeautifulSoup的时候,看好下载的是什么版本。有时候可能代码中写的是上面的代码,但是运行的时候会提示No Module bs4。
bs4的在线文档:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
下载地址:
http://www.crummy.com/software/BeautifulSoup/bs4/download/
http://www.crummy.com/software/BeautifulSoup/bs4/download/4.3/
2.2 BeautifulSoup的安装
2.2.1 版本3.0.6之前:无需安装,放在和Python同目录下即可使用
3.0.6之前,都是不需要安装的,所以使用起来最简单,直接下载对应的版本,比如:
http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/BeautifulSoup-3.0.6.py
得到了BeautifulSoup-3.0.6.py,然后改名为:BeautifulSoup.py
然后,放到和你当前的python文件同目录下,比如我当前python文件是:
D:\tmp\tmp_dev_root\python\beautifulsoup_demo\beautifulsoup_demo.py
那就放到
D:\tmp\tmp_dev_root\python\beautifulsoup_demo\
下面,和beautifulsoup_demo.py同目录。
2.2.2 版本3.0.6之后:需要安装BeautifulSoup后才可以使用
下载过安装的压缩包之后,解压放置,然后进入到cmd窗口,目录切换到对应的压缩包解压目录:
D:\users\Desktop\beautifulsoup4-4.3.2
然后直接使用下面的命令安装:
setup.py install
相关推荐
Python beautifulsoup4包 Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包
Python爬虫BeautifulSoup详解,完全自学指南,内容详实,适合初学者入门。Python爬虫BeautifulSoup详解,完全自学指南,内容详实,适合初学者入门。Python爬虫BeautifulSoup详解,完全自学指南,内容详实,适合初学...
这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况. 文档中出现的例子在Python2.7和Python3.2中的执行结果相同 你...
离线安装python Beautifulsoup4库
Batch-Image-Downloader - 一个使用Python和BeautifulSoup实现的简单图片批量下载器
输入链接采集1688和某宝的详情图片和视频;python的BeautifulSoup库;
使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码 代码如下:from bs4 import BeautifulSoupimport urllib2url = ‘//www.jb51.net/...
到此这篇关于Python中BeautifulSoup通过查找Id获取元素信息的文章就介绍到这了,更多相关BeautifulSoup Id获取元素信息内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网!...
本项目可以爬取Lofter图片,依赖Python的BeautifulSoup4第三方库,使用本项目需要先安装BeautifulSoup4。 ### 安装依赖库: 安装BeautifulSoup4: * Debain或Ubuntu可以通过系统软件包管理安装: ``` bash $ ...
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
python爬虫实例——基于BeautifulSoup与urllib.request,思路是打开目标链接,并爬取通过BeautifulSoup一定区域中的img标签中的src进行保存。
python beautifulsoup Oracle MySQL
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
python爬虫-beautifulsoup实践代码python爬虫-beautifulsoup实践代码
一个示例,展示如何使用Python的BeautifulSoup库进行网页解析和数据提取。 示例代码中,我们定义了一个名为scrape_website的函数。该函数接受一个URL作为参数,发送HTTP GET请求获取网页内容,并使用BeautifulSoup...
主要介绍了python使用BeautifulSoup分析网页信息的方法,涉及Python使用BeautifulSoup模块分析网页信息的技巧,非常具有实用价值,需要的朋友可以参考下
2-4 基于 HTML 的爬虫,Python(Beautifulsoup)实现 .mp4
【Python】BeautifulSoup简单示例
python+PyDocX+BeautifulSoup+PyQt5实现word转html的可视化插件