beautiful Soup in Python

来源:百度文库 编辑:神马文学网 时间:2024/04/28 08:34:53
“美味的汤”是一个python的HTML/XML解板器,主要特性是:
1.美味的汤在你给出的标记不正确时不会阻赛。它尽可能地处理地和原文档近似。这样通常足够你收集信息。
2.美味的汤提供了少量几个方法(但却是python味道十足的方法)以足够你浏览,搜索,修改一棵解析树:一个能拼接出或是解析出你所要的的工具。你不需要为每个应用创建一个定制的解析器。
3.美味的汤能够自动将任何格式的输入换成Unicode,并在输出时转成UTF-8.除非文档没有指定编码而美味的汤又不能自动探测到这个编码。遇到这种情况你只需要指定原始编码就行了。
美味的汤解析你所给的任何东西,并且为你做遍历工作。你可以告诉它,”去找到所有链接”,或“找到所有带有一个叫externalLink的class的链接,或是”找到链接地址是foo.com的链接,或“找到表头是加粗文本的表格,并把这个文本返回给我”.
现在你可以处理那样设计很糟糕的网站的数据了。过去需要半天的工作现在有了美味的汤只需要几分钟了.
原始文档地址:
http://www.crummy.com/software/BeautifulSoup/documentation.html