mdsk.net
当前位置:首页 >> python3 爬虫 一定要用BEAutiFul soup吗 >>

python3 爬虫 一定要用BEAutiFul soup吗

BeautifulSoup4的安装 一、使用pip直接安装beautifulsoup4 (如何安装pip请看上一篇文章介绍) F:\kanbox\pythoncode\zyspider>pip install beautifulsoup4 Collecting beautifulsoup4 Downloading beautifulsoup4-4.4.0-py3-none-any.whl (80kB...

你最好看下网页源代码是否有你要的元素

contents是一个数组 contents[0].text即可获取 下面的代码你可以运行看下效果 print(titles[0].text)for title in titles: print(title.text)for content in contents: print(content.text)

建议直接参考BeautifulSoup的文档或者google有很多很好的答案,这是中文的:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id16 ,这是英文的:http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html...

这不是报错 这是代码不兼容产生的 警告提示换一下写法就可以了#bsObj = BeautifulSoup(html)bsObj = BeautifulSoup(html, "lxml")

这不是报错 这是代码不兼容产生的 警告提示 换一下写法就可以了 #bsObj = BeautifulSoup(html) bsObj = BeautifulSoup(html, "lxml")

写爬虫的话,可以看看神箭手云爬虫开发文档,里面的教程很详细,各种基本爬虫基础和进阶开发知识都有介绍,而且上面还有不少爬虫源码分享

如果找到这个树的话,就不要用find_all了,用find html = """文本一文本二 文本三"""for item in html: content = item.find("div",attrs={"calss":"b"}

from bs4 import BeautifulSoup 如果 BeautifulSoup为3.x,则导入方式为: from BeautifulSoup import BeautifulSoup

方法1.==》不用find ,直接 print soup.meta['content']方法2.==》print meta['content']ps:注意页面有多个meta 标签的情况

网站首页 | 网站地图
All rights reserved Powered by www.mdsk.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com