设为首页收藏本站

编程十万个为什么,属于程序员的编程论坛

 找回密码
 5秒快速注册

QQ登录

只需一步,快速开始

搜索
查看: 1301|回复: 1

[讨论] 如何入门 Python 爬虫?

[复制链接]
发表于 2017-4-18 16:03:24 | 显示全部楼层 |阅读模式

  • 翻下 搜索引擎技术基础 (豆瓣) 中百度爬虫的一个基本架构,了解爬虫的构成
  • 通过 Python 下的 Scrapy | An open source web scraping framework for Python 框架快速完成简单的爬虫 (可参考我去年对 scrapy 的一个简单封装 flyer103/autospider · GitHub)
  • 之后有不同的方向:


  • 研究 headless browser 技术,自动处理页面中的 js 请求等。可参考我之前的总结的两种实现 github.com 的页面 和效率比较高的 PhantomJS: Headless WebKit with JavaScript API (看文档就会了,一般还需要与 Squid 结合使用。若想与 Python 结合,可参考我在 stackoverflow 上的提问 Is there a way to use PhantomJS in Python?)
  • 研究分布式爬虫的实现,主要还是根据 1) 中那本书中提到的架构思想 (个人打算明年一月份时实现一个类似的)
发表于 2017-6-13 12:56:06 | 显示全部楼层
不错支持
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 5秒快速注册

本版积分规则

关闭

BcWhy推荐上一条 /1 下一条

QQ|关于我们|最新帖子|小黑屋|手机版|编程十万个为什么 ( 粤ICP备16108587号-2  

GMT+8, 2017-9-23 08:14 , Processed in 0.123308 second(s), 33 queries , File On.

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表