想飞的鱼 Java Dev Engineer

简单scrapy笔记

2018-08-17

简单介绍

python下面写爬虫框架。

写爬虫,简单的可以用 requests和BeautifulSoup4库,框架有pyspider和scraypy,

在此假设已经安装好环境

文档

命令

  1. scrapy -h # scrapy –help列出命令列表 eg: genspider,runspider, settings , shell

  2. scrapy startproject yourprojectname #创建项目

  3. scrapy genspider youspidername example.com #在项目下创建一个爬虫程序爬取知道网站

  4. scrapy shell # 进入terminal编辑调试

  5. scrapy crawl yourspidername #运行爬虫

新建工程

scrapy startproject scrapy3

创建爬虫

scrapy genspider douban250 https://movie.douban.com/top250

运行爬虫

scrapy crawl douban250

中间键

  • userAgent 中间键
  • ip中间键

注意点

  • settings.py 文件里面配置
    • USER_AGENT 设置请求头
    • 添加一行“FEED_EXPORT_ENCODING = ‘utf-8-sig’” 解决导出中文乱码问题

上一篇 简单django笔记

下一篇 Proxy

Comments

Content