使用puppeteer抓取网页数据
我之前的笔记使用puppeteer来截屏是使用puppeteer来截屏。其实puppeteer也可以用来当爬虫。 superagent + cheerio 先按照我之前的笔记Node.js之使用superagent + cheerio 来爬取网页内容使用superagent+cheerio来试下水,来抓取一下当当的内容。 以爬取当当网的图书畅销榜近七日的数据为例,爬取第一页的图书 先来看一下图书畅销榜里面的HTML结构 按照之前这篇笔记Node.js之使用superagent + cheerio 来爬取网页内容里面的代码,修改一下 var superagent = require('superagent'); var cheerio = require('cheerio'); var url = "http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1"; var items = []; superagent.get(url) .end(function(error,…