使用puppeteer抓取网页数据

我之前的笔记使用puppeteer来截屏是使用puppeteer来截屏。其实puppeteer也可以用来当爬虫。 superagent + cheerio 先按照我之前的笔记Node.js之使用superagent + cheerio 来爬取网页内容使用superagent+cheerio来试下水,来抓取一下当当的内容。 以爬取当当网的图书畅销榜近七日的数据为例,爬取第一页的图书 先来看一下图书畅销榜里面的HTML结构 按照之前这篇笔记Node.js之使用superagent + cheerio 来爬取网页内容里面的代码,修改一下 var superagent = require('superagent'); var cheerio = require('cheerio'); var url = "http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1"; var items = []; superagent.get(url) .end(function(error,…

用puppeteer来截屏

用puppeteer来截屏 安装 执行命令npm install --save puppeteer进行安装 结果报错ERROR: Failed to download Chromium r571375! Set "PUPPETEER_SKIP_CHROMIUM_DOWNLOAD" env variable to skip download. 在网上找了一下原因,是因为我不能直接访问google,所以下载chromium的时候出错了,可以参照这个issue里面提到的方法解决该问题。 我参照了上面那个链接里面提到的方法,主要解决步骤如下: 执行env PUPPETEER_SKIP_CHROMIUM_DOWNLOAD="true" npm i --save puppeteer命令,先跳过chromium的下载 我根据这个issue里面提到的解决办法,从这个淘宝源里面手动下载了chrome-linux.zip文件。 然后,手动在node_modules/puppeteer/…