nodejs

使用puppeteer抓取网页数据

我之前的笔记使用puppeteer来截屏是使用puppeteer来截屏。其实puppeteer也可以用来当爬虫。 superagent + cheerio 先按照我之前的笔记Node.js之使用superagent + cheerio 来爬取网页内容使用superagent+cheerio来试下水,来抓取一下当当的内容。 以爬取当当网的图书畅销榜近七日的数据为例,爬取第一页的图书 先来看一下图书畅销榜里面的HTML结构 按照之前这篇笔记Node.js之使用superagent + cheerio 来爬取网页内容里面的代码,修改一下 var superagent = require('superagent'); var cheerio = require('cheerio'); var url = "http://bang.dangdang.com/

  • Nemo
    Nemo
6 min read
nodejs

用puppeteer来截屏

用puppeteer来截屏 安装 执行命令npm install --save puppeteer进行安装 结果报错ERROR: Failed to download Chromium r571375! Set "PUPPETEER_SKIP_CHROMIUM_DOWNLOAD" env variable to skip download. 在网上找了一下原因,是因为我不能直接访问google,所以下载chromium的时候出错了,可以参照这个issue里面提到的方法解决该问题。 我参照了上面那个链接里面提到的方法,主要解决步骤如下: 执行env PUPPETEER_SKIP_

  • Nemo
    Nemo
3 min read