开始你的第一个node项目

网上有很多关于Node.js如何安装的教程,我这里只是记录一下,免得自己每次再找 一、安装nvm 在终端执行命令curl -o- https://raw.githubusercontent.com/creationix/nvm/v0.33.8/install.sh | bash 修改配置文件~/.bashrc,在里面加入以下文字 export NVM_DIR="$HOME/.nvm" [ -s "$NVM_DIR/nvm.sh" ] && \. "$NVM_DIR/nvm.sh" # This loads nvm [ -s "…

使用puppeteer抓取网页数据

我之前的笔记使用puppeteer来截屏是使用puppeteer来截屏。其实puppeteer也可以用来当爬虫。 superagent + cheerio 先按照我之前的笔记Node.js之使用superagent + cheerio 来爬取网页内容使用superagent+cheerio来试下水,来抓取一下当当的内容。 以爬取当当网的图书畅销榜近七日的数据为例,爬取第一页的图书 先来看一下图书畅销榜里面的HTML结构 按照之前这篇笔记Node.js之使用superagent + cheerio 来爬取网页内容里面的代码,修改一下 var superagent = require('superagent'); var cheerio = require('cheerio'); var url = "http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1"; var items = []; superagent.get(url) .end(function(error,…

Node.js之使用superagent + cheerio 来爬取网页内容

举个例子: 有一个网页,网页里面是很多的书籍。如下图所示,我只是截图了其中一部分html结构 需求: 把这个网页上的所有书名都爬出来。 先给出我的代码: var superagent = require('superagent'); var cheerio = require('cheerio'); var url = "http://xxx.xxx.com"; var cookie = "locale=zh; sessionid=imq23m240knb3421b35j0x8q82nb8z7qb"; var items = []; superagent.get(url) .set("Cookie", cookie) .end(function(error, res) { if (error) { throw error;…

用puppeteer来截屏

用puppeteer来截屏 安装 执行命令npm install --save puppeteer进行安装 结果报错ERROR: Failed to download Chromium r571375! Set "PUPPETEER_SKIP_CHROMIUM_DOWNLOAD" env variable to skip download. 在网上找了一下原因,是因为我不能直接访问google,所以下载chromium的时候出错了,可以参照这个issue里面提到的方法解决该问题。 我参照了上面那个链接里面提到的方法,主要解决步骤如下: 执行env PUPPETEER_SKIP_CHROMIUM_DOWNLOAD="true" npm i --save puppeteer命令,先跳过chromium的下载 我根据这个issue里面提到的解决办法,从这个淘宝源里面手动下载了chrome-linux.zip文件。 然后,手动在node_modules/puppeteer/…