Nodejsとcheerioを使ってお手軽Webスクレイピング入門
Node.jsでスクレイピングをするならcheerio
というライブラリを使うと簡単にできます。
https://www.npmjs.com/package/cheerio
例: Wikipediaのイーロン・マスクのページからプロフィール概要を抜き出す
var request = require("request");
var cheerio = require("cheerio");
var url = "https://en.wikipedia.org/wiki/Elon_Musk";
request(url, function (error, response, body) {
var $ = cheerio.load(body);
var x = $("#mw-content-text p").eq(0).text();
console.log(x);
});
実行結果
$ node ./scrape.js
Elon Reeve Musk (/ˈiːlɒn ˈmʌsk/; born June 28, 1971) is a South African-born Canadian-American business magnate, [10][11] engineer[12] and inventor.[13][14][15][16]
はい、こんな感じで簡単にスクレイピングすることができました。
自分は今までスクレイピングはPerlでやってたんですが、こんなに簡単ならNodeでやるのも悪くないなと思いました。
カテゴリ:
nodejs