Nodejsとcheerioを使ってお手軽Webスクレイピング入門

Node.jsでスクレイピングをするならcheerioというライブラリを使うと簡単にできます。

https://www.npmjs.com/package/cheerio

例: Wikipediaのイーロン・マスクのページからプロフィール概要を抜き出す

var request = require("request");
var cheerio = require("cheerio");
var url = "https://en.wikipedia.org/wiki/Elon_Musk";

request(url, function (error, response, body) {
    var $ = cheerio.load(body);
    var x = $("#mw-content-text p").eq(0).text();
    console.log(x);
});

実行結果

$ node ./scrape.js
Elon Reeve Musk (/ˈiːlɒn ˈmʌsk/; born June 28, 1971) is a South African-born Canadian-American business magnate, [10][11] engineer[12] and inventor.[13][14][15][16]

はい、こんな感じで簡単にスクレイピングすることができました。

自分は今までスクレイピングはPerlでやってたんですが、こんなに簡単ならNodeでやるのも悪くないなと思いました。

カテゴリ:

人気記事