jQueryのように操作できる「jsoup」

JavaのHTMLパーサー。パースした要素をjQueryのように操作できるのが特徴。

Table of Contents

概要

特徴は次の2つ。

  • jQueryのように操作できる。

  • HTMLのパーサーなので、閉じタグがなかったりしてもパースしてくれる。

「jsoup」はパースした要素をjQueryのように操作できる。いちいち下の階層にもぐらずに目当てのモノが取得できるのでうれしい。

標準ライブラリで用意されているXMLパーサーでHTMLをパースすると、タグが崩れている場合などすぐに例外になってしまう。「jsoup」は少々の崩れであれば問題なく利用できるのでそんなところもうれしい。

HTMLパーサーライブラリを特に決めてない人には、お勧め。

基本的な使い方

jsoupの基本的な使い方
Connection Connection = Jsoup.connect("http://javazuki.com/");
Document doc = Connection.get();

// jQueryのようにセレクタで指定可能
Elements elements = doc.select("title");
elements.listIterator()
        .forEachRemaining(element -> System.out.println(element.html()));

Documentオブジェクトはファイルや文字列からも生成可能。