2008年9月28日日曜日

Jericho HTML Parser - Javaでスクレイピング



WebAPIが用意されていない(もしくはフィードが提供されていない)サイトから、必要な情報だけをとりたいなぁというときにスクレイピングするわけですが、このJerichoはすごく使えそうです。というのも、このJerichoはいい加減なHTMLもそれなりに解析してれるようなです。といってもまだそこまで使い倒してないのでなんともいえないですが。

ASP、JSP、PSP、PHP、Mason などのサーバページ技術のファイルも読めるようです。
Share:

0 コメント: