Jericho HTML Parser - Javaでスクレイピング
WebAPIが用意されていない(もしくはフィードが提供されていない)サイトから、必要な情報だけをとりたいなぁというときにスクレイピングするわけですが、このJerichoはすごく使えそうです。というのも、このJerichoはいい加減なHTMLもそれなりに解析してれるようなです。といってもまだそこまで使い倒してないのでなんともいえないですが。
ASP、JSP、PSP、PHP、Mason などのサーバページ技術のファイルも読めるようです。
0 コメント:
コメントを投稿