ExtractContent を PHP で書き換えた

2017/11/30 技術的な話題 PHP 自然言語処理 ExtractContent スクレイピング本文抽出

この記事は公開されてから1年以上経過しており、最新の内容に追従できていない可能性があります。

いや Ruby でええやん、 Python でええやん、みたいな話だとは思うのだが、やっぱり PHP でやりたいよね、という一定の需要がギョームで発生してしまったので、 Ruby のコードを見ながら PHP に書き換えた。 Packagist にも登録してあるので composer からどうぞ。

sters/extract-content - Packagist

$url = 'http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html';
$extractor = new \ExtractContent\ExtractContent(file_get_contents($url));
$result = $extractor->analyse();
file_put_contents(__DIR__ . '/result', $result);

// // 抽出結果
// Webページの自動カテゴライズ の続き。
// 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。
// 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。
// ...

ExtractContent は Cybozu の Nakatani Shuyo さんが2009年に作成したもので、正規表現を主として Web 記事上の本文に関するちょっとの知見が加わることで成り立っている。以下の記事へ。

Webページの本文抽出 (nakatani @ cybozu labs)

今回、移す際に参考にしたのは、もともとのものではなく、Ruby 1.9 に対応したソース。というのもこっちの記事を見つけたのは後で、 GitHub 上で ExtractContent を先に見つけていたので、まあいっか、と。

mono0x/extractcontent: ExtractContent for Ruby 1.9+

Ruby はチョットヨメルので inject とかわからないメソッドだけドキュメント見つつ脳内補完して、同じような感じの処理になるよう PHP へ書き直した。工夫したところはとくになく、クラスで扱うようにした、チョットテスト書いたくらいで、ほぼそのまま移してきた。Wikipedia と Medium、はてなブログあたりで試してみたところで、おおよそうまくいっているように見えたので、たぶん大丈夫。

ただ、試していて、本文っぽいと判断されるのが 2 つ以上あるような 1 記事ページ（例えば記事中に section タグがあってーとか、そいういう）ではうまく取り出せず、スコアが高くなったほうのみ抽出されてしまう。本文しきい値のようなものを設けてそれを超えていたら、結合して出す、とかしないといけないなあと思う。とはいえ、正確に本文が欲しいのか、その記事中の重要な部分にフォーカスするのか、などなど要件にもよるので、とりあえずはいいんじゃないかなの気持ち。

ちなみに PHP による実装もいたのだが、おそらく上記のようなところで、元々のものには無いオプションが増えていたりでチョットわからなかったので、一から書いた次第。

aoiaoi/ExtractContent: extract content from HTML

なお記事解析、本文抽出について Packagist を調べると他にも 3 つのライブラリが出てくる。ざっくり紹介するとこんな感じ。

zackslash/php-web-article-extractor - Packagist

スクラッチで書かれた記事解析

scotteh/php-goose - Packagist

元々 Java で実装されている Goose を PHP で書き換えたもの → 確認したら Scala 化していた
GravityLabs/goose: Html Content / Article Extractor in Scala - open sourced from Gravity Labs

j0k3r/php-readability - Packagist

元々 JavaScript で実装されている Readability を PHP で書き換えたもの
mozilla/readability: A standalone version of the readability lib

今回 PHP に書き換えてみた ExtractContent も含めて、これらの比較は次の記事でやりたい。

ExtractContent を PHP で書き換えた

サイト案内

最近の投稿

タグ

サイト内検索

アーカイブ

サイト案内

最近の投稿

タグ

サイト内検索

アーカイブ

関連した記事

サイト案内

最近の投稿

タグ

サイト内検索

アーカイブ

サイト案内

最近の投稿

タグ

サイト内検索

アーカイブ