2011年5月25日水曜日

Evernote Chrome拡張の本文抽出にはhatena-extract-contentが使われている

新しくなったEvernote Google Chrome エクステンション « Evernote日本語版ブログ

記事クリップ機能にページの本文の判定をするようになったとのことで、何のライブラリ使ってるのだろうと中身を見てみました。

Chrome拡張の保存場所は以下の通り

Windows
C:\Users\(ユーザ)\AppData\Local\Google\Chrome\User Data\Default\Extensions
Mac
~/Library/Application Support/Google/Chrome/Default/Extensions

image

見て分かるようにlibフォルダにExtractContentJSが入ってたので、はてなのextract-content-javascriptが使用されているようです。

一応中身も見てみるとevernoteContentClipper.jsで以下のように本文を判定、抽出に使用されている。


Evernote.ContentClipper.prototype.getArticle = function() {
if (!this._article) {
var ex = new ExtractContentJS.LayeredExtractor();
ex.addHandler(ex.factory.getHandler('Heuristics'));
var res = ex.extract(window.document);
if (res.isSuccess) {
this._article = res;
}
}
return this._article;
};
自分もGreasemonkeyで使っていましたが、普通のブログ記事なら殆どの場合で大丈夫な感じだったと思います。(Twitterとかそういう感じのはちょっと苦手な感じだった気がする)

0 コメント:

コメントを投稿