更新をチェックするRSSフィードの賢い選択方法

はてなは理系の会社? - higepon blogRSSリーダ・サービスが、どのフィードをチェックするかについて議論している話が載っている。

単純に考えれば、購読者数が多く、最後にチェックした時刻が古いフィードをチェックすれば良いように思える。この感覚は正しい。しかし、役には立たない。なぜならば、購読者数と更新時刻の間での交換レートを決定する必要があるからだ。たとえ、更新時刻が古くとも、購読者数の少ないフィードは後回しにしてもよいし、購読者数が多いフィードは、積極的に更新チェックする必要がある。

そこで、久しぶりに統計学を利用して、フィードの更新チェック戦略を作ってみた。数式を使うと、ブログでは書きづらいので、こちらのpdfをダウンロードしてください。

計算した結果を簡単に紹介すると、フィードの購読者数を r, フィードを最後に更新した時刻を lとしたとき、次の値を最大にするフィードを選択する戦略である。

 r e^{\alpha l}

 \alphaはチューニングパラメータです。思ったより簡単な式になりました。久しぶりに数式に触ったので、間違えていたらごめんなさい。

修正版を作りました。(RSSリーダ・サービスが更新チェックするフィードを選択するアルゴリズム(修正版) - llameradaの日記

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)