バーストワード抽出
検索ログなどの大量の時系列データを解析し、急上昇ワードの自動抽出を行います。
多くの検索ログの集計をシンプルに検索回数で行いますと、ランキング上位には常に同じパターンのワードが並び、その日のトピックとなるワードを抽出しようと思っても、ランキング上位を覆すことは滅多にありません。
そのような場合、時系列解析の手法を用いて、急上昇ワードの抽出を行います。
時系列解析とは
時間軸に沿った観測データを収集し、その遷移から統計モデルを推測したり、未来予測を行おうとする解析です。株価や気象データ解析などに用いられることが多いようです。
データセクションのバーストワード抽出
データセクションでは検索エンジン「といえばサーバ」のライブラリを利用し、1日に数十万~百万規模の大量のログを高速にインデックスし、時系列データ解析を行うための環境構築を行います。シンプルな急上昇から、異常値検知、パターン抽出など様々な時系列解析を試行錯誤しつつ目的の解析に近づけてゆくことができます。









