トピック抽出
数万記事の文書集合からトピックの抽出を行います。
ブログなど数万記事規模の文章集合から、その中で主にどんな話題が語られているか、時系列で見てみたい。データセクションでは大規模クラスタリング技術を用いて、似ている記事のグループ化して、トピックとして抽出を行います。各トピックには代表的な単語リストがつけられます。
対象がブログやニュースなどですと記事ごとに書かれた日時がわかりますので、トピックAがいつの時期から伸びてきたのかとか、ライバルブランドについて書かれたトピックBとどのような差があるかなどをグラフで確認することができます。
世の中の多くのトピック抽出は数百記事規模の文章量が対象ですが、データセクションでは数万記事全体を走査した上でクラスタリングを実施するため、より全体を見渡すことができます。
ご提供方法
トピック抽出は数万記事のブログからトピック抽出を行う場合、約20分ほどかかる処理になりますので、Web上でリアルタイムに取得することはできません。事前に解析を行って、定期的に出力する形式になります。ブログだけではなく、様々な文章集合に適用可能ですので、お手持ちの一定の分量と傾向をもつテキストデータがありましたら、気軽にご相談ください。










