大規模ブログコーパス
国内ブログを大規模に収集し、目的に応じてご提供いたします。
毎日数十万単位で次々と語られるブログ記事のエピソードを一つ一つ読むと、ドラマや映画の感想に、作った料理や読んだ本、友人や恋人と過ごした日々の出来事など、笑ったり泣いたり怒ったり感動したりといった個人的なものですが、大量に集まるとまるで社会全体の巨大な記憶のようだと思うことがあります。
天気が良ければ天気が良いなりの一日を過ごしたエピソードが書かれ、ニュースが流れればそのインパクトに応じたエピソードが書かれます。社会も人と同じようにエピソードの積み重ねで行動や感情が決まるのであれば、一つ一つのエピソードを分析して集計することは社会全体の理解を深めるアプローチの一つになると考えられます。
その蓄積された社会の記憶=大量の個人的なエピソードを分析して、あるテーマに対する社会全体の傾向やトピック抽出を行う社会調査はまだ新しい未開拓で可能性のある分野であると思います。
データセクションではブログを大規模に収集し、そのデータを活用したい事業社様へ加工して出力いたします。
ブログデータ収集とご利用例
国内主要ブログ事業を行っている28社、個人ドメインのブログを含めた約530万ブログをクロール対象として、2007年1月より約6億記事を収集しています。
収集したブログデータを以下の形式でご提供いたします。
1 キーワードと期間によるCSV出力
例 「あるブランドについて書かれたブログ記事を過去半年分出力し、使われているキーワードなどや評判などの解析を行いたい」
2 リンク検索
例 「グルメや書籍サイトなど特定のサービスのURLへリンクしているブログ記事を一覧にして、クチコミサイトをつくりたい」
3 連想語抽出
例 「あるブランドとよく共起する言葉を一覧にして時系列に出力したい」
ご利用形態と費用
ブログデータはASP形式でRSSまたはCSVで定期的に出力して、お渡しいたします。
データご利用の目的に応じまして、出力規模や頻度、形式、精度調整などを行い、最適な出力を行うようチューニングを実施します。なおブログデータそのものの著作権は実際に書かれたブロガー様にありますので、データご利用にはご注意ください。データセクションはお客様の代理でクロール業務を行ったという考え方になります。
費用やライセンスの形態など、詳細はお問い合わせください。









