CGMデータクロール代行事業
ブログやtwitter,掲示板などネット上で公開されるCGM(Consumer Generated Media)は年々拡大を続けており、ネット上に日記等として書かれた商品情報や体験談など生のエピソードは、購買を予定している人に検索され参考にされることから重要度を増しています。これらのCGMデータを大規模に収集・アーカイブを行い、キャンペーン効果測定、マーケティングや商品開発等における市場調査、リスク早期検知、キーワード間の連想距離の測定などを行う際の定量および定性データとして活用いただくための大規模テキストデータ=コーパスとして本サービスをご活用いただけます。
また、本サービスは多くのブログ分析事業社様の分析元ソースとしてもご活用いただいており、APIによるシステム連携にも対応しております。
データ収集規模
1 ブログコーパス
- ・国内主要100サイトおよび有名ブロガーサイトから1日約100から200万記事を収集・アーカイブ。※2010年9月時点
- ・過去にのアーカイブ記事数は2004年から6億記事規模(2010年9月現在)
- ・スパムフィルタによるデータクレンジング
- ・性年代自動推定
2 twitterコーパス(予定)
- ・国内twitterユーザ約80万人分を収集・アーカイブ(予定)※2010年9月現在全投稿数の1%を収集
- ・フォロー数等、プロフィール情報を付与してご提供いたします。
3 掲示板/ニュースコーパス
- ・国内主要掲示板および国内ニュース200サイトを収集。
※詳細はお問い合わせください。
4 地方公共団体コーパス
- ・国内地方公共団体約1400サイトの議会の議事録、くらし、健康、環境、知事の発言、記者・広報発表などの情報を収集。
※詳細はお問い合わせください。
ご要望のサイトが上記に含まれていない場合、収集先へ追加が可能です。ご相談ください。
データ提供方法
・ASP方式
Web上のインタフェースからキーワード、期間等入力いただくとコーパス出力を行います。
※UIのサンプル添付
・API方式
システム連携を前提にしたAPIにより、RSS等によるデータ通信を行います。
・全件出力方式
弊社でアーカイブしたデータをキーワード、期間の条件により、該当する全データをCSV形式でご提供いたします。クロールしたデータをそのままご提供することも可能です。