クローリング技術
インターネット上から取得できるテキストデータは、2000年以降、爆発的に増大しています。 Web上での情報発信は企業のみならず、個人のブログやtwitter、掲示板、QAサイトなど多種多様です。これらの大規模なデータクローリング、及び分析を行うことで、マーケティング、市場調査、商品開発やリスク検知などへの活用が可能です。また、文書集合中の単語間共起頻度計算による連想語取得など、確率的なデータを取得するためのソースとして活用することができます。
データセクションでは、1日数百万記事をクロールするブログを5年以上にわたって収集。また、twitterや地方公共団体なども含め、その他のインターネット上の様々なテキストデータに関しても日々アーカイブを続けております。
クローリングはサービス提供事業者の負荷にならないよう時間帯や頻度を細かく設定し、得られたテキストデータからメニューや広告部分を除き本文部分のみを抽出するなどのクレンジング処理を含めた運用を行っています。
各種クローリング及びアーカイブを大規模に安定的に運用するには技術とノウハウが必要です。クローリング案件がありましたら専門のデータセクションに是非ご相談ください。