キーワード自動抽出
固有名詞の表記ゆれや、タグ自動付与に対応した高速なキーワード自動抽出を行います。100万記事/日以上の処理速度があります。
ブログや新聞記事など一定の分量をもつ文章からキーワードと思われる語を自動的に抽出し、ランキングを行います。抽出されたキーワードを時系列に集計すれば、出現確率が急上昇するバーストワード抽出ができますし、キーワードに広告を結びつけますとコンテンツマッチ広告配信システムになります。キーワード自動抽出はテキストマイニングの全ての基本であり、非常に奥が深いテーマであるといえます。データセクションではキーワード自動抽出に様々な工夫を行い目的に合わせた精度向上チューニングを実施します。
辞書強化とアルゴリズム
データセクションでは形態素解析器MeCabの標準の40万語の辞書に対して、Wikipediaをベースに固有名詞を中心に大幅な強化を行い80万語の辞書をメンテナンスしています。辞書登録された語はブログの1億記事から単語発生確率を算出し、キーワード抽出アルゴリズムとして一般的なTF/IDF法のポイントとして利用しています。Wikipediaを利用することで、映画やドラマのタイトルや人名など時事的なキーワード抽出が可能になりました。
また、別途確率的に解析を行った連想語や表記ゆれ、特定分野の辞書作成用のキーワード候補抽出など、キーワード自動抽出の精度を上げるためのノウハウも保持しています。よりよい解析を行うために対象とする文章と利用目的によって、キーワード自動抽出のチューニングノウハウを保持していますので、お気軽にご相談ください。









