文章からキーワードを抜き出すAPI: KOSHIAN

2006.12.14 / develop

なかなか面白そうなWebサービスを見つけました。

[ 文章からキーワードを抜き出すAPI: KOSHIAN ] http://blog.zuzara.com/2006/12/10/171/

面白いなぁと思ったのは前処理に形態素解析器を利用していないそうな。 僕はこの辺りの専門家でもないですが、ChaSenやMeCabが有名な形態素解析ツール、というくらいは心得ていました。が、このサービスは複数の情報源の組み合わせ、中でもWikipediaを多く利用しているることが、いわゆるマッシュアップな感じで面白みを感じます。

で、早速使ってみました。こんな文章をinput。

さて、僕は今日も今日とてパンをむしゃむしゃ食べながら開発をしていたわけだが、夜になってからは別部屋でミーティングをしていたわけだな。雑談ベースでわいわいやりつつも、なかなか面白いアイディアがまとまったわけなのでしたとさ。

結果のXMLはこんな感じ。

<ResultSet> <Result id=“393268”>開発</Result> <Result id=“15678”>部屋</Result> <Result id=“212074”>ミーティング</Result> <Result id=“26578”>ベース</Result> </ResultSet>

結構それっぽい?結果です。 「ベース」って言葉が少し気にかかりましたが、若干いじわるな文章にしたつもりですが、それでも主観的にはユーザを納得させられるだけの結果が得られているように感じました。

自然言語処理、楽しいですねぇ。 単体でのエンジンにするのではなく、他社サービスと組み合わせることでいろいろ楽しいことができそうです。