[Squeak-ja: 3471] Natural Smalltalk, a natural language processing library on/against Squeak

Previous Topic Next Topic
 
classic Classic list List threaded Threaded
1 message Options
Reply | Threaded
Open this post in threaded view
|

[Squeak-ja: 3471] Natural Smalltalk, a natural language processing library on/against Squeak

Tomohiro Oda
おだです。

Smalltalkや英語のテキストを自然言語処理の技術で分析する
Squeak上のツールライブラリ Natural Smalltalkを開発しま
したので公開します。

http://map.squeak.org/package/624ed871-4e89-4343-8652-af38a873d0b4/autoversion/1

Smalltalk(に限らずプログラミング言語)の自然言語的な側面
に興味があり、Smalltalkプログラムに自然言語処理技術を適用
して何ができるか試行錯誤をしているのですが、その試行錯誤で
生まれたコードをまとめてライブラリとして公開することにしま
した。

NaturalSmalltalkではSmalltalkのプログラムを英単語に
分解してクラスタリングやキーワード抽出、自動分類に用います。
こうしてプログラムを単語に分解することで、
* クラスタリング(K-means法)
* 自動分類(tfidf, Naive Bayes)
* キーワード抽出(tfidf, posterier probability)
* 可視化(FastMap)
をおこないます。

また、実行された各メソッドの時間計測とキーワード抽出をおこなう
MessageSpyや、Squeak環境内で実行中のプロセス群の実行コンテキスト
のソースコードからキーワードを抽出するWhatyaDoingが応用例題として
付属しています。

実行の様子のスナップショットをいくつか添付します。
ぜひ使ってみて感想をお聞かせください。
---
おだ

Collection.png (7K) Download Attachment