2007-07-01から1ヶ月間の記事一覧

本棚演算

http://pitecan.com/Enzan/ enzan20070409.tgzをダウンロード。enzan.rbを読む。 Rubyは集合演算が簡単に使えて便利。

CPANモジュールText::Similarity

http://search.cpan.org/~jasonm/2つのテキストファイルの類似度スコアを計算する。ソースをざっと読んでみた。 Overlaps.pmのgetSimilarity()でsanitizeString()を実行。Similarity.pmのsanitizeString()は英語前提(約物の除去、大文字小文字変換、引用符…

Macbook Black 13” ノイズトラブル

購入直後から、ときどきジーってノイズが発生。あーあ。追記)MacBook出火の報告http://d.hatena.ne.jp/swdyh/20070715/1184455101こわいなあ。面倒だけど外出時は電源ケーブル外すことにしよう。

CPANモジュールAI::Categorizer

http://search.cpan.org/~kwilliams/AI-Categorizer-0.09/

PlaggerでMeCabを使う

Plaggerをインストール。 Plagger::Plugin::Publish::CSVを参考に、MeCabの解析結果をCSV保存するプラグインを作ってみた。 MeCab.pm package Plagger::Plugin::Publish::MeCab; use strict; use warnings; use base qw ( Plagger::Plugin ); our $VERSION =…

特徴語抽出アルゴリズムtf-idf

http://chalow.net/2005-10-12-1.html http://nlp.nagaokaut.ac.jp/wiki/wiki.cgi/term?page=TF%A1%A6IDF http://ja.wikipedia.org/wiki/Tf-idf