2012年12月13日 星期四

在 Arch Linux 建構 python 自然語言處理環境

自然語言處理好像很有趣, 紀錄一下安裝過程。
如果還沒安裝python的話要先安裝起來, 目前nltk(Natural Language Toolkit)主要版本支援的是python2。

sudo pacman -S python2

已經安裝過python的話可以使用 python -V 查看運行的版本號。
確定python安裝無誤就可以開始安裝nltk(Natural Language Toolkit)

sudo pacman -S python2-nltk

因為我的主機裡面, 安裝了 pyhon3.3 和 python2.7, 所以我必須指定使用的python版本號.

python2.7

這樣就可以進入python的shell








要做接下來的範例, 首先要先下載測試的文件, 我們下載幾本書下來分析。
先在python shell中載入nltk模組
import nltk
然後進入nltk提供的下載界面,把其中的book下載下來。
nltk.download()



















下載完之後載入這包book資料
from nltk.book import *
















接下來就可以做一些簡單的測試,
text1是白鯨記, 我們來看看白鯨記總共有多少個字

len(text1)






再來跑一個有趣的練習, 用白鯨記的詞產生50字的隨機文章,

text1.generate(50)








先介紹到這邊, 有機會在深入研究。

延伸閱讀:
http://rritw.com/a/bianchengyuyan/Python/20101004/47354.html

沒有留言:

張貼留言