Pages

Friday, February 24, 2012

Стемування українських слів з допомогою python і словників openoffice



Встановлюємо залежності:

sudo apt-get install hunspell libhunspell libhunspell-dev myspell-uk
sudo pip install -e svn+http://pyhunspell.googlecode.com/svn/trunk/#egg=pyhunspell


В консолі python: 

>>> import hunspell
>>> hobj = hunspell.HunSpell('/usr/share/hunspell/uk_UA.dic', '/usr/share/hunspell/uk_UA.aff')
>>> print hobj.stem('маму')[0]
мама

Інші ніштяки:


>>> print hobj.spell('маме')
False
>>> print hobj.spell('мамо')
True

>>> for i in hobj.suggest('маме'):
...     print i
... 
мам
мама
маже
мами
мамі
мале
мамо
саме
мате
маму
Мамай
макраме
мадер
марен


Ще

No comments: