Pages

Wednesday, December 22, 2010

solr + довільна мова = ваш корпоративний гугл

1. Качаємо архів проекта http://code.google.com/p/lucene-hunspell/
2. Копіюємо jar файл з архів в папку lib в домашньому каталозі solr. В моїй системі це /usr/share/solr/lib
3. Качаємо myspell словники для україньскої (або довільної існуючої) мови і кладемо affix та dict файли в конфыгураційний каталог solr. В мене це /etc/solr/conf
4. В файл /etc/solr/conf/schema.xml добавляємо опис типа даних для україньских текстів
<fieldtype name="ukrainian" stored="false" indexed="true" class="solr.TextField" ><analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="ukrainian.stop"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.HunspellStemFilterFactory" dictionary="uk_UA.dic" affix="uk_UA.aff"/>

</analyzer>
</fieldtype> 


5. Вказуємо новий тип даних для потрібних полів або створюємо нові з цим типом.
<field name="name2" type="ukrainian" indexed="true" stored="true"/>
6. Рестартуємо томкет
7. Використовуємо усі можливості повнотекстового пошуку в україномовних текстах - прикручений словник реалізує хороший стеммінг згідно правил україньского словотворення

No comments: