Stemmer per l'italiano

di il
4 risposte

Stemmer per l'italiano

Questa, mi sa, e' piu' una domandona per MAW che non per i ziovini virgulti dell'informatica moderni

Qualcuno ha mai implementato, o trovato l'implementazione, di uno stemmer per l'italiano, che non sia quello su cui vado sempre a finire presente sul sito snowball?

Per i ziovini virgulti uno stemmer e' sta cosa qui':

https://it.wikipedia.org/wiki/Stemmin
http://snowball.tartarus.org

(varie implementazioni in PHP, Java che ho trovato, al momento fanno sempre riferimento allo stesso algoritmo).

4 Risposte

  • Re: Stemmer per l'italiano

    Ciao,
    non troppo tempo addietro ho fatto una ricerca in tal senso per un sistema basato su Lucene ma niente da fare.
    Uso anche io Snowball che tra l'altro è un progetto abbandonato.

    Tralasciando il fatto che puoi modificarlo in base alle tue esigenze, cosa c'è che non ti quadra di Snowball?
  • Re: Stemmer per l'italiano

    Nulla, pensavo che ci fosse qualcosa di piu' recente, e di essere io a non trovarlo.

    Pero', in effetti, visto che quello di Porter e' del 1980 (con qualche piccola miglioria), immagino che quello di Snowball vada perfettamente bene.
  • Re: Stemmer per l'italiano

    immagino che quello di Snowball vada perfettamente bene
    Non è perfetto perché la lingua Italiana è ricca di forme irregolari per i verbi, gli aggettivi, ecc.
    Comunque sia a parte quella di Snowball non ho trovato soluzioni più furbe.
  • Re: Stemmer per l'italiano

    Lasciando un attimo a margine le applicazioni, questo survey è il più recente e il più completo per la classificazione degli algoritmi di stemming e i loro scenari di utilizzo.

    Nella prassi della linguistica computazionale e NLP snowball rimane apparentemente il più usato per motivi pratici, anche se - come sottolinea il survey citato - esistono numerosi altri algoritmi di nicchia per applicazioni verticali.
Devi accedere o registrarti per scrivere nel forum
4 risposte