Che cos’è una buona libreria Java per la codifica Parts-Of-Speech?

Sto cercando un buon POS Tagger open source in Java. Ecco cosa ho inventato finora.

  • LingPipe
  • Stanford
  • LBJ
  • FastTag

Qualcuno ha qualche raccomandazione?

Stai cercando di taggare i POS in un dominio specifico? La maggior parte dei tagger generici sono addestrati sul testo di newswire. In genere non funzionano bene quando li si utilizza in domini specifici (tale e testo biomedico). Ci sono altri tagger specificamente addestrati per tali domini come dTagger (java) per il testo biomedico.

Per il testo newswire, l’MXPOST di Adwait Ratnaparkhi è molto buono ed è quello che raccomanderei.

Altre implementazioni Java includono:

  1. MontyLingua
  2. Berkeley Parser (Non proprio un tagger POS, ma tutti i parser completi comprenderanno tipicamente i tagger POS. Google per i parser sintattici di Google e ne troverete molti).
  3. qTag
  4. LBJ

Anche OpenNLP e Lingpipe, come postati dagli altri poster, sono abbastanza decenti.

Informazioni sullo stato dell’arte sulla codifica POS possono essere trovate qui . Come puoi vedere LTAG-Spinal (citato anche da un altro poster) è al momento il migliore, ma la variazione tra i vari tagger non è molta. Non ho usato LTAG me stesso.

Si noti inoltre che le prestazioni di base per il tagging POS sono di circa il 90%. Baseline significa: (a) tagga ogni parola con il tag POS più frequente da un lessico, e (b) tagga ogni parola sconosciuta come un nome.

Ho usato OpenNLP con buoni risultati. Puoi anche dare un’occhiata a MorphAdorner .

Ho usato sia LingPipe che il POS Tagger di Stanford. Il più tardi è un POS Tagger all’avanguardia , ma, a giudicare dalla mia esperienza, è troppo lento (sebbene fornisca modelli meno precisi, che sono ragionevolmente veloci). Naturalmente, dipende sempre da ciò che stai cercando di ottenere, e ci sarà sempre un compromesso tra velocità e accuratezza.

Una volta ho anche usato un software NER basato su LBJ e, sebbene fosse abbastanza accurato, il codice sorgente era un disastro completo. Sia la fonte di LingPipe che quella di Stanford sono molto pulite e ben documentate.

Puoi anche dare un’occhiata a LTAG-spinale . Non l’ho ancora usato, ma dalla descrizione dell’algoritmo e dalla precisione elencata, sicuramente sembra migliore delle alternative che hai finora.

Spero che sia d’aiuto.