Consiglio di procedura NLP

di il
3 risposte

Consiglio di procedura NLP

Buongiorno,

intanto vi ringrazio per l'opportunità di poter scrivere su un forum!

Ho il seguente quesito:

Dovrei analizzare una serie di elaborati testuali (in italiano) e poi assegnarli un voto.

Quale è la procedura secondo voi? dovrei allenare un classificatore fornendogli X testi per ogni voto?
Oppure dovrei vedere con una rete neurale quali sono le ricorrenze presenti e se riesce secondo dei suoi parametri a classificarli?

Insomma voi come agireste?

3 Risposte

  • Re: Consiglio di procedura NLP

    Messa cosi' non vuole dire nulla!

    e' un problema di regressione o classificazione?
    e' supervisionato/semi/non?
    nlp e' notoriamente un dominio sparso.
    vuoi usare tecniche di dimensonal reduction?
    quali, tra le n'mila?
    quanti sono i documenti?
    10? 100? 1000? 1000000?

    per l'italiano dovrai implementati a mano diversi step di preprocessing
  • Re: Consiglio di procedura NLP

    Intanto grazie per la risposta!

    In realtà direi che è un problema di classificazione ma chiedevo consiglio ai più esperti.

    Io ho 500 testi di 2 pagine (in italiano) labeled con un voto di riferimento (da 25 a 30).

    Vorrei provare dato un nuovo testo in input a valutare la sua "somiglianza" con i testi etichettati e quindi assegnargli in automatico una classe di voto.

    Mi chiedevo se fosse la strada giusta per procedere e che consigli potevate darmi, io stavo provando a leggermi la documentazione di nltk e di huggingface ma non sono sicuro che sia la via più efficace.
  • Re: Consiglio di procedura NLP

    E' un esercizio per un esame?
    un esercizio per casa a fronte di un corso?

    le librerie non ti dicono come fare
    TU devi sapere come fare e a questo punto cercare la libreria per farlo.

    Direi che un possibile approccio potrebbe essere :

    1) dimensionale reduction, se no non caverai un ragno dal buco. Come? C'e' ne sono n-mila. Inizia con qualcosa di semplice: topic modeling (gensim)
    2) addestrare un algoritmo di classificazione tra gli n-mila possibili. Anche inizia con qualcosa di semplice: decision tree (scikit)

    Ad incasinarsi c'e' sempre tempo

    500 testi sono pochi per fare cose complicate.
    E men che meno per usare algoritmi 'fighi' come le reti neurali.
    Inoltre le NN non sono esenti da rogne rognose.
Devi accedere o registrarti per scrivere nel forum
3 risposte