Ricerca volontari data entry

di il
5 risposte

Ricerca volontari data entry

Ciao,
per una tesi riguardante la diagnosi dell'Alzheimer mediante l'analisi del parlato necessito di un training set formato da coppie di "espressioni" (utterances) in italiano con le seguenti caratteristiche:
- Devono essere coerenti tra loro (ad esempio: <Che tempo fa oggi?> <Oggi fa bello.>);
- Devono essere scritte in italiano colloquiale (se poi riuscite ad emulare il linguaggio parlato degli 80enni tanto meglio);
- Possono riguardare qualsiasi argomento non troppo specialistico;
- Non dovrebbero contenere parole in altre lingue o sigle (a parte eventualmente quelle ormai di uso comune);
- Non dovrebbero contenere parole troppo "rare";
- Ogni utterance può essere:
* Una frase;
* Una porzione di frase (interrotta in qualsiasi punto) (esempio: Mi chiamo);
* Più frasi coerenti tra loro (di cui la prima e l'ultima possono essere parziali) (esempio: svegliato, poi ho fatto colazione. Alle 9 sono uscito. Più tardi ho);

Ho creato una pagina web ("http://alzthesis.altervista.org") dove chi è interessato a partecipare potrà inserire le espressioni, mentre all'indirizzo "http://alzthesis.altervista.org/training.tx" sarà possibile vedere i dati già inseriti (nel browser i caratteri accentati vengono visualizzati male, ma nel file sono giusti).

Sperando di trovare qualche volontario, vi auguro buona giornata.

P.S.: @Toki: non è un'offerta di lavoro per cui spero che non violi il regolamento. E' inoltre possibile "fissare" il topic in cima all'elenco per qualche settimana?

5 Risposte

  • Re: Ricerca volontari data entry

    dvaosta ha scritto:


    P.S.: @Toki: non è un'offerta di lavoro per cui spero che non violi il regolamento.
    tranquillo il topic passa anche se borderline. Non te lo posso però tenere in cima.
  • Re: Ricerca volontari data entry

    Ok grazie.
  • Re: Ricerca volontari data entry

    Si può chiudere. Alla fine sto spezzettando un po' di testi presi da internet. Non sono l'ideale, ma almeno riesco ad avere un training set in tempi ragionevoli.
  • Re: Ricerca volontari data entry

    @dvaosta: potresti andare un po' piu' nel dettaglio?
    Esattamente, come funziona?
    Stai utilizzando qualche tecnica di NLP?
    Se si, dove hai trovato le librerie per l'analisi del testo in Italiano?
  • Re: Ricerca volontari data entry

    migliorabile ha scritto:


    @dvaosta: potresti andare un po' piu' nel dettaglio?
    Esattamente, come funziona?
    Stai utilizzando qualche tecnica di NLP?
    Se si, dove hai trovato le librerie per l'analisi del testo in Italiano?
    Esattamente come funziona lo saprete dopo che avrò discusso la tesi.
    Comunque il tutto è fatto in python. Registro un dialogo tra logopedista e paziente, lo trascrivo con le API google (IBM sarebbe migliore ma non supporta l'italiano), dopodiché calcolo tutta una serie di statistiche che in letteratura si ritiene siano adatte per distinguere i pazienti con Alzheimer da quelli sani, tra cui appunto la coerenza del discorso (e la coerenza con la domanda del medico).
    Come librerie uso NLTK, wordnet (vedi un altro topic che avevo aperto), treetagger (perché NLTK non supporta il tagging per l'italiano), pyphen per la sillabazione e con un piccolo trucco riesco ad usare anche framenet, nonostante non supporti l'italiano.
    Nella prima parte studierò quali statistiche sono effettivamente rilevanti in base al training set formato da dialoghi che mi verranno forniti dalla facoltà di logopedia (o calcolando media e t-test, o clusterizzando e valutanto gli indici di "qualità" dei cluster al variare degli attributi presi in esame), dopodiché ovviamente addestrerò un classificatore
Devi accedere o registrarti per scrivere nel forum
5 risposte