Non conosco molto di programmazione, ma secondo me non sarà poi impossibili, anzi diciamo difficile.
Devi studià un passo per volta, personalizzare il programma in base alle tue esigenze...
La parte vocale non so... boh forse va divisa in campioni non so da quanti hz e poi analizzata campione per campione...cioè io per la parte vocale lavorerei proprio sull'onda creata e poi di di li tutta una serie di while e di if per il controllo...
Non ti spaventare...perchè tanto se un idea non è folle non ha motivo di esistere, oppure se un Idea non è folle im partenza non ha modo di realizzarsi..
qualcosa del genere lo diceva Einstain.
Oppure per renderla più saggia gli hanno messo il tappo Einstain per rendere la stringa del tipo static.