Libreria per estrarre testo da file immagine

di il
9 risposte

Libreria per estrarre testo da file immagine

Salve ragazzi mi sapreste suggerire una libreria python per l'estrazione di testo in un file pdf immagine ? ad ora ho usato pdfminer che è ottima per l'estrazione di testo da un pdf non scannerizzato.

9 Risposte

  • Re: Libreria per estrarre testo da file immagine

    Questo l'hai già provato https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/ ?
  • Re: Libreria per estrarre testo da file immagine

    Ciao e grazie del suggerimento,
    proprio adesso stavo leggendo il suo potenziale. Ho letto che sfrutta anche le reti neurali. Ho iniziato a fare anche alcune prove del tipo se ho un pdf scannerizzato mi da errore ma se converto il pdf in jpf riesco ad avere degli ottimi risultati. Il mio problema è che devo riuscire a leggere un centinaio di file che comprendono file di tipo doc, pdf e pdf scannerizzati. Hai qualche idea su come potrei automatizzare il tutto ?
  • Re: Libreria per estrarre testo da file immagine

    La butto lì, dato che non conosco i termini del tuo problema: stampi tutto come pdf, converti tutti i pdf in jpg e passi il tutto all'ocr.
  • Re: Libreria per estrarre testo da file immagine

    In che senso il pdf scannerizzato da errore?
    Un pdf non si scannerizza!
    Si usa uno scanner per convertire un foglio di carta in un'immagine O un pdf.

    ATTENZIONE che il pdf generato dal software di scannerizzazione e' un pdf per modo di dire!
    E' un pdf che CONTIENE UN'IMMAGINE! NON CONTIENE testo.

    Poi ci sono gli OCR che usano lo scanner e generano un PDF che EFFETTIVAMENTE contiene del testo!
  • Re: Libreria per estrarre testo da file immagine

    Pdf scannerizzato nel senso che anche se ha l'estensione .pdf il documento non è selezionabile
  • Re: Libreria per estrarre testo da file immagine

    Andrea Quaglia ha scritto:


    La butto lì, dato che non conosco i termini del tuo problema: stampi tutto come pdf, converti tutti i pdf in jpg e passi il tutto all'ocr.
    Ho pensato anche io alla stessa cosa, cambio il tipo di formato ad ogni file escluso i pdf, poi converto tutto il jpg ed infine passo tutto all'ocr
  • Re: Libreria per estrarre testo da file immagine

    centurione_agrippa ha scritto:


    Pdf scannerizzato nel senso che anche se ha l'estensione .pdf il documento non è selezionabile
    Dalle mie parti si dice: parla come mangi

    NON E' il documento che non riesci a selezionare, E' IL TESTO all'interno del documento!

    DEVI essere chiaro! Le parole non si buttano li a casaccio!
    Siamo in un forum tecnico! E' TUA RESPONSABILITA' usare la terminologia TECNICA CORRETTA!
  • Re: Libreria per estrarre testo da file immagine

    Hai perfettamente ragione, ma non sapevo dare una definizione corretta al "pdf scannerizzato "
  • Re: Libreria per estrarre testo da file immagine

    Ciao a tutti, quando eseguo il codice inerente all'estrazione di testo da un file immagine, ho questo errore:
    text.append(str(pytesseract.image_to_string(Image.open(imagefilename)),encoding='utf-8'))
    TypeError: str() takes at most 1 argument (2 given)
    dove l'struzione è :
    text.append(str(pytesseract.image_to_string(Image.open(imagefilename)),encoding='utf-8'))
    avete qualche idea ? So che la sintassi corretta di str è :
    str(object, encoding=encoding, errors=errors)
    ma o con un solo argomento o con tre il risultato non cambia. Se tolgo tutti gli argomenti e lascio solo :
    text.append(str(pytesseract.image_to_string(Image.open(imagefilename)),encoding='utf-8'))
    il risultato è :
    File "/home/luigi/Scrivania/lettura_pdf.py", line 87, in <module>
        text.append(str(pytesseract.image_to_string(Image.open(imagefilename))))
    UnicodeEncodeError: 'ascii' codec can't encode character u'\u201c' in position 307: ordinal not in range(128)
    qualche suggerimento?
Devi accedere o registrarti per scrivere nel forum
9 risposte