CONTROLLO OCR SU PDF

di il
6 risposte

CONTROLLO OCR SU PDF

Buon giorno chiedo un aiuto. 

Esiste un programma che effettua un controllo automatico e indica quali pdf presenta l'ocr e quali no?

Mi spiego meglio: ho 3000 pdf e devo controllare se all'interno è presente la lettura del  OCR, ho bisogno di un programma che effettua una scansione e mi riporta il risultato di ogni singolo pdf  e che indica se ha l'ocr o no

Grazie

6 Risposte

  • Re: CONTROLLO OCR SU PDF

    Che c'entra questa richiesta (peraltro confusa) con la progettazione database?

  • Re: CONTROLLO OCR SU PDF

    Forse ho sbagliato argomento.. ma mi potete aiutare?

  • Re: CONTROLLO OCR SU PDF

    L'OCR non è nel pdf: l'acronimo sta per Optical Character Recognition, ed è un software che ‘legge’ un'immagine (o anche un pdf) e ne estrae eventuali caratteri. Esistono OCR che sono in grado di leggere anche i caratteri scritti a mano (ad esempio nelle smistatrici postali), anche in corsivo.

    Stai forse cercando un QR Code? Se è così, devi far passare i pdf attraverso un software che legga i QR Code.

    Stai cercando del testo nel pdf? Esistono dei programmi (ad esempio in Linux c'è pdftotext, che fa parte della libreria Poppler) che trovano il testo (ovvero quella parte di pdf che è memorizzata come testo) e lo salvano su file.

    Chiarisci meglio il tuo problema…

  • Re: CONTROLLO OCR SU PDF

    Ho già effettuato con linux uno script per rendere all'interno dei file il testo ricercabile (OCR) vorrei evitare di aprire un file alla volta (per 3000 file) per verificare che effettivamente l'ocr sia passato all'interno dei file pdf per rendermeli ricercabili. 

    Ora devo effettuare un primo controllo qualità ed individuare tutti quei file dove (per errore o per errore dello script) l'OCR non è stato fatto.

  • Re: CONTROLLO OCR SU PDF

    Quale linguaggio usi? Ne conosci uno?

    Chiedi al moderatore di spostare la discussione nell'area opportuna dopo aver indicato come vorresti fare questo test.

    Anche per capire con quale componente aprire il pdf.

    Non si può aiutare “a prescindere”, bisogna sapersi spiegare. 

  • Re: CONTROLLO OCR SU PDF

    Per ora l'ho spostato nell'area generica del forum. cmq nemmeno io capisco bene quanto ha scritto.

    Forse vuole marchiare un file come “già processato da software ocr” o “processabile da software ocr”.

    In questo caso sarebbe più sensato predisporre una matrice esterna che mappi i files e le proprietà applicative: processabile, processato, date varie, ecc.

Devi accedere o registrarti per scrivere nel forum
6 risposte