PDF LETTURA

di il
9 risposte

PDF LETTURA

Buona sera,

Dispongo di files di fatture in pdf.

ho l'esigenza di estrapolare da questi file 'l'imponibile, iva, totale, n° fattura e, trattandosi di bollette ho bisogno di estrapolare i dati della fornitura, storico consumi, ecc. per poi lavorarli con excel o access.

Come posso fare?

Grazie.

9 Risposte

  • Re: PDF LETTURA

    Non è difficile, ma tieni presente che (salvo modifiche normative) tra circa 4 mesi spariranno.
  • Re: PDF LETTURA

    Grazie !

    Ma come posso realizzarlo?

    Quale linguaggio di programmazione è più adatto?

    Grazie.

    Saluti.
  • Re: PDF LETTURA

    Ci sono 3 modi, sostanzialmente.
    Nel primo esporti il testo della fattura usando l'apposita funzione che hanno i lettori pdf (l'ultima versione di Acrobat Reader forse è un po' rognosa perché te lo fornisce come servizio a pagamento). Una volta esportato il testo, lo puoi maneggiare a piacere. Alcuni pdf sono fatti in modo strano ed il testo esce non nell'ordine di lettura, quindi ogni pdf fa storia a sé.
    Nel secondo ti serve Acrobat (non reader): apri il pdf e lo maneggi come ti pare. Puoi anche scriverti dei plug-in (con il C o javascript) che leggono programmaticamente il pdf (ci va un po' a capire come sono strutturati i pdf, ma si può fare).
    Il terzo metodo lo usi quando il pdf è solo il contenitore di una immagine, tipicamente quando la fattura è stata stampata su carta, poi passata allo scanner ed inviata via mail. Ti serve uno scanner (oppure un programmetto che estrae il jpeg da dentro il pdf), un ocr (buono, tipo Abbyy Fine Reader) ed un po' di pazienza.
    Ci sono anche dei siti che convertono il pdf in qualcos'altro.
    Il tutto dipende da quanti pdf hai.
  • Re: PDF LETTURA

    Mah se è pdf testo basta estrarlo (il testo) e fare un parser. Un paio di ore di delphi.
    se è raster nessuno al mondo userà un ocr per il rischio troppo alto di errori.
    comunque volendo automatare abby sempre con delphi un pomeriggio in questa ipotesi
  • Re: PDF LETTURA

    I pdf sono fatture relative a bollette, e dovrei acquisire dati tipo: consumi, pod, tipo servizio erogato, ecc... vorrei poterli "estrarre" per poter mettere tipo in excel, o calc al fine di fare elaborazioni. il file pdf di fatture è composto da 100 pagine, quindi come fossero 100 fatture,
    Come posso fare?

    Grazie.
  • Re: PDF LETTURA

    Lucky ha scritto:


    I pdf sono fatture relative a bollette, e dovrei acquisire dati tipo: consumi, pod, tipo servizio erogato, ecc... vorrei poterli "estrarre" per poter mettere tipo in excel, o calc al fine di fare elaborazioni. il file pdf di fatture è composto da 100 pagine, quindi come fossero 100 fatture,
    Come posso fare?

    Grazie.
    Esattamente come già spiegato.
    Estrai il testo, sia in formato layout che raw (a seconda dei casi), ad esempio con pdftotext, poi lo parsi "a mano".
    Ti consiglio di fare anche la tecnica del "totalone", cioè controllare il totale preso dal documento con quello che hai determinato durante il parsing.
    In questo modo sei sicuro di non aver fatto errori.

    Ti consiglio di farti qualche funzione di supporto, tipo tagliaprimaparola(), tagliaultimaparola() e stringaafloat()
    Altra cosa un "purgatore" iniziale, che tagli via tutte le righe non interessanti (intestazioni di pagina, righe descrittive eccetera).

    1/2 ore di lavoro (delphi)
  • Re: PDF LETTURA

    Scusate, se ho ben capito devo fare un programmino con Delphi.
    Ok.
    vi chiedo cortesemente se invece di usare Delphi uso Open source Lazarus va bene?

    Python che mi sembra molto usato, che preferirei,

    Java;

    c++;

    potrebbero andare bene per estrarre del testo?

    cosa è pdftotext?

    grazie,

    scusate.
  • Re: PDF LETTURA

    Puoi usare qualsiasi cosa in grado di elaborare stringhe, quindi tutto tranne fortran, quello che conosci meglio

    pdftotext è il programma che puoi usare per estrarre il testo dal pdf sia con -layout che -raw
    Primi risultati di google
  • Re: PDF LETTURA

    Grazie!
Devi accedere o registrarti per scrivere nel forum
9 risposte