Lettura dati tabella file PDF

di il
25 risposte

25 Risposte - Pagina 2

  • Re: Lettura dati tabella file PDF

    In un tuo post precedente hai scritto:
    ... faccio copia e incolla su un file excel o NotePad++ mi copia il testo correttamente.
    Come mai ora non ci riesci più ???
  • Re: Lettura dati tabella file PDF

    A mio avviso, l'origine di tutti i problemi è legata alla scelta del formato PDF come sorgente da cui estrarre i dati in formato testo.

    Il PDF nasce sostanzialmente per la stampa, quindi le informazioni all'interno sono organizzate in base alle necessità della loro visualizzazione: spesso risulta difficile estrarre righe di testo in modo efficace, salvo usare delle convenzioni; ad esempio, si può considerare tutto il testo con la stessa Y appartenente a un'unica riga, ma non è possibile rilevare quante "righe" vuote ci sono tra diverse porzioni di testo, o quanti caratteri, proprio perché il documento contiene degli output di testo in varie posizioni con diversi stili.

    Sarebbe più congeniale usare dei segnaposto individuabili all'interno del documento per effettuare una sostituzione del testo con librerie apposite, oppure ancora partire da un altro formato di documento più "strutturato" dal punto di vista semantico (es. HTML e derivati, XML, ecc.) e fare il rendering del documento finale, magari proprio in PDF, dopo aver sostituito i campi segnaposto con gli effettivi valori.

    Ciao!
  • Re: Lettura dati tabella file PDF

    SirJo ha scritto:


    In un tuo post precedente hai scritto:
    ... faccio copia e incolla su un file excel o NotePad++ mi copia il testo correttamente.
    Come mai ora non ci riesci più ???
    quando ho scritto che il copia/funziona io intendevo che se faccio il copia/incolla dei numeri inseriti in tabella me li copia/incolla correttamente....(es. se copio 23/5 mi incolla 23/5).

    Stesso cosa se io durante il debug del codice .net...se imposto il punto d'interruzione sulla variabile string che contiene tutto il mega stringone di caratteri incomprensibilie, copio la stringa e la incollo su notepade++ funziona (es. se copio ChrW(3) mi incolla ChrW(3) ) .

    In conclusione non riesco a capire come devo fare per capire il codice ChrW(3) a che carattere corrisponde.

    Spero di essere stato abbastanza chiaro.
  • Re: Lettura dati tabella file PDF

    Alka ha scritto:


    A mio avviso, l'origine di tutti i problemi è legata alla scelta del formato PDF come sorgente da cui estrarre i dati in formato testo.

    Il PDF nasce sostanzialmente per la stampa, quindi le informazioni all'interno sono organizzate in base alle necessità della loro visualizzazione: spesso risulta difficile estrarre righe di testo in modo efficace, salvo usare delle convenzioni; ad esempio, si può considerare tutto il testo con la stessa Y appartenente a un'unica riga, ma non è possibile rilevare quante "righe" vuote ci sono tra diverse porzioni di testo, o quanti caratteri, proprio perché il documento contiene degli output di testo in varie posizioni con diversi stili.

    Sarebbe più congeniale usare dei segnaposto individuabili all'interno del documento per effettuare una sostituzione del testo con librerie apposite, oppure ancora partire da un altro formato di documento più "strutturato" dal punto di vista semantico (es. HTML e derivati, XML, ecc.) e fare il rendering del documento finale, magari proprio in PDF, dopo aver sostituito i campi segnaposto con gli effettivi valori.

    Ciao!
    Concordo con te Alka che l'origine del problema sta nel formato del PDF ma non dipende da me il formato...devo subire passivamente la scelta del formato perchè arriva da terze parti.
    Quindi spero di riuscire in qualche modo a leggere correttamentei dati inseriti nella tabella all'interno del file pdf.
  • Re: Lettura dati tabella file PDF

    Dimmi da dove scaricare il font che provo
  • Re: Lettura dati tabella file PDF

    Ciao,
    questo il ink dove puoi scaricare il font:
    https://wetransfer.com/downloads/09c74cf377e9ce0da25c25c18e9824be20191107071211/c4d4b5a340ecf54807fc69dc23f69f5420191107071211/bc2af0

    grazie infinite SirJo
  • Re: Lettura dati tabella file PDF

    Ho scaricato e installato il font, apro il PDF, faccio "copia", apro Libre Office, seleziono il font "Arial MT", faccio "incolla", ma non vedo nulla, e anzi il programma mi dice "Nome del carattere: Il carattere corrente non è disponibile e sarà sostituito."
  • Re: Lettura dati tabella file PDF

    Forse lo hai già fatto ma te lo chiedo per sicurezza perchè a me è successa la stessa cosa.....hai riavviato il computer dopo aver installato il font?
  • Re: Lettura dati tabella file PDF

    Ho riavviato il PC ma continua a non vedersi nulla
  • Re: Lettura dati tabella file PDF

    Non so che dirti SirJo...a me funziona.
    Mi sono comunque accorto di 2 cose.
    la prima :
    sono andato a vedermi la tabella ascii estesa e mi sono accorto che ChrW(3) piuttosto che ChrW(18) non rappresentano caratteri ma comandi(es. ChrW(3) = End of text ) quindi tutta la mega stringa contine solo comandi e nessun carattere;

    la seconda:
    se apro il PDF sorgente e ne genero uno identico cioè senza modificare nulla semplicemente apro e stampo su PDFcon con Acrobat che ho installato nel PC
    e vado a leggere il nuovo file leggo perfettamente tutte le stringhe quindi credo che automatizzando la rigenerazione del file pdf ed andando a leggere successivamente il nuovo file pdf riuscirò a risolvere il problema. Il file sorgente viene generato, non so con che procedura, ma con l'utilizzo delle DLL di iTex e questo probabilmente crea il problema/anomalia.

    Ora devo capire come automatizzare la rigenerazione del PDF....hai qualche idea su come fare?
  • Re: Lettura dati tabella file PDF

    Alberto75 ha scritto:


    sono andato a vedermi la tabella ascii estesa e mi sono accorto che ChrW(3) piuttosto che ChrW(18) non rappresentano caratteri ma comandi(es. ChrW(3) = End of text ) quindi tutta la mega stringa contine solo comandi e nessun carattere;
    infatti, è proprio quello che ti ho detto io quando ti ho scritto che sono caratteri "non stampabili"
    Ora devo capire come automatizzare la rigenerazione del PDF....hai qualche idea su come fare?
    PDFcreator
Devi accedere o registrarti per scrivere nel forum
25 risposte