Info tesseract

di il
7 risposte

Info tesseract

Salve ragazzi,sto facendo un progetto sull'estrazione di un pdf. ho scaricato la libreria tesserect. qualcuno mi potrebbe aiutare ad adattare nel ciclo for la libreria tesseract ? grazie mille

package it.silicondev.pdf;

import java.io.File;
import java.io.FilenameFilter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException;
import org.apache.pdfbox.text.PDFTextStripper;

public class ReaderPdf {

private static String PATH = System.getProperty("propertyPath");

public ReaderPdf() {
}

public static void main(String[] args) throws InvalidPasswordException, IOException {

new ReaderPdf().leggi();

}

public void leggi(/*String fileIn, String stringa*/) throws InvalidPasswordException, IOException {

File cartella = new File(PATH);
File[] lista = cartella.listFiles(new FilenameFilter() {
public boolean accept(File dir, String name) {
return name.endsWith(".pdf");
}
});

List<File> listaFile = new ArrayList<File>();
for (File file : lista) {
String nome = file.getName();
PDDocument doc = PDDocument.load(file);
PDFTextStripper str = new PDFTextStripper();
String testo = str.getText(doc);
System.out.println(testo);
listaFile.add(file);
doc.close();
}
System.out.println(listaFile.size());
}



}

7 Risposte

  • Re: Info tesseract

    Te lo sconsiglio funziona davvero male abbandonato da anni.
  • Re: Info tesseract

    Utilizza Spirng Boot, che hai più manipolazioni utilizzando itextpdf oppure in java pdfbox
  • Re: Info tesseract

    Concordo con +m2+
  • Re: Info tesseract

    Abbandoanto da anni direi proprio di no visto che l'ultima versione e' dell'ottobre 2018!
    E una Release Candidate di febbraio di QUESTO anno.

    Ma questo e' un OCR, e non ha senso per manipolare dei PDF che contengono il testo in chiaro, e ci sono librerie specifiche per manipolarlo.
  • Re: Info tesseract

    X migliorabile: in effetti hai ragione ,avevo usato tesseract per dei jpeg ed il risultato non era ottimale ,per usare tesseract avevo utilizzato tessnet ,un wrapper c#,non sò se esista qualcosa di simile per java ,comunque pdfbox dovrebbe andar bene allo scopo
  • Re: Info tesseract

    Da quanto ne so, non esistono BUONI OCR free.

    https://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software

    Quelli buoni sono tutti a pagamento e costano un bel po'.
  • Re: Info tesseract

    migliorabile ha scritto:


    Abbandoanto da anni direi proprio di no visto che l'ultima versione e' dell'ottobre 2018!
    E una Release Candidate di febbraio di QUESTO anno.

    Ma questo e' un OCR, e non ha senso per manipolare dei PDF che contengono il testo in chiaro, e ci sono librerie specifiche per manipolarlo.
    Abbandonato da anni poichè non è migliorato di niente nell'ultimo lustro.
    Una merda di OCR.

    E lo dice uno che con gli OCR ci campa
Devi accedere o registrarti per scrivere nel forum
7 risposte