Cercare file in sotto directory

di il
1 risposte

Cercare file in sotto directory

Buongiorno,

ho aggiustato ed ampliato questo script

import PyPDF2
import openpyxl
import os

filenames = []
directory = r"C:\\Users"
for filename in os.listdir(directory):
    if filename.lower().endswith('.pdf'):
        filenames.append(os.path.join(directory, filename))

wb = openpyxl.load_workbook('excel.xlsx')
sheet = wb.active
sheet.title = 'MyPDF'

for row, filename in enumerate(filenames, start=1):
    with open(filename, 'rb') as f:
        pdfReader = PyPDF2.PdfFileReader(f)
        count=pdfReader.numPages
        pageObj = pdfReader.getPage(0)
        mytext = pageObj.extractText()
        for i in range(count): 
            page = pdfReader.getPage(i)
            output = []
            output = page.extractText() 
            print(output)

    sheet[f'A{row}'].value = '\n'.join(output)
    sheet[f'B{row}'].value = filename

wb.save('excel.xlsx')
print('DONE!!')
Per poter estrarre il testo da tanti file pdf e salvarlo su excel, il consiglio che vi chiedo, c'è modo modo di estendere la ricerca a delle sotto directory? ho provato con glob ma senza successo.
Cosa mi consigliereste?

1 Risposte

  • Re: Cercare file in sotto directory

    Io ho fatto così
    
    def scan_file():
        import os
        import xmltodict
        # files = []
        fdir = "PRODUCT/Account Payable/"
    
        for root, dirs, files in os.walk(fdir):
            for file in files:
                varpath = os.path.join(root, file)
                print(varpath)
    
    NB io sono un niubbo, ho iniziato a studiare da un mese python dunque prendi con le molle il mio codice.
Devi accedere o registrarti per scrivere nel forum
1 risposte