관리 메뉴

개발자비행일지

파이썬으로 pdf 파일 제목 추출하기 본문

▶ Python

파이썬으로 pdf 파일 제목 추출하기

Cyber0946 2020. 7. 10. 15:28

아래의 소스코드는 현재 폴더에 있는 pdf파일에어 제목을 읽어서 파일명으로 바꿔주는 스크립트이다. 

아직 title이 텍스트 마이닝 안되는 경우가 있어서 이 경우는 임의의 제목으로 작성되고 이건 수동으로 해주면 된다. 

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
import os
from datetime import datetime
from random import *

path = os.getcwd()
for files in os.listdir(path):
    # Rename only pdf files
    if files.endswith(".pdf"):
        fullName = os.path.join(path, files)
        fp = open(files, 'rb')
        parser = PDFParser(fp)
        doc = PDFDocument(parser)
        fp.close()
        metadata = doc.info  # The "Info" metadata
        print("filename = %s" %files)
        print(metadata)
        basename = "study"+str(randint(1,100))
        suffix = datetime.now().strftime("%y%m%d_%H%M%S")
        non_title_filename = "_".join([basename,suffix])
        metadata = metadata[0]
        if "Title" in metadata:
            if str(metadata['Title']) == "b''":
                new_name = str(non_title_filename)+ ".pdf"
            else:
                new_name = str(metadata['Title']) + ".pdf"

            os.rename(files, new_name)
            print(new_name)

                os.rename(files,'제목필요.pdf')

'▶ Python' 카테고리의 다른 글

파이썬 딕셔너리  (0) 2020.07.10
파이썬 os모듈 사용법  (0) 2020.07.10
파이썬 연립방정식풀기  (0) 2020.07.07
파이썬 부등식  (0) 2020.07.07
파이참 단축키  (0) 2020.07.07