▶ Python
파이썬으로 pdf 파일 제목 추출하기
Cyber0946
2020. 7. 10. 15:28
아래의 소스코드는 현재 폴더에 있는 pdf파일에어 제목을 읽어서 파일명으로 바꿔주는 스크립트이다.
아직 title이 텍스트 마이닝 안되는 경우가 있어서 이 경우는 임의의 제목으로 작성되고 이건 수동으로 해주면 된다.
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
import os
from datetime import datetime
from random import *
path = os.getcwd()
for files in os.listdir(path):
# Rename only pdf files
if files.endswith(".pdf"):
fullName = os.path.join(path, files)
fp = open(files, 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
fp.close()
metadata = doc.info # The "Info" metadata
print("filename = %s" %files)
print(metadata)
basename = "study"+str(randint(1,100))
suffix = datetime.now().strftime("%y%m%d_%H%M%S")
non_title_filename = "_".join([basename,suffix])
metadata = metadata[0]
if "Title" in metadata:
if str(metadata['Title']) == "b''":
new_name = str(non_title_filename)+ ".pdf"
else:
new_name = str(metadata['Title']) + ".pdf"
os.rename(files, new_name)
print(new_name)
os.rename(files,'제목필요.pdf')