오늘은 구글 드라이브를 이용해 PDF 파일 텍스트 추출하는 방법에 대해 알아보겠습니다. PDF 파일의 텍스트를 복사하여 다른 문서 편집기에 붙여 넣으려면 PDF 파일을 연결 프로그램인 크롬이나 엣지로 연 후 텍스트를 선택하고 복사하여 붙여 넣으면 됩니다.
그런데 PDF 파일의 글자가 이미지라던가 복사 방지가 걸려 있으면 텍스트를 복사하여 붙여 넣는 것이 불가능한데 이럴 때는 이미지인 글자를 OCR(광학 문자 인식)기능을 이용해 텍스트로 바꿔주고 복사 방지 잠금은 프로그램이나 온라인 사이트를 이용해 해제를 해야 합니다.
그런데 위와 같은 번거러운 과정을 거치지 않고 간단하게 이미지인 글자를 텍스트로 추출하고 텍스트를 복사할 수 있도록 변경하는 방법이 있는데 바로 구글 드라이브를 이용하는 방법입니다.
텍스트를 추출할 PDF 파일을 구글 드라이브에 업로드하고 Google 문서로 열어 주기만 하면 됩니다.

구글 드라이브에 접속하고 파일을 업로드할 위치에서 마우스 우클릭을 하여 파일 업로드를 클릭해 텍스트를 추출할 PDF 파일을 업로드합니다.

업로드된 텍스트를 추출할 PDF 파일을 우클릭하여 뜨는 메뉴에서 연결 앱을 클릭하고 하위 메뉴에 Google 문서를 클릭합니다.

그러면 잠시 후 텍스트를 추출할 PDF 파일이 위와 같이 Google 문서로 열리게 됩니다. 이제 위와 같이 마우스로 텍스트를 블록 선택하여 복사가 가능합니다.
그런데 PDF 파일을 Google 문서로 열면 텍스트를 복사를 할 수는 있지만 이미지와 텍스트들의 위치가 변하면서 문서의 형태가 엉망이 되고 이미지가 누락되기도 합니다.
따라서 PDF 파일을 아까 구글 드라이브에 업로드된 PDF 파일의 우클릭 메뉴에서 연결 프로그램 하위 메뉴에 Google 문서 말고 Lumin PDF나 DocHub로 열면 PDF 문서의 원래 형태를 그대로 유지하면서 PDF 파일이 열립니다. 단 두 개의 앱은 한정된 무료 사용 기간이 지나면 유료 결제를 해야 합니다.

Lumin PDF로 PDF 파일을 열었을 때 문서 형태입니다. 위의 Google 문서로 연 것과 비교했을 때 원본의 형태를 그대로 유지하고 있는 것을 볼 수 있습니다.

위의 화면은 글자 이미지를 위에 PDF 파일을 Google 문서로 연 것과 똑같이 연 모습입니다. 글자 이미지를 Google 문서로 열면 OCR(Optical Character Recognition)기능으로 이미지인 글자가 위와 같이 텍스트로 추출됩니다.
윗부분이 이미지인 글자이고 아래 빨간 테두리 안에 글자가 추출된 텍스트입니다.
글자 이미지뿐만 아니라 이미지를 PDF 파일로 변환한 파일도 Google 문서로 열면 OCR 기능으로 텍스트를 추출할 수 있습니다.
추출한 텍스트를 위와 같이 마우스로 블록 선택을 하고 복사하여 다른 문서 편집기에 붙여 넣으면 됩니다.