반응형
1. 테서랙트란?
- 신경망으로 만들어진 OCR(문서인식) 엔진이다
2. 코드
from PIL import Image
from pytesseract import *
import sys
import time
pytesseract.tesseract_cmd = R'C:\Program Files\Tesseract-OCR\tesseract'
print("실행 프로그램과 이미지는 같은 공간에 있어야 합니다\n")
print("파일명은 [img1.jpg] 의 양식을 지켜야 합니다\n")
print("이미지별 인덱스는 시작값이 몇이든 상관없지만 순서대로 이어져야 합니다\n")
print("시작 파일과 끝 파일의 인덱스 입력 img1 ~ img 6 Ex) 1 6 : ", end="")
a, b = map(int,sys.stdin.readline().split())
b +=1
for i in range(a,b):
filename = f"img{i}.jpg"
image = Image.open(filename)
text = image_to_string(image, lang='Kor+eng')
f = open(f"img{i}.txt", 'w',encoding='UTF-8')
f.write(text)
f.close()
for i in range(5):
print("자동 생성 완료 {}초 후 자동 종료됩니다".format(5-i))
time.sleep(1)
exit()
3. 문서 추출을 위한 사전작업
1. 운영체제에 맞는 테서랙트 설치 https://github.com/UB-Mannheim/tesseract/wiki
GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)
Tesseract Open Source OCR Engine (main repository) - GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)
github.com
2. 이미지 처리를 위한 pillow(PIL) 라이브러리 설치
pip install pillow
3. ocr.py 실행
4. 실행 결과
해당 이미지를 ocr.py로 문서를 인식하면
다음과 같은 txt 파일이 만들어지게 된다
반응형
'[Lang]Python' 카테고리의 다른 글
[Python] 1장 파이썬의 기본 구문 (0) | 2023.05.03 |
---|---|
웹 스크래핑 예제 1) 해외 주요 지수 실시간 확인 (0) | 2022.04.30 |