Linux/AI인공지능발전과 미래준비

python으로 문자인식 하기 OCR 윈도우 ,리눅스 등

아이티제어 2024. 2. 3. 03:21
'''
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

'''

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'D:\program files\Tesseract-OCR\tesseract.exe'

def extract_text_from_image(image_path):
    """이미지에서 텍스트 추출"""
    image = Image.open(image_path)
    text = pytesseract.image_to_string(image, lang='kor+eng')
    return text

def save_text_to_file(text, file_name):
    """텍스트를 파일로 저장"""
    with open(file_name, 'w') as file:
        file.write(text)


# 추출할 이미지 경로
image_path = 'Btnx1450y233w374h283.png'

# 텍스트 추출
extracted_text = extract_text_from_image(image_path)
print(extracted_text)
save_text_to_file(extracted_text, f'{image_path}.txt')

image_path = 'Btnx363y662w218h84.png'
extracted_text = extract_text_from_image(image_path)
print(extracted_text)

# 추출된 텍스트를 파일로 저장
save_text_to_file(extracted_text, f'{image_path}.txt')

 

이미지 파일을 읽어서 이미지파일명.txt 파일에 텍스트 내용을 저장한다.

아주 잘읽는다..

 

 

설치주소는 https://github.com/UB-Mannheim/tesseract/wiki

 

Home

Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract

github.com

이곳에서 다운받아 윈도우,리눅스 모두 지원 된다.

 

- 아이티제어 -