이미지 속 글자를 읽는 마법, Tesseract-OCR 완벽 가이드

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

아이티제어

AI관련정보

프로그래머 파이브010-2629-0471 2026. 4. 16. 08:22

이미지 속 글자를 읽는 마법, Tesseract-OCR 완벽 가이드

디지털 시대에 이미지나 스캔 문서에서 텍스트를 직접 타이핑하는 것은 너무 번거로운 일이죠. 이때 구원투수로 등장하는 것이 바로 오픈소스 OCR의 전설, Tesseract-OCR입니다.

누가 만들었나: 1980년대 중반, HP(Hewlett-Packard) 연구소에서 처음 탄생했습니다.
언제 공개됐나: 1985년부터 개발되어 HP 내부용으로 쓰이다가, 2005년에 오픈소스로 풀렸습니다. 2006년부터는 Google이 후원하며 비약적으로 발전했습니다.
왜 만들었나: 초기 목적은 플랫베드 스캐너의 성능을 높이기 위한 소프트웨어 옵션이었습니다. 당시 상용 OCR들이 성능이 낮아, 직접 더 정확한 엔진을 만들고자 한 것이 시작이었습니다. 현재는 딥러닝(LSTM) 기술이 도입되어 100개 이상의 언어를 지원합니다.

가장 대중적인 Windows 환경에서의 설치 단계입니다.

다운로드: UB-Mannheim Tesseract 저장소에 접속해 최신 소스코드 를 받을수있고
https://github.com/UB-Mannheim/tesseract/wiki 이곳에서 최신 버전의
- tesseract-ocr-w64-setup-5.5.0.20241111.exe (64비트)
.exe 설치 파일을 받습니다. 리눅스/윈도우/맥용 모두있어요!
설치 시 주의사항: * 설치 중간에 **'Additional script data'**와 'Additional language data' 항목이 나옵니다.
- 여기서 'Korean' 관련 항목을 반드시 체크해야 한글 인식이 가능합니다.
환경 변수 설정: * 내 PC 우클릭 > 속성 > 고급 시스템 설정 > 환경 변수 접속.
- Path 항목에 Tesseract가 설치된 경로(예: C:\Program Files\Tesseract-OCR)를 추가합니다. (이걸 해야 터미널 어디서든 실행 가능해요!)

설치가 끝났다면 터미널(CMD)이나 파워쉘을 열고 아래 명령어를 입력해 보세요.

Tesseract는 이미지 화질에 민감합니다. 인식률이 낮다면 다음을 체크해 보세요!

마치며 무료이면서도 강력한 성능을 자랑하는 Tesseract-OCR! 여러분의 업무 자동화나 프로젝트에 꼭 활용해 보세요.

Mythos는 일반 단어로는 “신화·세계관·믿음 체계”라는 뜻이고, 지금 AI 뉴스에서 말하는 Mythos는 Anthropic의 Claude Mythos Preview라는 초고성능 AI 모델 이름 (0)	2026.04.24

'AI관련정보' Related Articles