| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- IT제어
- CenOS6.10
- ubunto #네티워크설정
- AI해킹
- 어의진화
- #AI보안
- 인터넷안되는문제해결
- 코드라마 #AI
- 에디트플러스 #sftp안될때
- 조성남
- whois #도메인 #네임서버
- 윈도우앱지우기
- MSSQL #TCP/IP Enabled
- 아이티제어
- AI해킹방어
- AI보안
- 신바람여비서win98
- PID4
- AI 자동화 매크로 개발까지 5부작 로드맵
- 강우센서
- utf8mb4
- php7
- centos7
- 기술정밀도
- CapsLock키보드 뽑기
- root직접로그인
- windows19Server
- 감우센서
- 현장의언어
- 한글2 #hangul2_from_2024_01_17
Archives
- Today
- Total
아이티제어
이미지 속 글자를 읽는 마법, Tesseract-OCR 완벽 가이드 본문
이미지 속 글자를 읽는 마법, Tesseract-OCR 완벽 가이드
디지털 시대에 이미지나 스캔 문서에서 텍스트를 직접 타이핑하는 것은 너무 번거로운 일이죠. 이때 구원투수로 등장하는 것이 바로 오픈소스 OCR의 전설, Tesseract-OCR입니다.

1. Tesseract-OCR이란? (역사와 유래)
- 누가 만들었나: 1980년대 중반, HP(Hewlett-Packard) 연구소에서 처음 탄생했습니다.
- 언제 공개됐나: 1985년부터 개발되어 HP 내부용으로 쓰이다가, 2005년에 오픈소스로 풀렸습니다. 2006년부터는 Google이 후원하며 비약적으로 발전했습니다.
- 왜 만들었나: 초기 목적은 플랫베드 스캐너의 성능을 높이기 위한 소프트웨어 옵션이었습니다. 당시 상용 OCR들이 성능이 낮아, 직접 더 정확한 엔진을 만들고자 한 것이 시작이었습니다. 현재는 딥러닝(LSTM) 기술이 도입되어 100개 이상의 언어를 지원합니다.
2. 설치 방법 (Windows 기준)
가장 대중적인 Windows 환경에서의 설치 단계입니다.
- 다운로드: UB-Mannheim Tesseract 저장소에 접속해 최신 소스코드 를 받을수있고
https://github.com/UB-Mannheim/tesseract/wiki 이곳에서 최신 버전의 .exe 설치 파일을 받습니다. 리눅스/윈도우/맥용 모두있어요! - 설치 시 주의사항: * 설치 중간에 **'Additional script data'**와 'Additional language data' 항목이 나옵니다.
- 여기서 'Korean' 관련 항목을 반드시 체크해야 한글 인식이 가능합니다.
- 환경 변수 설정: * 내 PC 우클릭 > 속성 > 고급 시스템 설정 > 환경 변수 접속.
- Path 항목에 Tesseract가 설치된 경로(예: C:\Program Files\Tesseract-OCR)를 추가합니다. (이걸 해야 터미널 어디서든 실행 가능해요!)
3. 간략 사용법
설치가 끝났다면 터미널(CMD)이나 파워쉘을 열고 아래 명령어를 입력해 보세요.
- 기본 텍스트 추출 (영어):(image.png를 읽어 output.txt로 저장합니다.)
-
Bash
tesseract image.png output - 한글 텍스트 추출:(-l kor 옵션이 한글 엔진을 사용하겠다는 뜻입니다.)
-
Bash
tesseract image.png output -l kor - 여러 언어 혼용 (한글+영어):
-
Bash
tesseract image.png output -l kor+eng
4. 더 똑똑하게 쓰는 팁
Tesseract는 이미지 화질에 민감합니다. 인식률이 낮다면 다음을 체크해 보세요!
- 이미지 해상도를 300 DPI 이상으로 높이기.
- 배경 노이즈를 제거하고 **흑백(이진화)**으로 변환하기.
- 파이썬 사용자라면 pytesseract 라이브러리를 활용해 자동화 시스템을 구축할 수 있습니다.
마치며 무료이면서도 강력한 성능을 자랑하는 Tesseract-OCR! 여러분의 업무 자동화나 프로젝트에 꼭 활용해 보세요.
'AI관련정보' 카테고리의 다른 글
| Mythos는 일반 단어로는 “신화·세계관·믿음 체계”라는 뜻이고, 지금 AI 뉴스에서 말하는 Mythos는 Anthropic의 Claude Mythos Preview라는 초고성능 AI 모델 이름 (0) | 2026.04.24 |
|---|