본문 바로가기
1인 프로젝트/나만의 도서관

tesseract가 한글도 ocr이 가능한가? - tesseract 언어팩 설

by kirope 2024. 8. 1.
반응형

Tesseract는 한글 OCR(Optical Character Recognition)도 지원합니다. Tesseract는 다양한 언어에 대한 인식 기능을 제공하며, 한글을 포함한 여러 언어의 텍스트를 인식할 수 있도록 설정할 수 있습니다.

### Tesseract에서 한글 사용 방법

1. **언어 데이터 설치**:
   - Tesseract는 언어별로 데이터 파일을 사용합니다. 한글 인식을 위해서는 `kor.traineddata` 파일이 필요합니다. 이 파일은 Tesseract의 언어 데이터 디렉토리에 설치되어 있어야 합니다.

2. **한글 인식 설정**:
   - Tesseract를 사용할 때, 한글 인식을 위해 `-l kor` 옵션을 추가합니다. 예를 들어:
     ```bash
     tesseract image.png output -l kor
     ```
   - 여기서 `image.png`는 OCR을 수행할 이미지 파일이고, `output`은 결과가 저장될 파일 이름입니다.

3. **결과 확인**:
   - Tesseract가 한글 텍스트를 성공적으로 인식하면, 지정한 출력 파일에 인식된 텍스트가 저장됩니다.

Tesseract의 언어 데이터 디렉토리 위치와 설치 방법에 대해 설명드리겠습니다.

4. **Tesseract 언어 데이터 디렉토리 위치**:

Tesseract의 언어 데이터 파일은 일반적으로 설치 디렉토리 내의 `tessdata` 폴더에 위치합니다. 기본적인 경로는 다음과 같습니다:

- **Windows**: `C:\Program Files\Tesseract-OCR\tessdata`
- **Linux**: `/usr/share/tesseract-ocr/4.00/tessdata/` (버전에 따라 경로가 다를 수 있습니다)
- **macOS**: `/usr/local/Cellar/tesseract/<버전>/share/tessdata/` (Homebrew로 설치한 경우)

### 언어 데이터 설치 방법

1. **Tesseract 설치**:
   - Tesseract가 설치되어 있지 않은 경우, [Tesseract 공식 GitHub 페이지](https://github.com/tesseract-ocr/tesseract)에서 설치 방법을 확인하고 설치합니다.
   - Windows 사용자는 [Tesseract Windows Installer](https://github.com/UB-Mannheim/tesseract/wiki)에서 설치 파일을 다운로드하여 설치할 수 있습니다.

2. **언어 데이터 파일 다운로드**:
   - 한글 인식을 위해 필요한 `kor.traineddata` 파일을 다운로드합니다. 이 파일은 Tesseract의 [tessdata GitHub 저장소](https://github.com/tesseract-ocr/tessdata)에서 찾을 수 있습니다.
   - 직접 다운로드 링크: [kor.traineddata](https://github.com/tesseract-ocr/tessdata/blob/master/kor.traineddata)

3. **언어 데이터 파일 위치에 복사**:
   - 다운로드한 `kor.traineddata` 파일을 Tesseract의 `tessdata` 폴더에 복사합니다.
   - 예를 들어, Windows에서는 `C:\Program Files\Tesseract-OCR\tessdata`에 복사합니다.

4. **Tesseract에서 한글 사용**:
   - Tesseract를 사용할 때, 한글 인식을 위해 `-l kor` 옵션을 추가하여 실행합니다.
   - 예시:
     ```bash
     tesseract image.png output -l kor
     ```

Citations:
[1] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/26005775/a1095831-1e95-4f8f-b641-bd40db020bd0/elasticsearch.log
[2] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/26005775/586ca9b3-af98-4bb6-9b4b-5157cf07c323/elasticsearch.log

728x90
반응형