본문 바로가기
728x90
반응형

1인 프로젝트31

드디어... elasticsearch랑 tesseract가 잘 작동한다! tesseract(PDF OCR) + elasticsearch(고급 검색 기능 지원) ## 결과물(일부){took: 15,timed_out: false,_shards: {total: 1,successful: 1,skipped: 0,failed: 0},hits: {total: {value: 2,relation: "eq"},max_score: 1,hits: [{_index: "library",_id: "UhSbCJEB_1TVpDRMDzOb",_score: 1,_source: {title: "pdf24_images_merged.pdf",content: ""}},{_index: "library",_id: "UxSOCZEB_1TVpDRM6zM7",_score: 1,_ignored: ["content.keyword.. 2024. 8. 1.
Elasticsearch가 왜 웹페이지에서 작동하지 않나... 이해해주셔서 감사합니다. 이전에 제시한 해결 방법이 도움이 되지 않았고, 상황이 명확하지 않았던 점 사과드립니다. Elasticsearch와 Tesseract를 설치한 후 발생한 문제를 해결하기 위해 구체적인 조치를 제안하겠습니다. ### 문제 해결 단계 1. **Elasticsearch 로그 파일 다운로드**:    - 제공된 링크에서 Elasticsearch 로그 파일을 다운로드할 수 있습니다. 하지만 "Access Denied" 오류가 발생하여 접근할 수 없는 상황이므로, 로그 파일을 직접 확인할 수 없습니다. 2. **Elasticsearch 상태 확인**:    - Elasticsearch가 정상적으로 실행되고 있는지 확인하기 위해 웹 브라우저에서 다음 URL을 입력하여 상태를 확인합니다:   .. 2024. 8. 1.
Elasticsearch와 Flask 애플리케이션을 시스템 서비스로 설정 매번 나만의 도서관을 사용 할 때마다 elasticsearch도 켜야 하고 app.py도 켜야 하는 건가? 뭔가 번거롭고 잊어버리기 쉬운데? 내가 최종적으로 원하는 건 아이콘을 누르면 따로 서버를 수동으로 켤 필요 없이 서비스를 이용하는 거야. 매번 "나만의 도서관" 애플리케이션을 사용할 때마다 Elasticsearch와 Flask 애플리케이션(app.py)을 수동으로 실행하는 것은 번거로울 수 있습니다. 이를 자동화하거나 더 쉽게 관리하는 방법이 있습니다. 각 방법의 장단점을 비교한 표를 제시하고, 귀하의 요구사항에 가장 적합한 방법을 추천해 드리겠습니다.서비스로 설정- 시스템 부팅 시 자동 시작- 백그라운드에서 실행- 시스템 관리 도구로 쉽게 관리 가능- 초기 설정이 복잡할 수 있음- 시스템 리소스를.. 2024. 7. 31.
Tesseract OCR 라이브러리 설치 스캔된 이미지 PDF에서 텍스트를 추출하려면 OCR(Optical Character Recognition) 기술을 사용해야 합니다. PyMuPDF는 기본적으로 PDF에서 텍스트를 추출하지만, 이미지에서 텍스트를 인식하는 기능은 없습니다 tesseract설치와 python tesseract라이브러리 설치는 둘 다 해야 1. Tesseract OCR 설치:    - 이는 실제 OCR 엔진입니다.     - 운영 체제에 직접 설치하는 소프트웨어입니다. 2. Python Tesseract 라이브러리 (pytesseract) 설치:    - 이는 Python에서 Tesseract OCR을 사용할 수 있게 해주는 Python 라이브러리입니다.    - pip를 통해 설치합니다. 이 두 가지는 서로 다른 목적을 가지.. 2024. 7. 31.
728x90
반응형