- 뉴스 크롤링 후 필요 내용 가공 - 유사 단어 추출 - 각종 문서안 필요 내용 가공
- BM25로 데이터 검색 - 유사도 검색 - 질문 + 문서를 보내 질문과 관련 내용만 추출LLMChainExtractor - pdf ocr이 없는 경우 이미지로 변환하여 ocr처리하여 텍스트 인식 - 정규식으로 데이터 정제