사업계획서 작성 문의는 010-6742-1176 / 홍승민
생성형 포럼 사이트 : https://llmrag.co.kr
_______________________________________________________
(앞선 글에 이어)
(3) 한 페이지에 하나
이 부분은 규칙적으로 작성을 해도 되고 아니어도 좋습니다. 다만, 한 페이지에는 하나의 문장이 마무리_되는 것이 좋습니다. 이유는 문장이나 단락이 하나의 페이지에서 마무리가 되어야 생성형이 좀 더 빠르고 정확하게 판단하기 때문입니다. 이 부분은 ‘(4) 청킹’으로 연결되는 내용입니다.
(4) 청킹
청킹이라는 단어 역시 이해를 충분히 하셔야 합니다. 말 그대로 ‘덩어리 만들기’라는 뜻인데요, 단어를 올리면 이걸 쪼개는데 그 쪼개진 단위를 ‘토큰’이라고 말씀드렸습니다. 이러한 토큰 덩어리는 청크라고 하고 청크를 만드는 것을 청킹이라고 합니다.
덩어리 규모에 따라 토큰 규모가 달라지는데 앞서서 예시를 들었던 것을 기준으로
예시 문장: 홍승민은 군포 5대 천왕이다.
여기에서 앞선 기준으로 토큰화하면 총 6토큰이 됩니다. 이때 6토큰을 하나의 청크로 설정을 해도 되고 ‘홍승민은 군포’까지 1청킹 ‘5대 천왕이다.’를 1청킹 하면 총 청킹은 2개입니다. 청킹이 왜 중요하냐 하면, 우리가 쿼리를 던질 때(질문을 할 때) 그 질문에 대해 정확한 정보를 찾아서 답변을 해야 하고 그 정보를 찾는 기준이 청크이기 때문입니다. 다음 그림을 보겠습니다.
이렇게 청킹하는 것하고 어떤 것을 더 정확하게 인식을 할까요?
당연히 중복인 것이고 중복이 전에 문서에 대한 청킹 구조입니다.
이러한 것은 학습은 아니지만, 우리가 LLM을 이용할 때 당분간 사용하게 될 RAG 방법에도 똑같이 적용이 됩니다.
청킹 방법에도 여러 가지 기법이 있지만, 자연구분자를 기준으로 하는 청킹을 주로 사용합니다. 이 방법이 가장 의미를 잘 이해하기 때문입니다.