google-site-verification=tiTpc7g9EFArxomgX7IqEflz-fp4nI0F2jLaMkFLPoQ 정부 지원 사업계획서 작성법 (생성형 활용) 11

상세 컨텐츠

본문 제목

정부 지원 사업계획서 작성법 (생성형 활용) 11

카테고리 없음

by 홍승민경영컨설팅(주) 2024. 12. 18. 10:03

본문

 

사업계획서 작성 문의는 010-6742-1176 / 홍승민

생성형 포럼 사이트 : https://llmrag.co.kr

_______________________________________________________

 

(앞선 글에 이어)

 

(3) 한 페이지에 하나

이 부분은 규칙적으로 작성을 해도 되고 아니어도 좋습니다. 다만, 한 페이지에는 하나의 문장이 마무리_되는 것이 좋습니다. 이유는 문장이나 단락이 하나의 페이지에서 마무리가 되어야 생성형이 좀 더 빠르고 정확하게 판단하기 때문입니다. 이 부분은 ‘(4) 청킹’으로 연결되는 내용입니다.

 

(4) 청킹

청킹이라는 단어 역시 이해를 충분히 하셔야 합니다. 말 그대로 ‘덩어리 만들기’라는 뜻인데요, 단어를 올리면 이걸 쪼개는데 그 쪼개진 단위를 ‘토큰’이라고 말씀드렸습니다. 이러한 토큰 덩어리는 청크라고 하고 청크를 만드는 것을 청킹이라고 합니다.

덩어리 규모에 따라 토큰 규모가 달라지는데 앞서서 예시를 들었던 것을 기준으로

 

예시 문장: 홍승민은 군포 5대 천왕이다.

 

여기에서 앞선 기준으로 토큰화하면 총 6토큰이 됩니다. 이때 6토큰을 하나의 청크로 설정을 해도 되고 ‘홍승민은 군포’까지 1청킹 ‘5대 천왕이다.’를 1청킹 하면 총 청킹은 2개입니다. 청킹이 왜 중요하냐 하면, 우리가 쿼리를 던질 때(질문을 할 때) 그 질문에 대해 정확한 정보를 찾아서 답변을 해야 하고 그 정보를 찾는 기준이 청크이기 때문입니다. 다음 그림을 보겠습니다.

하나의 문장을 청크1로 설정할 경우 청크당 텍스트는 정말 잘 이해합니다. 하지만 청크2 내용이 청크1 내용과 같은 내용이라면 청크1로서 충분히 이해하지 못했다면 청크2까지 봐야 합니다. 그래서 중복으로 읽어 오게 하는 방법을 사용합니다.
 
그럼 청크1 해석하고 청크2 해석하고 이런 것보다 청크1과 중복 해석하고 청크2와 중복 해석하면, 좀 더 이해가 빠르지 않을까요? 왜냐하면 ‘상관성’ 때문이죠. 이제 제가 왜 어렵게 LLM이 학습하는 방법을 설명하고 청킹을 설명하고 벡터가 뭔지 유사성을 어찌 해야 하는지 이해되시나요? 제가 쓴 글을 기준으로 구분해서 보겠습니다.
 
위와 같이 청킹하는 것하고

 

이렇게 청킹하는 것하고 어떤 것을 더 정확하게 인식을 할까요?

당연히 중복인 것이고 중복이 전에 문서에 대한 청킹 구조입니다.

이러한 것은 학습은 아니지만, 우리가 LLM을 이용할 때 당분간 사용하게 될 RAG 방법에도 똑같이 적용이 됩니다.

청킹 방법에도 여러 가지 기법이 있지만, 자연구분자를 기준으로 하는 청킹을 주로 사용합니다. 이 방법이 가장 의미를 잘 이해하기 때문입니다.

728x90