랭체인

0222 model ( object의 attribute 확인, hugging face, local 구동, allam 적용

유방울 2025. 2. 21. 13:47

LLM (Large Language Model)

Quesiton -> Retrieve -> Prompt -> LLM -> Answer

 

엔트로픽사의

구글의 제미나이

허깅에서 다운받아서 쓸 수도 있음 

 

LLM을 교체하는 대표 적인 이유

1. 비용

추론이 많이 일어나면 과금이 높음

무료모델은 구독이 되지 않음 API 발급하면 할 수 있는데

모델을 다운 받거나 노트북에 구동할 수 없으니 구동가능한 서비스가 있음

GPU 자원을 활용할 수 있는 클라우드 시스템은 이용료도 내야함

GPT를 많이 활용하면 GPU 서버에 올려놓고 마음껏 하는 게 좋음 - 이거는 PC방처럼 시간당 과금임

사용량이 많지 않으면 GPT 4ㄱ

 

RAG는 두뇌와 같은 역할을 함

1. OpenAI모델마다 성능차이가 있음

OpenAI는 답변의 수준이 높음, 답변의 성능이 높음

2. Anthropic Claude3 Sonnet 활용

3. 로컬 모델 (llam3-8b) 활용

과금은 요금이 적음

성능은 gpt를 따라갈 수 없음

 

무료로 open 소스 사용하다가 rag 구축하는 방법의 문의가 많음

근데 둘이는 크게 차이 없음

오픈소스를 쓴다고 코드가 달라지는 것이 아니라 모델만 바꾸면 됨

즉, 전체적인 틀이 바뀌는 것이 아니라 llm만 바꾸는 거임

 

llm마다 토큰 제한량이 다름 128k

입출력 합쳐서 4096개


1. .env에 키를 넣고 저장함

2. 그거를 코드로 다시 불러와야함

 

대부분 오류는 불러오고 저장함

 

안되면 restart 해보기

 

RAG할 때 temperature 0으로 제한을 많이 함

 

Opus는 모델 명ㅇ

 

모델 성능 비교하는 대시보드

https://lk.instruct.kr/

 

LogicKor | 한국어 언어모델 다분야 사고력 벤치마크

LogicKor은 한국어 언어모델의 다분야 사고력을 측정하는 벤치마크입니다. 추론, 수학, 글쓰기, 코딩, 이해, 문법 등 다양한 분야의 사고력을 측정합니다.

lk.instruct.kr

 


캐싱 cashing

매직 커맨드 magic command

- python 환경은 안 됨 ipython에서 가능

- % 한 줄  line magic, %% 여러 줄 cell magic


함수의 파라미터 확인 방법

1

 

객체로 받아서 속성 확인하는 방법 


OLLAMA

오라마에서 구동하기 위해서는?

gguf 파일 확장자를 가져야 함

 

GGML 조지 게르가노프

 

초기 혁신은 GGML은 GPT 모델을 위한 파일 형식을 만드려는 초기 시도

단일 파일 공유

CPU 호환성

 

ALLAMA로 구동하려며 GGUF라는 타입을 사용하게 됨

Q4 버전이 용량이 낮음

LargeLanguage는 사이즈가 큼 압축하는 과정이 들어가지 않아서 성능면에서 우수함

하지만 노트북에서 돌릴 때는 자원이 충족되지 않을 때가 많아서

숫자가 작을수록 압축이 많이 된 모델

M3 Max

 

구동법

터미널 열어서 ollama 치면 뜸

 

ollama list

: 다운받은 모델 리스트를 나열함

 

터미널에서 원하는 모델 다운도 가능

엔터 키 주의하기 

 

ollama run gemma:7b 하면 구동됨

끝내고 싶으면

/ bye 누르면 됨