Qwen3.5-9B-DeepSeek-V4-Flash: 저VRAM 사용자를 위한 놀라운 모델
개요
저VRAM 사용자를 위한 놀라운 모델이 나왔습니다! Qwen3.5-9B-DeepSeek-V4-Flash가 라이브로 출시되었습니다!
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
베이스 9B vs 디스틸 모델 비교
기본 9B 모델과 비교했을 때, 이 DeepSeek-V4 디스틸 모델이 두 가지 특정 영역에서 압도적인 우위를 보입니다:
🧠 추론(Reasoning)
- 베이스 모델: 5개 프롬프트 중 3개에서 8K 사고 토큰 제한에 도달 (과도한 사고)
- 디스틸 모델: 5개 모두 깨끗하게 통과. 2.2배 빠른 시간, 2.6배 짧은 추론 길이
🎨 창의적 프론트엔드 디자인
- 베이스 모델: 평면적인 비주얼, 오버레이/애니메이션 버그 발생
- 디스틸 모델: 9B 모델급을 훨씬 뛰어넘는 출력 생성
직접 확인해보세요! 전체 리뷰와 인터랙티브 스페이스: https://huggingface.co/spaces/KyleHessling1/jackrong-deepseek-9b-eval
주요 특징
🔧 툴 호출(Tool Calling)
5/6 PASS - 두 모델 모두 통과! 파인튜닝이 툴 호출을 망가뜨리지 않았습니다!
⚡ 처리량(Throughput)
5090으로 143 tok/s - 두 모델 모두 동일. 하지만 이 모델은 거의 모든 장치에서 실행 가능합니다!
새로운 트레이닝 파이프라인
이것은 Asus GX10 유닛으로 새로운 트레이닝 파이프라인을 테스트한 결과입니다.
이 디스틸 성공을 확인한 후, 이미 Qwopus 3.6 27B 트레이닝을 시작했으며, 곧 완료될 예정입니다!
“깨끗한 데이터셋, 괜찮은 베이스 모델, GX10만 있으면 할 수 있는 일들에 놀랍니다. 고도로 자금된 랩의 결과물보다 개선된 것이 불가능할 것 같지만, 여기 있습니다!”
와이오밍 랩에서 완전히 완성된 첫 번째 모델입니다!
Yeehaw! 🤠
댓글 반응
Sakura Yuki @sakurayukiai
진짜 이야기는 KV 캐시 절약입니다. 9B 모델이 로컬에서 8K 사고 토큰을 늘어놓을 때 메모리 대역폭이 바닥납니다. 디스틸된 추론은 기본적으로 추론 트릭입니다.
MrKnowledgeShare @rknowledgeshare
맥북 프로 M1 16GB RAM에서 돌아갈까요?
Kyle Hessling: 네! 충분한 여유 공간이 있을 겁니다!
Michael B. @TalkFoReal
8GB Nvidia와 32GB RAM에서 돌아갈까요?
Kyle Hessling: Q4_K_M으로 딱 맞겠네요! 컨텍스트는 타이트하지만 작동할 겁니다!
Kutflow @DJkutflow
이런 좋은 하네스들은 대부분 처음부터 17-23k 컨텍스트가 필요한데, 이건 어떻게 처리하나요?
Kyle Hessling: 롤하세요! 컨텍스트 파일이 매우 작아서 훨씬 높게 크랭할 수 있습니다!
결론
Qwen3.5-9B-DeepSeek-V4-Flash는:
- 저VRAM 사용자를 위한 최적의 선택
- 2.2배 빠른 추론 속도
- 2.6배 짧은 추론 길이
- 9B 모델급 이상의 창의적 출력
- 거의 모든 하드웨어에서 실행 가능
전체 인터랙티브 스페이스와 리뷰: https://huggingface.co/spaces/KyleHessling1/jackrong-deepseek-9b-eval