Qwen3.5-9B-DeepSeek-V4-Flash: 저VRAM 사용자를 위한 놀라운 모델

개요

저VRAM 사용자를 위한 놀라운 모델이 나왔습니다! Qwen3.5-9B-DeepSeek-V4-Flash가 라이브로 출시되었습니다!

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

베이스 9B vs 디스틸 모델 비교

기본 9B 모델과 비교했을 때, 이 DeepSeek-V4 디스틸 모델이 두 가지 특정 영역에서 압도적인 우위를 보입니다:

🧠 추론(Reasoning)

  • 베이스 모델: 5개 프롬프트 중 3개에서 8K 사고 토큰 제한에 도달 (과도한 사고)
  • 디스틸 모델: 5개 모두 깨끗하게 통과. 2.2배 빠른 시간, 2.6배 짧은 추론 길이

🎨 창의적 프론트엔드 디자인

  • 베이스 모델: 평면적인 비주얼, 오버레이/애니메이션 버그 발생
  • 디스틸 모델: 9B 모델급을 훨씬 뛰어넘는 출력 생성

직접 확인해보세요! 전체 리뷰와 인터랙티브 스페이스: https://huggingface.co/spaces/KyleHessling1/jackrong-deepseek-9b-eval

주요 특징

🔧 툴 호출(Tool Calling)

5/6 PASS - 두 모델 모두 통과! 파인튜닝이 툴 호출을 망가뜨리지 않았습니다!

⚡ 처리량(Throughput)

5090으로 143 tok/s - 두 모델 모두 동일. 하지만 이 모델은 거의 모든 장치에서 실행 가능합니다!

새로운 트레이닝 파이프라인

이것은 Asus GX10 유닛으로 새로운 트레이닝 파이프라인을 테스트한 결과입니다.

이 디스틸 성공을 확인한 후, 이미 Qwopus 3.6 27B 트레이닝을 시작했으며, 곧 완료될 예정입니다!

“깨끗한 데이터셋, 괜찮은 베이스 모델, GX10만 있으면 할 수 있는 일들에 놀랍니다. 고도로 자금된 랩의 결과물보다 개선된 것이 불가능할 것 같지만, 여기 있습니다!”

와이오밍 랩에서 완전히 완성된 첫 번째 모델입니다!

Yeehaw! 🤠

댓글 반응

Sakura Yuki @sakurayukiai

진짜 이야기는 KV 캐시 절약입니다. 9B 모델이 로컬에서 8K 사고 토큰을 늘어놓을 때 메모리 대역폭이 바닥납니다. 디스틸된 추론은 기본적으로 추론 트릭입니다.

MrKnowledgeShare @rknowledgeshare

맥북 프로 M1 16GB RAM에서 돌아갈까요?

Kyle Hessling: 네! 충분한 여유 공간이 있을 겁니다!

Michael B. @TalkFoReal

8GB Nvidia와 32GB RAM에서 돌아갈까요?

Kyle Hessling: Q4_K_M으로 딱 맞겠네요! 컨텍스트는 타이트하지만 작동할 겁니다!

Kutflow @DJkutflow

이런 좋은 하네스들은 대부분 처음부터 17-23k 컨텍스트가 필요한데, 이건 어떻게 처리하나요?

Kyle Hessling: 롤하세요! 컨텍스트 파일이 매우 작아서 훨씬 높게 크랭할 수 있습니다!

결론

Qwen3.5-9B-DeepSeek-V4-Flash는:

  • 저VRAM 사용자를 위한 최적의 선택
  • 2.2배 빠른 추론 속도
  • 2.6배 짧은 추론 길이
  • 9B 모델급 이상의 창의적 출력
  • 거의 모든 하드웨어에서 실행 가능

전체 인터랙티브 스페이스와 리뷰: https://huggingface.co/spaces/KyleHessling1/jackrong-deepseek-9b-eval