Model Intelligence Sheet
nic22of2003/qwen3.5-9b-uncensored-hauhaucs-aggressive-iq3_xxs.gguf overview
Comprehensive model page for nic22of2003/qwen3.5-9b-uncensored-hauhaucs-aggressive-iq3_xxs.gguf
Downloads
519
Likes
0
Pipeline
text-generation
Library
llama.cpp
Visibility
Public
Access
Open
Repository Files & Downloads
Model Details Live
Metadata Inspector
Normalized metadata (stored in metadata_json)
{
"metadata": {},
"card_data": {
"license": "apache-2.0",
"language": [
"ru",
"en",
"code"
],
"library_name": "llama.cpp",
"tags": [
"GGUF",
"IQ3_XXS",
"uncensored",
"Qwen3.5",
"multimodal",
"8GB",
"GTX1080"
],
"pipeline_tag": "text-generation",
"frontmatter": {
"license": "apache-2.0",
"language": [
"ru",
"en",
"code"
],
"library_name": "llama.cpp",
"tags": [
"GGUF",
"IQ3_XXS",
"uncensored",
"Qwen3.5",
"multimodal",
"8GB",
"GTX1080"
],
"pipeline_tag": "text-generation"
},
"hero_image_url": "",
"summary": "",
"quick_links": [],
"benchmark_table_html": "",
"readme_markdown": "---\nlicense: apache-2.0\nlanguage:\n - ru\n - en\n - code\nlibrary_name: llama.cpp\ntags:\n - GGUF\n - IQ3_XXS\n - uncensored\n - Qwen3.5\n - multimodal\n - 8GB\n - GTX1080\npipeline_tag: text-generation\n---\n\n# Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS-GGUF (любительская сборка)\n\n## 📌 Что это\n\nКвантованная версия **IQ3_XXS** модели [HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive](https://huggingface.co/HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive) в формате GGUF.\n\nСборка создана для личного использования на **NVIDIA GeForce GTX 1080 (8 ГБ VRAM)** и публикуется «как есть». Все приведённые ниже цифры получены на конкретной тестовой системе; на других конфигурациях поведение может отличаться.\n\n> ⚠️ **Любительская сборка.** Тестировалась только на указанной конфигурации.\n\n---\n\n## 📦 Состав репозитория\n\n| Файл | Размер | Описание |\n| :--- | :---: | :--- |\n| `Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf` | **3,66 ГБ** | основной файл модели |\n| `mmproj-Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf` | 880 МБ | визуальный энкодер (из оригинального репозитория) |\n| `no-think.jinja` | ~1 КБ | шаблон для отключения размышлений |\n| `Modelfile` | ~1 КБ | конфигурация для Ollama |\n\nВ авторском репозитории HauhauCS **отсутствуют** 3-битные кванты. Минимальный размер там — **Q4_K_M (5,3 ГБ)**. \nКвант `Q3_K_L` (4,58 ГБ) был получен в ходе экспериментов, но **не публикуется** из-за худшего соотношения качество/память на целевом домене.\n\n---\n\n## 🖥️ Тестовая конфигурация\n\n| Компонент | Значение |\n| :--- | :--- |\n| **GPU** | NVIDIA GeForce GTX 1080 (8 ГБ VRAM) |\n| **CPU** | 12th Gen Intel Core i5-12400F |\n| **ОЗУ** | 31 ГБ |\n| **llama.cpp** | сборка с CUDA, коммит `b8750-bfd1f453c` |\n\n---\n\n## 🔬 Детали квантизации\n\n### Калибровочный датасет (imatrix)\n\nИспользовался файл `imatrix.dat` (~1 МБ) со следующей структурой:\n\n| Компонент | Доля | Состав |\n| :--- | :---: | :--- |\n| Код | 40% | Python, TypeScript, C++/C#, SQL, Bash, веб-стек |\n| Языковые данные | 40% | русский / английский в пропорции **40/60** |\n| Логика / математика | 10–15% | — |\n| Энтропийный слой | 5–10% | предотвращение «роботизации» |\n\nСам файл `imatrix.dat` **не публикуется**.\n\n### Стратегия сжатия слоёв\n\n| Группа слоёв | Тип квантования | Средний bpw | Причина |\n| :--- | :--- | :---: | :--- |\n| `ffn_*` | **IQ3_XXS** | ~3,06 | хорошо переносят сжатие |\n| `attn_*` | Q4_K / Q5_K | ~4,50 | критичны для логики и контекста |\n| `ssm_out` | F16 / BF16 | 16,0 | катастрофический рост ошибки при сжатии |\n| `output` | Q5_K | ~5,50 | баланс качества и размера |\n| `token_embd` | IQ3_S | ~3,44 | умеренное сжатие |\n\n**Средний битрейт модели:** 3,51 bpw.\n\n---\n\n## 📊 Результаты тестов\n\n### Производительность\n\n| Режим | Контекст | Prompt eval (t/s) | Generation (t/s) |\n| :--- | :---: | :---: | :---: |\n| Текстовый (короткий промпт) | 2k | ~129 | ~32,4 |\n| **Длинный контекст** | **32k** | **~581** | **~30,7** |\n\n*Пиковые значения prompt eval достигали 581 t/s. Скорость генерации стабильна в районе 30–35 t/s.*\n\n### Потребление видеопамяти (контекст ~2k)\n\n| Параметр | Значение |\n| :--- | :--- |\n| Модель (только веса) | ~3328 MiB |\n| KV-кэш (контекст) | ~2242 MiB |\n| Вычислительные буферы | ~493 MiB |\n| Свободно VRAM | ~1170 MiB |\n\n### Сравнение с другими квантами\n\n| Квант | Размер | PPL (гибрид) | PPL (WikiText-2) | Генерация | Экономия VRAM |\n| :--- | :---: | :---: | :---: | :---: | :---: |\n| `Q4_K_M` | 5,23 ГБ | 7,95 | **21,94** | ~26 t/s | — |\n| `Q3_K_L` | 4,58 ГБ | 8,82 | 22,53 | ~27 t/s | -13% |\n| **`IQ3_XXS`** | **3,66 ГБ** | **8,26** | 23,32 | **~32 t/s** | **-30%** |\n\n**Гибридный датасет** — смесь кода, логических задач и текстов на русском/английском, близкая к калибровочному набору.\n\n---\n\n## 🧠 Тестирование длинного контекста (32k)\n\nМодель протестирована с `--ctx-size 32768` на задаче «иголка в стоге сена». Использовался отрывок из романа «Война и мир» (~37 400 токенов). В середину текста вставлена фраза: *«Внезапно в комнату вошёл розовый слон и вежливо поздоровался с Анной Павловной»*. Модель успешно извлекла и воспроизвела эту информацию.\n\n**Важно:**\n- Тест проведён на художественном тексте. На сложных технических или специализированных материалах качество работы с 32k контекстом может варьироваться.\n- Модель может «плыть» при ответах, требующих синтеза информации из разных частей длинного документа.\n\n**Рекомендация:** для гарантированно стабильной работы используйте контекст до 16k токенов.\n\n---\n\n## 🖼️ Мультимодальность\n\nМодель поддерживает работу с изображениями (проверено в `llama.cpp`).\n\n**Важно:** на видеокартах с 8 ГБ VRAM **обязателен** флаг `--no-mmproj-offload`, иначе возникнет ошибка `cudaMalloc failed: out of memory`.\n\nПоддержка видео заявлена архитектурой, но **не тестировалась**.\n\n---\n\n## 🚀 Инструкции по запуску\n\n### 1. Текстовый режим (`llama.cpp`)\n\n**Базовая команда:**\n```bash\n./llama.cpp/build/bin/llama-cli \\\n -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n -ngl 99 \\\n --temp 0.7 \\\n -n 2048 \\\n -p \"Ваш запрос\"\nС отключением размышлений (рекомендуется):\n\nСоздайте файл no-think.jinja со следующим содержимым:\n\njinja\n{{ bos_token }}\n{% for message in messages %}\n {% if message['role'] == 'user' %}\n <|im_start|>user\n {{ message['content'] }}<|im_end|>\n {% elif message['role'] == 'assistant' %}\n <|im_start|>assistant\n {{ message['content'] }}<|im_end|>\n {% elif message['role'] == 'system' %}\n <|im_start|>system\n {{ message['content'] }}<|im_end|>\n {% endif %}\n{% endfor %}\n{% if add_generation_prompt %}\n <|im_start|>assistant\n{% endif %}\nИ запускайте модель с флагом --chat-template-file:\n\nbash\n./llama.cpp/build/bin/llama-cli \\\n -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n --chat-template-file no-think.jinja \\\n -ngl 99 \\\n --temp 0.7 \\\n -n 2048 \\\n -p \"Ваш запрос\"\nТворческий режим (генерация идей, написание текстов):\n\nbash\n./llama.cpp/build/bin/llama-cli \\\n -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n --chat-template-file no-think.jinja \\\n -ngl 99 \\\n --temp 1.0 --top-p 1.0 --top-k 40 \\\n --repeat-penalty 1.1 \\\n -n 2048 \\\n -p \"Ваш запрос\"\nРежим точных ответов (логика, код, факты):\n\nbash\n./llama.cpp/build/bin/llama-cli \\\n -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n --chat-template-file no-think.jinja \\\n -ngl 99 \\\n --temp 0.6 --top-p 0.95 --top-k 20 \\\n -n 2048 \\\n -p \"Ваш запрос\"\n2. Мультимодальный режим (llama.cpp)\nbash\n./llama.cpp/build/bin/llama-cli \\\n -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n --mmproj ./models/mmproj-Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf \\\n --image your_image.png \\\n --chat-template-file no-think.jinja \\\n -ngl 99 \\\n --no-mmproj-offload \\\n -n 2048 \\\n -p \"Опиши подробно, что изображено на этой картинке.\"\n3. Использование с Ollama (только текст)\nТекстовая совместимость с Ollama проверена. Создайте файл Modelfile:\n\ndockerfile\nFROM ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf\n\nTEMPLATE \"\"\"{{ if .System }}<|im_start|>system\n{{ .System }}<|im_end|>\n{{ end }}{{ if .Prompt }}<|im_start|>user\n{{ .Prompt }}<|im_end|>\n{{ end }}<|im_start|>assistant\n\"\"\"\n\nPARAMETER temperature 0.7\nPARAMETER top_p 0.8\nPARAMETER top_k 20\nPARAMETER repeat_penalty 1.1\n\nPARAMETER stop \"<|im_start|>\"\nPARAMETER stop \"<|im_end|>\"\nИмпортируйте и запустите модель:\n\nbash\nollama create qwen35-iq3xxs -f Modelfile\nollama run qwen35-iq3xxs \"Ваш запрос\"\nМультимодальность в Ollama не поддерживается (проверено на актуальной версии). Для работы с изображениями используйте llama.cpp.\n\n⬇️ Быстрая загрузка всех файлов\nЧтобы скачать модель, mmproj, шаблон и Modelfile одной командой:\n\nbash\ncurl -L -O https://huggingface.co/Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf/resolve/main/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n -O https://huggingface.co/Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf/resolve/main/mmproj-Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf \\\n -O https://huggingface.co/Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf/resolve/main/no-think.jinja \\\n -O https://huggingface.co/Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf/resolve/main/Modelfile\n⚠️ Ограничения и известные проблемы\nЕдинственная тестовая система: все замеры на GTX 1080. На других GPU поведение может отличаться.\n\nДлинный контекст: модель прошла тест «иголка в стоге сена», но на сложных технических текстах качество не гарантируется.\n\nМультимодальность в Ollama: не работает. Используйте llama.cpp.\n\nКачество на чистом тексте: немного уступает Q3_K_L (WikiText-2), но на смешанных данных с кодом и логикой превосходит его.\n\n❓ FAQ\nQ: Почему выложен только IQ3_XXS, а не Q3_K_L?\nA: Q3_K_L на гибридном домене показал худшее качество при большем размере.\n\nQ: Где взять mmproj?\nA: Файл включён в репозиторий. Также доступен в оригинальном репозитории.\n\nQ: Будет ли модель работать на Windows?\nA: Да, через llama.cpp или LM Studio. Команды адаптируются.\n\n\n\n📄 Лицензия\nApache License 2.0 (соответствует оригинальной модели).\n\n🙏 Благодарности\nHauhauCS — за оригинальную модель.\n\nКоманда llama.cpp — за инструменты квантизации и инференса.\n",
"related_quantizations": []
},
"tags": [
"llama.cpp",
"gguf",
"GGUF",
"IQ3_XXS",
"uncensored",
"Qwen3.5",
"multimodal",
"8GB",
"GTX1080",
"text-generation",
"ru",
"en",
"code",
"license:apache-2.0",
"endpoints_compatible",
"region:us",
"imatrix",
"conversational"
],
"likes": 0,
"downloads": 519,
"gated": false,
"private": false,
"last_modified": "2026-04-12T08:20:53.000Z",
"created_at": "2026-04-12T06:19:10.000Z",
"pipeline_tag": "text-generation",
"library_name": "llama.cpp"
}
Source payload excerpt (from Hugging Face API)
{
"_id": "69db395e721d8a24515ebce1",
"id": "Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf",
"modelId": "Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf",
"sha": "a5a7842e8e0641d6128d7bfa30997a0b93705c41",
"createdAt": "2026-04-12T06:19:10.000Z",
"lastModified": "2026-04-12T08:20:53.000Z",
"author": "Nic22Of2003",
"downloads": 519,
"likes": 0,
"gated": false,
"private": false,
"pipeline_tag": "text-generation",
"library_name": "llama.cpp",
"siblings_count": 6
}