GraySoft
Projects Models About FAQ Contact Download guIDE →
Model Intelligence Sheet

nic22of2003/qwen3.5-9b-uncensored-hauhaucs-aggressive-iq3_xxs.gguf overview

Comprehensive model page for nic22of2003/qwen3.5-9b-uncensored-hauhaucs-aggressive-iq3_xxs.gguf

llama.cppggufGGUFIQ3_XXSuncensoredQwen3.5multimodal8GBGTX1080text-generationruencodelicense:apache-2.0endpoints_compatibleregion:usimatrixconversational
nic22of2003/qwen3.5-9b-uncensored-hauhaucs-aggressive-iq3_xxs.gguf visual
Downloads
519
Likes
0
Pipeline
text-generation
Library
llama.cpp
Visibility
Public
Access
Open

Repository Files & Downloads

2 files detected
Direct downloads for all repository files
FileTypeQuantizationSizeLink
Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf GGUF IQ3_XXS 3.67 GB Download
mmproj-Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf GGUF BF16 879.01 MB Download

Model Details Live

Model Slug
nic22of2003/qwen3.5-9b-uncensored-hauhaucs-aggressive-iq3_xxs.gguf
Author
Nic22Of2003
Pipeline Task
text-generation
Library
llama.cpp
Created
2026-04-12
Last Modified
2026-04-12
Gated
No
Private
No
HF SHA
a5a7842e8e0641d6128d7bfa30997a0b93705c41
License
apache-2.0
Language
ru, en, code
Base Model
Unknown

Metadata Inspector

Normalized metadata (stored in metadata_json)
{
  "metadata": {},
  "card_data": {
    "license": "apache-2.0",
    "language": [
      "ru",
      "en",
      "code"
    ],
    "library_name": "llama.cpp",
    "tags": [
      "GGUF",
      "IQ3_XXS",
      "uncensored",
      "Qwen3.5",
      "multimodal",
      "8GB",
      "GTX1080"
    ],
    "pipeline_tag": "text-generation",
    "frontmatter": {
      "license": "apache-2.0",
      "language": [
        "ru",
        "en",
        "code"
      ],
      "library_name": "llama.cpp",
      "tags": [
        "GGUF",
        "IQ3_XXS",
        "uncensored",
        "Qwen3.5",
        "multimodal",
        "8GB",
        "GTX1080"
      ],
      "pipeline_tag": "text-generation"
    },
    "hero_image_url": "",
    "summary": "",
    "quick_links": [],
    "benchmark_table_html": "",
    "readme_markdown": "---\nlicense: apache-2.0\nlanguage:\n  - ru\n  - en\n  - code\nlibrary_name: llama.cpp\ntags:\n  - GGUF\n  - IQ3_XXS\n  - uncensored\n  - Qwen3.5\n  - multimodal\n  - 8GB\n  - GTX1080\npipeline_tag: text-generation\n---\n\n# Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS-GGUF (любительская сборка)\n\n## 📌 Что это\n\nКвантованная версия **IQ3_XXS** модели [HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive](https://huggingface.co/HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive) в формате GGUF.\n\nСборка создана для личного использования на **NVIDIA GeForce GTX 1080 (8 ГБ VRAM)** и публикуется «как есть». Все приведённые ниже цифры получены на конкретной тестовой системе; на других конфигурациях поведение может отличаться.\n\n> ⚠️ **Любительская сборка.** Тестировалась только на указанной конфигурации.\n\n---\n\n## 📦 Состав репозитория\n\n| Файл | Размер | Описание |\n| :--- | :---: | :--- |\n| `Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf` | **3,66 ГБ** | основной файл модели |\n| `mmproj-Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf` | 880 МБ | визуальный энкодер (из оригинального репозитория) |\n| `no-think.jinja` | ~1 КБ | шаблон для отключения размышлений |\n| `Modelfile` | ~1 КБ | конфигурация для Ollama |\n\nВ авторском репозитории HauhauCS **отсутствуют** 3-битные кванты. Минимальный размер там — **Q4_K_M (5,3 ГБ)**.  \nКвант `Q3_K_L` (4,58 ГБ) был получен в ходе экспериментов, но **не публикуется** из-за худшего соотношения качество/память на целевом домене.\n\n---\n\n## 🖥️ Тестовая конфигурация\n\n| Компонент | Значение |\n| :--- | :--- |\n| **GPU** | NVIDIA GeForce GTX 1080 (8 ГБ VRAM) |\n| **CPU** | 12th Gen Intel Core i5-12400F |\n| **ОЗУ** | 31 ГБ |\n| **llama.cpp** | сборка с CUDA, коммит `b8750-bfd1f453c` |\n\n---\n\n## 🔬 Детали квантизации\n\n### Калибровочный датасет (imatrix)\n\nИспользовался файл `imatrix.dat` (~1 МБ) со следующей структурой:\n\n| Компонент | Доля | Состав |\n| :--- | :---: | :--- |\n| Код | 40% | Python, TypeScript, C++/C#, SQL, Bash, веб-стек |\n| Языковые данные | 40% | русский / английский в пропорции **40/60** |\n| Логика / математика | 10–15% | — |\n| Энтропийный слой | 5–10% | предотвращение «роботизации» |\n\nСам файл `imatrix.dat` **не публикуется**.\n\n### Стратегия сжатия слоёв\n\n| Группа слоёв | Тип квантования | Средний bpw | Причина |\n| :--- | :--- | :---: | :--- |\n| `ffn_*` | **IQ3_XXS** | ~3,06 | хорошо переносят сжатие |\n| `attn_*` | Q4_K / Q5_K | ~4,50 | критичны для логики и контекста |\n| `ssm_out` | F16 / BF16 | 16,0 | катастрофический рост ошибки при сжатии |\n| `output` | Q5_K | ~5,50 | баланс качества и размера |\n| `token_embd` | IQ3_S | ~3,44 | умеренное сжатие |\n\n**Средний битрейт модели:** 3,51 bpw.\n\n---\n\n## 📊 Результаты тестов\n\n### Производительность\n\n| Режим | Контекст | Prompt eval (t/s) | Generation (t/s) |\n| :--- | :---: | :---: | :---: |\n| Текстовый (короткий промпт) | 2k | ~129 | ~32,4 |\n| **Длинный контекст** | **32k** | **~581** | **~30,7** |\n\n*Пиковые значения prompt eval достигали 581 t/s. Скорость генерации стабильна в районе 30–35 t/s.*\n\n### Потребление видеопамяти (контекст ~2k)\n\n| Параметр | Значение |\n| :--- | :--- |\n| Модель (только веса) | ~3328 MiB |\n| KV-кэш (контекст) | ~2242 MiB |\n| Вычислительные буферы | ~493 MiB |\n| Свободно VRAM | ~1170 MiB |\n\n### Сравнение с другими квантами\n\n| Квант | Размер | PPL (гибрид) | PPL (WikiText-2) | Генерация | Экономия VRAM |\n| :--- | :---: | :---: | :---: | :---: | :---: |\n| `Q4_K_M` | 5,23 ГБ | 7,95 | **21,94** | ~26 t/s | — |\n| `Q3_K_L` | 4,58 ГБ | 8,82 | 22,53 | ~27 t/s | -13% |\n| **`IQ3_XXS`** | **3,66 ГБ** | **8,26** | 23,32 | **~32 t/s** | **-30%** |\n\n**Гибридный датасет** — смесь кода, логических задач и текстов на русском/английском, близкая к калибровочному набору.\n\n---\n\n## 🧠 Тестирование длинного контекста (32k)\n\nМодель протестирована с `--ctx-size 32768` на задаче «иголка в стоге сена». Использовался отрывок из романа «Война и мир» (~37 400 токенов). В середину текста вставлена фраза: *«Внезапно в комнату вошёл розовый слон и вежливо поздоровался с Анной Павловной»*. Модель успешно извлекла и воспроизвела эту информацию.\n\n**Важно:**\n- Тест проведён на художественном тексте. На сложных технических или специализированных материалах качество работы с 32k контекстом может варьироваться.\n- Модель может «плыть» при ответах, требующих синтеза информации из разных частей длинного документа.\n\n**Рекомендация:** для гарантированно стабильной работы используйте контекст до 16k токенов.\n\n---\n\n## 🖼️ Мультимодальность\n\nМодель поддерживает работу с изображениями (проверено в `llama.cpp`).\n\n**Важно:** на видеокартах с 8 ГБ VRAM **обязателен** флаг `--no-mmproj-offload`, иначе возникнет ошибка `cudaMalloc failed: out of memory`.\n\nПоддержка видео заявлена архитектурой, но **не тестировалась**.\n\n---\n\n## 🚀 Инструкции по запуску\n\n### 1. Текстовый режим (`llama.cpp`)\n\n**Базовая команда:**\n```bash\n./llama.cpp/build/bin/llama-cli \\\n  -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n  -ngl 99 \\\n  --temp 0.7 \\\n  -n 2048 \\\n  -p \"Ваш запрос\"\nС отключением размышлений (рекомендуется):\n\nСоздайте файл no-think.jinja со следующим содержимым:\n\njinja\n{{ bos_token }}\n{% for message in messages %}\n  {% if message['role'] == 'user' %}\n    <|im_start|>user\n    {{ message['content'] }}<|im_end|>\n  {% elif message['role'] == 'assistant' %}\n    <|im_start|>assistant\n    {{ message['content'] }}<|im_end|>\n  {% elif message['role'] == 'system' %}\n    <|im_start|>system\n    {{ message['content'] }}<|im_end|>\n  {% endif %}\n{% endfor %}\n{% if add_generation_prompt %}\n  <|im_start|>assistant\n{% endif %}\nИ запускайте модель с флагом --chat-template-file:\n\nbash\n./llama.cpp/build/bin/llama-cli \\\n  -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n  --chat-template-file no-think.jinja \\\n  -ngl 99 \\\n  --temp 0.7 \\\n  -n 2048 \\\n  -p \"Ваш запрос\"\nТворческий режим (генерация идей, написание текстов):\n\nbash\n./llama.cpp/build/bin/llama-cli \\\n  -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n  --chat-template-file no-think.jinja \\\n  -ngl 99 \\\n  --temp 1.0 --top-p 1.0 --top-k 40 \\\n  --repeat-penalty 1.1 \\\n  -n 2048 \\\n  -p \"Ваш запрос\"\nРежим точных ответов (логика, код, факты):\n\nbash\n./llama.cpp/build/bin/llama-cli \\\n  -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n  --chat-template-file no-think.jinja \\\n  -ngl 99 \\\n  --temp 0.6 --top-p 0.95 --top-k 20 \\\n  -n 2048 \\\n  -p \"Ваш запрос\"\n2. Мультимодальный режим (llama.cpp)\nbash\n./llama.cpp/build/bin/llama-cli \\\n  -m ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n  --mmproj ./models/mmproj-Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf \\\n  --image your_image.png \\\n  --chat-template-file no-think.jinja \\\n  -ngl 99 \\\n  --no-mmproj-offload \\\n  -n 2048 \\\n  -p \"Опиши подробно, что изображено на этой картинке.\"\n3. Использование с Ollama (только текст)\nТекстовая совместимость с Ollama проверена. Создайте файл Modelfile:\n\ndockerfile\nFROM ./models/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf\n\nTEMPLATE \"\"\"{{ if .System }}<|im_start|>system\n{{ .System }}<|im_end|>\n{{ end }}{{ if .Prompt }}<|im_start|>user\n{{ .Prompt }}<|im_end|>\n{{ end }}<|im_start|>assistant\n\"\"\"\n\nPARAMETER temperature 0.7\nPARAMETER top_p 0.8\nPARAMETER top_k 20\nPARAMETER repeat_penalty 1.1\n\nPARAMETER stop \"<|im_start|>\"\nPARAMETER stop \"<|im_end|>\"\nИмпортируйте и запустите модель:\n\nbash\nollama create qwen35-iq3xxs -f Modelfile\nollama run qwen35-iq3xxs \"Ваш запрос\"\nМультимодальность в Ollama не поддерживается (проверено на актуальной версии). Для работы с изображениями используйте llama.cpp.\n\n⬇️ Быстрая загрузка всех файлов\nЧтобы скачать модель, mmproj, шаблон и Modelfile одной командой:\n\nbash\ncurl -L -O https://huggingface.co/Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf/resolve/main/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf \\\n     -O https://huggingface.co/Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf/resolve/main/mmproj-Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf \\\n     -O https://huggingface.co/Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf/resolve/main/no-think.jinja \\\n     -O https://huggingface.co/Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf/resolve/main/Modelfile\n⚠️ Ограничения и известные проблемы\nЕдинственная тестовая система: все замеры на GTX 1080. На других GPU поведение может отличаться.\n\nДлинный контекст: модель прошла тест «иголка в стоге сена», но на сложных технических текстах качество не гарантируется.\n\nМультимодальность в Ollama: не работает. Используйте llama.cpp.\n\nКачество на чистом тексте: немного уступает Q3_K_L (WikiText-2), но на смешанных данных с кодом и логикой превосходит его.\n\n❓ FAQ\nQ: Почему выложен только IQ3_XXS, а не Q3_K_L?\nA: Q3_K_L на гибридном домене показал худшее качество при большем размере.\n\nQ: Где взять mmproj?\nA: Файл включён в репозиторий. Также доступен в оригинальном репозитории.\n\nQ: Будет ли модель работать на Windows?\nA: Да, через llama.cpp или LM Studio. Команды адаптируются.\n\n\n\n📄 Лицензия\nApache License 2.0 (соответствует оригинальной модели).\n\n🙏 Благодарности\nHauhauCS — за оригинальную модель.\n\nКоманда llama.cpp — за инструменты квантизации и инференса.\n",
    "related_quantizations": []
  },
  "tags": [
    "llama.cpp",
    "gguf",
    "GGUF",
    "IQ3_XXS",
    "uncensored",
    "Qwen3.5",
    "multimodal",
    "8GB",
    "GTX1080",
    "text-generation",
    "ru",
    "en",
    "code",
    "license:apache-2.0",
    "endpoints_compatible",
    "region:us",
    "imatrix",
    "conversational"
  ],
  "likes": 0,
  "downloads": 519,
  "gated": false,
  "private": false,
  "last_modified": "2026-04-12T08:20:53.000Z",
  "created_at": "2026-04-12T06:19:10.000Z",
  "pipeline_tag": "text-generation",
  "library_name": "llama.cpp"
}
Source payload excerpt (from Hugging Face API)
{
  "_id": "69db395e721d8a24515ebce1",
  "id": "Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf",
  "modelId": "Nic22Of2003/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-IQ3_XXS.gguf",
  "sha": "a5a7842e8e0641d6128d7bfa30997a0b93705c41",
  "createdAt": "2026-04-12T06:19:10.000Z",
  "lastModified": "2026-04-12T08:20:53.000Z",
  "author": "Nic22Of2003",
  "downloads": 519,
  "likes": 0,
  "gated": false,
  "private": false,
  "pipeline_tag": "text-generation",
  "library_name": "llama.cpp",
  "siblings_count": 6
}