What license applies to Brunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf?

License: apache-2.0. Verify terms on Hugging Face before commercial use.

Model Intelligence Sheet

Brunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf overview

Q: How do I run Brunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf locally?

Download a GGUF file from this page and load it in guIDE or llama.cpp. Pipeline task: image-text-to-text.

Q: How much VRAM or disk space does Brunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf need?

Runs locally from ~13.73 GB disk (16 GB VRAM class GPUs with llama.cpp / guIDE).

<p align="center" <img src="https://huggingface.co/Brunobkr/OFFELLIA DiffusionGemma 26B A4B it/resolve/main/front.png" alt="ΩFFΣLLIα × DiffusionGemma" width="1…

safetensorsggufgemmagemma4diffusiongemmagooglemultimodalvisionmoemixture-of-expertsdiffusionconversationaloffselliaimage-text-to-textenptdeesfritjazhbase_model:google/diffusiongemma-26B-A4B-itbase_model:quantized:google/diffusiongemma-26B-A4B-it

Runs locally from ~13.73 GB disk (16 GB VRAM class GPUs with llama.cpp / guIDE).

Downloads

Likes

Pipeline

image-text-to-text

Author

Brunobkr

Repository Files & Downloads

1 GGUF files detected

Direct downloads for local inference

File	Type	Quantization	Size	Link
ΩFFΣLLIα_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf	GGUF	GGUF	13.73 GB	Download

Model Details

Model ID	Brunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf
Author	Brunobkr
Pipeline	image-text-to-text
License	apache-2.0
Base model	google/diffusiongemma-26B-A4B-it
Last modified	2026-06-10T22:02:29.000Z

Model README

---

license: apache-2.0

base_model: google/diffusiongemma-26B-A4B-it

base_model_relation: quantized

pipeline_tag: image-text-to-text

library_name: safetensors

quantized_by: Brunobkr

language:

tags:

gemma
gemma4
diffusiongemma
google
multimodal
vision
moe
mixture-of-experts
diffusion
conversational
offsellia

---

</p>

ΩFFΣLLIα_DiffusionGemma-26B-A4B-it

Derivado do modelo oficial da Google google/diffusiongemma-26B-A4B-it, otimizado para inferência local e fluxos de trabalho multimodais.

Este é um modelo derivado. Todos os créditos de pesos e arquitetura pertencem ao Google DeepMind.

📌 Visão geral

| Item | Valor |

| --- | --- |

| Nome do modelo | ΩFFΣLLIα_DiffusionGemma-26B-A4B-it |

| Formato | Safetensors (BF16) |

| Arquitetura | DiffusionGemma (MoE encoder-decoder, difusão discreta) |

| Parâmetros totais | 25.2B |

| Parâmetros ativos | 3.8B (por token) |

| Especialistas (Experts) | 8 ativos / 128 totais + 1 compartilhado |

| Camadas | 30 |

| Sliding window | 1024 tokens |

| Contexto máximo | 256K tokens |

| Canvas de geração | 256 tokens |

| Vocabulário | 262K |

| Vision Encoder | ~550M parâmetros |

| Modalidades | Texto, Imagem, Vídeo (como frames) |

| Modelo base | google/diffusiongemma-26B-A4B-it |

| Autores | Google DeepMind |

| Licença | Apache 2.0 (Gemma 4 License) |

🌐 Idiomas suportados

Suporte nativo para mais de 35 idiomas, pré-treinado em mais de 140 línguas.

Tags principais: Inglês, Português, Alemão, Espanhol, Francês, Italiano, Japonês e Chinês.

(en, pt, de, es, fr, it, ja, zh)

🧠 Sobre o DiffusionGemma 26B-A4B

O DiffusionGemma é um modelo generativo multimodal construído pela Google DeepMind sobre a arquitetura Gemma 4 26B A4B Mixture-of-Experts (MoE), utilizando difusão discreta para geração de tokens. Diferente de modelos autoregressivos tradicionais, ele gera texto por meio de multi-canvas sampling — denoising iterativo de blocos de 256 tokens em paralelo, o que reduz drasticamente os gargalos sequenciais e acelera a inferência.

A arquitetura é composta por:

Encoder autoregressivo — processa o prompt e gera o KV cache (prefill).
Decoder com atenção bidirecional — opera sobre o canvas de geração, acessando o contexto via cross-attention.
MoE esparso — 8 de 128 especialistas ativados por token, combinando alta capacidade de raciocínio com baixo footprint de memória.

Capacidades principais

Geração de alta velocidade — denoising paralelo de 256 tokens via difusão, alcançando 15–20 tokens por forward pass e velocidades superiores a 1100 tokens/s em batch-size reduzido (H100, FP8).
Inferência adaptativa — prompts simples e tarefas estruturadas (ex.: código) requerem menos passos de denoising, ajustando dinamicamente a velocidade conforme a complexidade da tarefa.
Thinking (Raciocínio) — modo de raciocínio passo a passo configurável via token <|think|>.
Long context — janela de até 256K tokens.
Visão — detecção de objetos, OCR multilíngue, parsing de documentos/PDF, gráficos, UI, reconhecimento de caligrafia e apontamento. Suporta aspect ratios e resoluções variáveis.
Vídeo — análise de conteúdo de vídeo processando sequências de frames (até 60 segundos a 1 fps).
Entrada multimodal entrelaçada — imagens, vídeo e texto podem ser combinados em um único prompt.
Function calling — suporte nativo a uso de ferramentas para fluxos agênticos.
Código e raciocínio — geração, completação e raciocínio lógico passo a passo.
System prompt nativo — suporte ao papel system para conversas mais controláveis.

📊 Benchmarks (DiffusionGemma 26B A4B instruction-tuned)

| Benchmark | DiffusionGemma 26B A4B |

| --- | --- |

| MMLU Pro | 77.6% |

| AIME 2026 (sem tools) | 69.1% |

| LiveCodeBench v6 | 69.1% |

| Codeforces ELO | 1429 |

| GPQA Diamond | 73.2% |

| HLE (sem tools) | 11.0% |

| HLE (com search) | 11.9% |

| BigBench Extra Hard | 47.6% |

| MMMLU | 81.5% |

| MMMU Pro (visão) | 54.3% |

| MATH-Vision | 70.5% |

| MedXPertQA MM | 49.0% |

| MRCR v2 8 needle 128k (média) | 32.0% |

🚀 Uso rápido com Transformers

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# Carregar modelo
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

# Prompt
message = [
    {"role": "user", "content": "Explique a teoria dos números primos."}
]

# Processar entrada
input_ids = processor.apply_chat_template(
    message,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

output = model.generate(**input_ids, max_new_tokens=512)

# Decodificar saída
text = processor.decode(output[0], skip_special_tokens=False)
print(text)

Parâmetros recomendados de amostragem por difusão

Método: Diffusion sampling com Entropy-Bounded Denoising e Adaptive Stopping.
Máximo de passos de denoising: 48.
Temperatura: decaimento linear de 0.8 → 0.4.
Entropy bound: 0.1 (seleção de tokens de menor entropia por passo).
Adaptive Stopping: encerra quando a entropia média do canvas < 0.005 e as previsões de maior probabilidade permanecem idênticas entre dois passos consecutivos.

Modo de raciocínio (thinking)

Habilitado incluindo o token <|think|> no início do system prompt; remova o token para desativar. Bibliotecas como Transformers cuidam das complexidades do chat template automaticamente.

Ordem das modalidades

Para melhor desempenho com entradas multimodais, coloque imagens antes do texto no prompt.

Resolução variável de imagem

Orçamentos de tokens visuais suportados: 70, 140, 280, 560 e 1120.

Use orçamentos menores para classificação, legendagem ou vídeo (mais velocidade).
Use orçamentos maiores para OCR, parsing de documentos ou leitura de texto pequeno.

🎯 Casos de uso

Geração de texto, chatbots e IA conversacional, sumarização, extração de dados de imagens, análise de vídeo, pesquisa em NLP/VLM, ferramentas educacionais, agentes com function calling e aplicações que demandam alta velocidade de geração com baixa latência.

⚖️ Licença e termos

O uso é regido pela Gemma 4 License / Apache 2.0.

Recomenda-se seguir o Responsible Generative AI Toolkit e implementar salvaguardas de segurança adequadas ao seu caso de uso.

📚 Referências

Modelo oficial: https://huggingface.co/google/diffusiongemma-26B-A4B-it
Coleção Gemma 4: https://huggingface.co/collections/google/gemma-4
GitHub: https://github.com/google-gemma
Documentação: https://ai.google.dev/gemma/docs/core
Blog de lançamento: https://developers.googleblog.com/diffusiongemma-the-developer-guide/

🙏 Créditos

Modelo original: Google DeepMind
Derivação e adaptação: Brunobkr (ΩFFΣLLIα)

Run Brunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf with guIDE

Download guIDE — the AI-native code editor with local LLM inference and 69 built-in tools.

Download guIDE → · Browse 524k+ models · Compare models

Source: Hugging Face · Compare models