GraySoft
Projects Models Compare Cloud benchmarks FAQ Download guIDE →
Model Intelligence Sheet

Brunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf overview

<p align="center" <img src="https://huggingface.co/Brunobkr/OFFELLIA DiffusionGemma 26B A4B it/resolve/main/front.png" alt="ΩFFΣLLIα × DiffusionGemma" width="1…

safetensorsggufgemmagemma4diffusiongemmagooglemultimodalvisionmoemixture-of-expertsdiffusionconversationaloffselliaimage-text-to-textenptdeesfritjazhbase_model:google/diffusiongemma-26B-A4B-itbase_model:quantized:google/diffusiongemma-26B-A4B-it

Runs locally from ~13.73 GB disk (16 GB VRAM class GPUs with llama.cpp / guIDE).

Downloads
0
Likes
0
Pipeline
image-text-to-text
Author

Repository Files & Downloads

1 GGUF files detected
Direct downloads for local inference
FileTypeQuantizationSizeLink
ΩFFΣLLIα_MXFP4_MOE_diffusiongemma-26B-A4B-it.ggufGGUFGGUF13.73 GBDownload

Model Details

Model IDBrunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf
AuthorBrunobkr
Pipelineimage-text-to-text
Licenseapache-2.0
Base modelgoogle/diffusiongemma-26B-A4B-it
Last modified2026-06-10T22:02:29.000Z

Model README

---

license: apache-2.0

base_model: google/diffusiongemma-26B-A4B-it

base_model_relation: quantized

pipeline_tag: image-text-to-text

library_name: safetensors

quantized_by: Brunobkr

language:

  • en
  • pt
  • de
  • es
  • fr
  • it
  • ja
  • zh

tags:

  • gemma
  • gemma4
  • diffusiongemma
  • google
  • multimodal
  • vision
  • moe
  • mixture-of-experts
  • diffusion
  • conversational
  • offsellia

---

<p align="center">

<img src="https://huggingface.co/Brunobkr/OFFELLIA_DiffusionGemma_26B_A4B_it/resolve/main/front.png" alt="ΩFFΣLLIα × DiffusionGemma" width="100%"/>

</p>

ΩFFΣLLIα_DiffusionGemma-26B-A4B-it

Derivado do modelo oficial da Google google/diffusiongemma-26B-A4B-it, otimizado para inferência local e fluxos de trabalho multimodais.

Este é um modelo derivado. Todos os créditos de pesos e arquitetura pertencem ao Google DeepMind.

📌 Visão geral

| Item | Valor |

| --- | --- |

| Nome do modelo | ΩFFΣLLIα_DiffusionGemma-26B-A4B-it |

| Formato | Safetensors (BF16) |

| Arquitetura | DiffusionGemma (MoE encoder-decoder, difusão discreta) |

| Parâmetros totais | 25.2B |

| Parâmetros ativos | 3.8B (por token) |

| Especialistas (Experts) | 8 ativos / 128 totais + 1 compartilhado |

| Camadas | 30 |

| Sliding window | 1024 tokens |

| Contexto máximo | 256K tokens |

| Canvas de geração | 256 tokens |

| Vocabulário | 262K |

| Vision Encoder | ~550M parâmetros |

| Modalidades | Texto, Imagem, Vídeo (como frames) |

| Modelo base | google/diffusiongemma-26B-A4B-it |

| Autores | Google DeepMind |

| Licença | Apache 2.0 (Gemma 4 License) |

🌐 Idiomas suportados

Suporte nativo para mais de 35 idiomas, pré-treinado em mais de 140 línguas.

Tags principais: Inglês, Português, Alemão, Espanhol, Francês, Italiano, Japonês e Chinês.

(en, pt, de, es, fr, it, ja, zh)

🧠 Sobre o DiffusionGemma 26B-A4B

O DiffusionGemma é um modelo generativo multimodal construído pela Google DeepMind sobre a arquitetura Gemma 4 26B A4B Mixture-of-Experts (MoE), utilizando difusão discreta para geração de tokens. Diferente de modelos autoregressivos tradicionais, ele gera texto por meio de multi-canvas sampling — denoising iterativo de blocos de 256 tokens em paralelo, o que reduz drasticamente os gargalos sequenciais e acelera a inferência.

A arquitetura é composta por:

  • Encoder autoregressivo — processa o prompt e gera o KV cache (prefill).
  • Decoder com atenção bidirecional — opera sobre o canvas de geração, acessando o contexto via cross-attention.
  • MoE esparso — 8 de 128 especialistas ativados por token, combinando alta capacidade de raciocínio com baixo footprint de memória.

Capacidades principais

  • Geração de alta velocidade — denoising paralelo de 256 tokens via difusão, alcançando 15–20 tokens por forward pass e velocidades superiores a 1100 tokens/s em batch-size reduzido (H100, FP8).
  • Inferência adaptativa — prompts simples e tarefas estruturadas (ex.: código) requerem menos passos de denoising, ajustando dinamicamente a velocidade conforme a complexidade da tarefa.
  • Thinking (Raciocínio) — modo de raciocínio passo a passo configurável via token <|think|>.
  • Long context — janela de até 256K tokens.
  • Visão — detecção de objetos, OCR multilíngue, parsing de documentos/PDF, gráficos, UI, reconhecimento de caligrafia e apontamento. Suporta aspect ratios e resoluções variáveis.
  • Vídeo — análise de conteúdo de vídeo processando sequências de frames (até 60 segundos a 1 fps).
  • Entrada multimodal entrelaçada — imagens, vídeo e texto podem ser combinados em um único prompt.
  • Function calling — suporte nativo a uso de ferramentas para fluxos agênticos.
  • Código e raciocínio — geração, completação e raciocínio lógico passo a passo.
  • System prompt nativo — suporte ao papel system para conversas mais controláveis.

📊 Benchmarks (DiffusionGemma 26B A4B instruction-tuned)

| Benchmark | DiffusionGemma 26B A4B |

| --- | --- |

| MMLU Pro | 77.6% |

| AIME 2026 (sem tools) | 69.1% |

| LiveCodeBench v6 | 69.1% |

| Codeforces ELO | 1429 |

| GPQA Diamond | 73.2% |

| HLE (sem tools) | 11.0% |

| HLE (com search) | 11.9% |

| BigBench Extra Hard | 47.6% |

| MMMLU | 81.5% |

| MMMU Pro (visão) | 54.3% |

| MATH-Vision | 70.5% |

| MedXPertQA MM | 49.0% |

| MRCR v2 8 needle 128k (média) | 32.0% |

🚀 Uso rápido com Transformers

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# Carregar modelo
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

# Prompt
message = [
    {"role": "user", "content": "Explique a teoria dos números primos."}
]

# Processar entrada
input_ids = processor.apply_chat_template(
    message,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

output = model.generate(**input_ids, max_new_tokens=512)

# Decodificar saída
text = processor.decode(output[0], skip_special_tokens=False)
print(text)

Parâmetros recomendados de amostragem por difusão

  • Método: Diffusion sampling com Entropy-Bounded Denoising e Adaptive Stopping.
  • Máximo de passos de denoising: 48.
  • Temperatura: decaimento linear de 0.8 → 0.4.
  • Entropy bound: 0.1 (seleção de tokens de menor entropia por passo).
  • Adaptive Stopping: encerra quando a entropia média do canvas < 0.005 e as previsões de maior probabilidade permanecem idênticas entre dois passos consecutivos.

Modo de raciocínio (thinking)

Habilitado incluindo o token <|think|> no início do system prompt; remova o token para desativar. Bibliotecas como Transformers cuidam das complexidades do chat template automaticamente.

Ordem das modalidades

Para melhor desempenho com entradas multimodais, coloque imagens antes do texto no prompt.

Resolução variável de imagem

Orçamentos de tokens visuais suportados: 70, 140, 280, 560 e 1120.

  • Use orçamentos menores para classificação, legendagem ou vídeo (mais velocidade).
  • Use orçamentos maiores para OCR, parsing de documentos ou leitura de texto pequeno.

🎯 Casos de uso

Geração de texto, chatbots e IA conversacional, sumarização, extração de dados de imagens, análise de vídeo, pesquisa em NLP/VLM, ferramentas educacionais, agentes com function calling e aplicações que demandam alta velocidade de geração com baixa latência.

⚖️ Licença e termos

O uso é regido pela Gemma 4 License / Apache 2.0.

Recomenda-se seguir o Responsible Generative AI Toolkit e implementar salvaguardas de segurança adequadas ao seu caso de uso.

📚 Referências

  • Modelo oficial: https://huggingface.co/google/diffusiongemma-26B-A4B-it
  • Coleção Gemma 4: https://huggingface.co/collections/google/gemma-4
  • GitHub: https://github.com/google-gemma
  • Documentação: https://ai.google.dev/gemma/docs/core
  • Blog de lançamento: https://developers.googleblog.com/diffusiongemma-the-developer-guide/

🙏 Créditos

  • Modelo original: Google DeepMind
  • Derivação e adaptação: Brunobkr (ΩFFΣLLIα)

Run Brunobkr/OFFELLIA_MXFP4_MOE_diffusiongemma-26B-A4B-it.gguf with guIDE

Download guIDE — the AI-native code editor with local LLM inference and 69 built-in tools.

Download guIDE → · Browse 524k+ models · Compare models

Source: Hugging Face · Compare models