jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF overview
jairo/Llama 3.1 70B LatamGPT SFT 1.0 GGUF Este repositorio publica versiones GGUF de latam gpt/Llama 3.1 70B LatamGPT SFT 1.0 https://huggingface.co/latam gpt/…
Runs locally from ~22.46 GB disk (24 GB VRAM class GPUs with llama.cpp / guIDE).
Repository Files & Downloads
| File | Type | Quantization | Size | Link |
|---|---|---|---|---|
| latamgpt-IQ2_M.gguf | GGUF | IQ2_M | 22.46 GB | Download |
| latamgpt-IQ3_M.gguf | GGUF | IQ3_M | 29.74 GB | Download |
| latamgpt-IQ4_NL.gguf | GGUF | IQ4_NL | 37.30 GB | Download |
| latamgpt-IQ4_XS.gguf | GGUF | IQ4_XS | 35.30 GB | Download |
| latamgpt-Q3_K_M.gguf | GGUF | Q3_K_M | 31.91 GB | Download |
| latamgpt-Q4_K_M.gguf | GGUF | Q4_K_M | 39.60 GB | Download |
| latamgpt-Q4_K_S.gguf | GGUF | Q4_K_S | 37.58 GB | Download |
| latamgpt-Q5_K_M.gguf | GGUF | Q5_K_M | 46.52 GB | Download |
| latamgpt-Q5_K_S.gguf | GGUF | Q5_K_S | 45.32 GB | Download |
| latamgpt-Q6_K.gguf | GGUF | Q6_K | 53.91 GB | Download |
| latamgpt-Q8_0.gguf | GGUF | Q8_0 | 69.83 GB | Download |
Model Details
| Model ID | jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF |
|---|---|
| Author | jairo |
| Pipeline | text-generation |
| License | llama3.1 |
| Base model | latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0 |
| Last modified | 2026-06-07T05:21:48.000Z |
Model README
---
license: llama3.1
language:
- en
- es
- pt
library_name: gguf
pipeline_tag: text-generation
base_model: latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0
base_model_relation: quantized
tags:
- gguf
- llama-cpp
- quantized
- imatrix
- latamgpt
- latam-gpt
- latin-america
- latin-america-and-caribbean
- conversational
- llama
- llama-3.1
- text-generation
- spanish
- portuguese
- english
- q8_0
- q6_k
- q5_k_m
- q5_k_s
- q4_k_m
- q4_k_s
- iq4_xs
- iq4_nl
- q3_k_m
- iq3_m
- iq2_m
inference: false
quantized_by: LatamGPT GGUF quantization workflow
---
jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF
Este repositorio publica versiones GGUF de
latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0 para ejecutar LatamGPT con llama.cpp y otros entornos compatibles con GGUF.
No es un fine-tuning nuevo ni una versión reentrenada del modelo. Es una conversión cuantizada del checkpoint SFT de LatamGPT, que a su vez deriva de meta-llama/Llama-3.1-70B.
resumen
El objetivo de este repositorio es simple: publicar LatamGPT en formato GGUF para facilitar pruebas locales o en servidores propios.
El modelo original es parte de LatamGPT, una iniciativa latinoamericana coordinada por CENIA. El crédito por el modelo, el trabajo de datos y la dirección del proyecto corresponde a LatamGPT y sus colaboradores. Este repositorio solo publica los archivos GGUF, junto con sumas de verificación y metadatos básicos para que la publicación sea revisable sin convertir el repositorio en un volcado de build.
Ya se hizo una validación básica de carga y generación. Todavía no hay evaluaciones de calidad ni benchmarks publicados, así que esta publicación no sostiene que una cuantización sea mejor que otra. Las evaluaciones están pendientes.
qué archivo descargar
Como punto de partida general, usa latamgpt-Q4_K_M.gguf.
| Caso | Archivo recomendado | Comentario |
|---|---|---|
| Busco una buena relación entre tamaño y calidad | latamgpt-Q4_K_M.gguf | Es el punto de partida recomendado. |
| Priorizo calidad y tengo más RAM o VRAM disponible | latamgpt-Q5_K_M.gguf, latamgpt-Q6_K.gguf o latamgpt-Q8_0.gguf | Son archivos bastante más grandes. |
| Tengo memoria limitada | latamgpt-IQ4_XS.gguf, latamgpt-Q3_K_M.gguf o latamgpt-IQ3_M.gguf | Evalúalos con tus propios casos antes de usarlos en un flujo relevante. |
| Necesito que quepa en memoria muy limitada | latamgpt-IQ2_M.gguf | Es una cuantización muy agresiva. No se recomienda para producción sin una evaluación propia. |
descarga rápida
hf download jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF \
latamgpt-Q4_K_M.gguf \
--local-dir .
ejemplo con llama.cpp
llama-cli \
-m latamgpt-Q4_K_M.gguf \
--ctx-size 4096 \
--jinja \
--single-turn \
-p "Responde en español: qué es LatamGPT?"
archivos
| Archivo | Quant | Tamaño | SHA256 |
|---|---:|---:|---|
| latamgpt-Q8_0.gguf | Q8_0 | 69.83 GiB | 216cf4c2de09545e7f69972dd8944af701f7d94024edc47322eaf5d68fb96a70 |
| latamgpt-Q6_K.gguf | Q6_K | 53.91 GiB | 6ee4d4f3a767e2066ad487c57f2d55adf755243970a9251c1b76d0d3992ff500 |
| latamgpt-Q5_K_M.gguf | Q5_K_M | 46.52 GiB | c91b3ba6c06e3724237474624dd7068429d40f228adea1bfe453670c902f56f9 |
| latamgpt-Q5_K_S.gguf | Q5_K_S | 45.32 GiB | 6812049985ce484c2fad62c24bf340aa6c79122c374b45e80677913c4eb30dea |
| latamgpt-Q4_K_M.gguf | Q4_K_M | 39.60 GiB | 777f4082f99ac4b48d5c31412d1582384ce53a929024990cd82d8a7dcb82efd1 |
| latamgpt-Q4_K_S.gguf | Q4_K_S | 37.58 GiB | bf65fb7b42a6bce5f41653b54674c25333069f72c6c9327cddabbc5bf1b9e4ea |
| latamgpt-IQ4_XS.gguf | IQ4_XS | 35.30 GiB | 71b3c099944ed26be39d0aa6714f67a0c5a8b60171318bd5993a9b4ff0108a81 |
| latamgpt-IQ4_NL.gguf | IQ4_NL | 37.30 GiB | 475f2865e64eda84bdfecb00ce84c513d14680c1222824653c71e9d0ed0ec6c8 |
| latamgpt-Q3_K_M.gguf | Q3_K_M | 31.91 GiB | dbc69c8b11f35c0db91e66e978ee7ff5d37868b96e16510e9e1b6e63b7f5ca85 |
| latamgpt-IQ3_M.gguf | IQ3_M | 29.74 GiB | f8ac0ce926d2fbf801f066d72bc46ad178a6ad07e45ee18b16172a206479deac |
| latamgpt-IQ2_M.gguf | IQ2_M | 22.46 GiB | 26478308b329981b47145fd31461fd00d280434696df40430abdf921da9368b1 |
validación básica
Por ahora se hizo una validación básica para comprobar que algunos archivos cargan, generan texto y terminan sin errores. No son benchmarks.
Esto no mide razonamiento, factualidad, seguridad, sesgos ni rendimiento por tarea. Las evaluaciones de calidad, perplejidad, InspectAI y comparaciones con otros modelos están pendientes.
| Archivo / prueba | Estado | Qué significa |
|---|---|---|
| Q4_K_M con prompt en español | OK | Carga y genera texto con llama-cli --jinja --single-turn. |
| IQ3_M con prompt en portugués | OK | Carga y genera texto. |
| IQ2_M con prueba de finalización | OK | Carga y termina correctamente, pero la calidad puede degradarse de forma significativa. |
| Q8_0 con prompt en inglés | OK | Carga y genera texto. |
| Perplejidad | Pendiente | Está pendiente de ejecución. |
| InspectAI y comparaciones más completas | Pendiente | Todavía no hay resultados comparativos publicados. |
El resumen está en metadata/latamgpt-smoke-summary.tsv.
límites
- La cuantización puede cambiar el comportamiento del modelo. Cuanto más pequeño sea el archivo, más probable es que pierda calidad.
IQ2_Mexiste para casos de memoria muy limitada. Puede repetir contenido, fallar con más frecuencia o producir respuestas de menor calidad.- Estas pruebas no miden factualidad, sesgos, seguridad, razonamiento ni calidad por tarea.
- Antes de usarlo en producción, evalúalo con tus propios datos y casos de uso.
- No debe usarse como única base para tomar decisiones en salud, finanzas, justicia, seguridad pública, educación, empleo u otros contextos sensibles.
- Este repositorio no incluye filtros de seguridad, monitoreo, RAG ni controles adicionales propios de una aplicación.
para qué sirve
- Probar LatamGPT localmente con GGUF.
- Crear prototipos o demostraciones con
llama.cppy herramientas compatibles. - Comparar cuantizaciones con tus propios prompts.
- Revisar o reproducir el proceso de conversión y cuantización.
usos no recomendados sin trabajo adicional
- Como reemplazo de evaluaciones rigurosas.
- Como sistema listo para producción sin controles adicionales.
- Como evidencia de que LatamGPT supera a otros modelos. Esas evaluaciones están pendientes.
datos de calibración
Estos datos se usaron únicamente para generar la matriz de importancia de la cuantización. No son datos de evaluación y, por sí solos, no permiten inferir la calidad final del modelo.
| Fuente | Registros |
|---|---:|
| CohereForAI/aya_dataset | 600 |
| FreedomIntelligence/alpaca-gpt4-spanish | 200 |
| HuggingFaceH4/ultrachat_200k | 200 |
| Idioma | Registros |
|---|---:|
| spa | 400 |
| por | 200 |
| eng | 400 |
Total de registros de calibración: 1000.
Total de caracteres de calibración: 1750246.
fuentes
- Modelo fuente:
latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0 - Proyecto LatamGPT: https://www.latamgpt.org/en
llama.cpp: https://github.com/ggml-org/llama.cpp- Esta publicación GGUF: https://huggingface.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF
agradecimientos
El modelo original, la dirección del proyecto, el trabajo de datos y la colaboración regional son de LatamGPT y sus colaboradores.
LatamGPT es coordinado por CENIA. Según las preguntas frecuentes oficiales, el proyecto involucra a casi 200 profesionales y más de 65 instituciones de 15 países. Este repositorio no busca reemplazar el trabajo original ni presentarlo como propio. Solo publica una versión GGUF no oficial para facilitar pruebas con herramientas compatibles.
También se basa en:
- El checkpoint original de LatamGPT.
- Meta Llama 3.1 y sus términos de licencia.
llama.cppy el ecosistema GGUF.- Los conjuntos de datos públicos usados para calibración, listados arriba y en
metadata/latamgpt_calibration_manifest.json.
notas técnicas
- El checkpoint original tenía
config.vocab_size=128256, longitud del tokenizer128257e ID del token PAD128256. - La versión publicada usa
vocab_size=128257y una fila adicional de ceros enmodel.embed_tokens.weightylm_head.weightpara que el tokenizer, la configuración y los tensores queden alineados. - La configuración fuente genera una advertencia de RoPE en Transformers porque
original_max_position_embeddingses igual amax_position_embeddingsen4096. - El conversor GGUF informó sobre un token separador desconocido
<|begin_of_text|>enTemplateProcessing<pair>.
licencia
El modelo fuente está marcado como license:llama3.1. Aplican los términos y restricciones de uso de Llama 3.1.
Esta publicación solo redistribuye derivados cuantizados en formato GGUF del checkpoint de LatamGPT. No cambia la licencia del modelo fuente, los requisitos de atribución ni las obligaciones asociadas a LatamGPT o a Llama 3.1.
Consulta también:
- Modelo original: https://huggingface.co/latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0
- Licencia Llama 3.1: https://www.llama.com/llama3_1/license/
Run jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with guIDE
Download guIDE — the AI-native code editor with local LLM inference and 69 built-in tools.
Source: Hugging Face · Compare models