GraySoft
Projects Models Compare Cloud benchmarks FAQ Download guIDE →
Model Intelligence Sheet

jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF overview

jairo/Llama 3.1 70B LatamGPT SFT 1.0 GGUF Este repositorio publica versiones GGUF de latam gpt/Llama 3.1 70B LatamGPT SFT 1.0 https://huggingface.co/latam gpt/…

ggufllama-cppquantizedimatrixlatamgptlatam-gptlatin-americalatin-america-and-caribbeanconversationalllamallama-3.1text-generationspanishportugueseenglishq8_0q6_kq5_k_mq5_k_sq4_k_mq4_k_siq4_xsiq4_nlq3_k_m

Runs locally from ~22.46 GB disk (24 GB VRAM class GPUs with llama.cpp / guIDE).

Downloads
0
Likes
0
Pipeline
text-generation
Author

Repository Files & Downloads

11 GGUF files detected
Direct downloads for local inference
FileTypeQuantizationSizeLink
latamgpt-IQ2_M.ggufGGUFIQ2_M22.46 GBDownload
latamgpt-IQ3_M.ggufGGUFIQ3_M29.74 GBDownload
latamgpt-IQ4_NL.ggufGGUFIQ4_NL37.30 GBDownload
latamgpt-IQ4_XS.ggufGGUFIQ4_XS35.30 GBDownload
latamgpt-Q3_K_M.ggufGGUFQ3_K_M31.91 GBDownload
latamgpt-Q4_K_M.ggufGGUFQ4_K_M39.60 GBDownload
latamgpt-Q4_K_S.ggufGGUFQ4_K_S37.58 GBDownload
latamgpt-Q5_K_M.ggufGGUFQ5_K_M46.52 GBDownload
latamgpt-Q5_K_S.ggufGGUFQ5_K_S45.32 GBDownload
latamgpt-Q6_K.ggufGGUFQ6_K53.91 GBDownload
latamgpt-Q8_0.ggufGGUFQ8_069.83 GBDownload

Model Details

Model IDjairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF
Authorjairo
Pipelinetext-generation
Licensellama3.1
Base modellatam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0
Last modified2026-06-07T05:21:48.000Z

Model README

---

license: llama3.1

language:

- en

- es

- pt

library_name: gguf

pipeline_tag: text-generation

base_model: latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0

base_model_relation: quantized

tags:

- gguf

- llama-cpp

- quantized

- imatrix

- latamgpt

- latam-gpt

- latin-america

- latin-america-and-caribbean

- conversational

- llama

- llama-3.1

- text-generation

- spanish

- portuguese

- english

- q8_0

- q6_k

- q5_k_m

- q5_k_s

- q4_k_m

- q4_k_s

- iq4_xs

- iq4_nl

- q3_k_m

- iq3_m

- iq2_m

inference: false

quantized_by: LatamGPT GGUF quantization workflow

---

jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF

Este repositorio publica versiones GGUF de

latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0 para ejecutar LatamGPT con llama.cpp y otros entornos compatibles con GGUF.

No es un fine-tuning nuevo ni una versión reentrenada del modelo. Es una conversión cuantizada del checkpoint SFT de LatamGPT, que a su vez deriva de meta-llama/Llama-3.1-70B.

resumen

El objetivo de este repositorio es simple: publicar LatamGPT en formato GGUF para facilitar pruebas locales o en servidores propios.

El modelo original es parte de LatamGPT, una iniciativa latinoamericana coordinada por CENIA. El crédito por el modelo, el trabajo de datos y la dirección del proyecto corresponde a LatamGPT y sus colaboradores. Este repositorio solo publica los archivos GGUF, junto con sumas de verificación y metadatos básicos para que la publicación sea revisable sin convertir el repositorio en un volcado de build.

Ya se hizo una validación básica de carga y generación. Todavía no hay evaluaciones de calidad ni benchmarks publicados, así que esta publicación no sostiene que una cuantización sea mejor que otra. Las evaluaciones están pendientes.

qué archivo descargar

Como punto de partida general, usa latamgpt-Q4_K_M.gguf.

| Caso | Archivo recomendado | Comentario |

|---|---|---|

| Busco una buena relación entre tamaño y calidad | latamgpt-Q4_K_M.gguf | Es el punto de partida recomendado. |

| Priorizo calidad y tengo más RAM o VRAM disponible | latamgpt-Q5_K_M.gguf, latamgpt-Q6_K.gguf o latamgpt-Q8_0.gguf | Son archivos bastante más grandes. |

| Tengo memoria limitada | latamgpt-IQ4_XS.gguf, latamgpt-Q3_K_M.gguf o latamgpt-IQ3_M.gguf | Evalúalos con tus propios casos antes de usarlos en un flujo relevante. |

| Necesito que quepa en memoria muy limitada | latamgpt-IQ2_M.gguf | Es una cuantización muy agresiva. No se recomienda para producción sin una evaluación propia. |

descarga rápida

hf download jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF \
  latamgpt-Q4_K_M.gguf \
  --local-dir .

ejemplo con llama.cpp

llama-cli \
  -m latamgpt-Q4_K_M.gguf \
  --ctx-size 4096 \
  --jinja \
  --single-turn \
  -p "Responde en español: qué es LatamGPT?"

archivos

| Archivo | Quant | Tamaño | SHA256 |

|---|---:|---:|---|

| latamgpt-Q8_0.gguf | Q8_0 | 69.83 GiB | 216cf4c2de09545e7f69972dd8944af701f7d94024edc47322eaf5d68fb96a70 |

| latamgpt-Q6_K.gguf | Q6_K | 53.91 GiB | 6ee4d4f3a767e2066ad487c57f2d55adf755243970a9251c1b76d0d3992ff500 |

| latamgpt-Q5_K_M.gguf | Q5_K_M | 46.52 GiB | c91b3ba6c06e3724237474624dd7068429d40f228adea1bfe453670c902f56f9 |

| latamgpt-Q5_K_S.gguf | Q5_K_S | 45.32 GiB | 6812049985ce484c2fad62c24bf340aa6c79122c374b45e80677913c4eb30dea |

| latamgpt-Q4_K_M.gguf | Q4_K_M | 39.60 GiB | 777f4082f99ac4b48d5c31412d1582384ce53a929024990cd82d8a7dcb82efd1 |

| latamgpt-Q4_K_S.gguf | Q4_K_S | 37.58 GiB | bf65fb7b42a6bce5f41653b54674c25333069f72c6c9327cddabbc5bf1b9e4ea |

| latamgpt-IQ4_XS.gguf | IQ4_XS | 35.30 GiB | 71b3c099944ed26be39d0aa6714f67a0c5a8b60171318bd5993a9b4ff0108a81 |

| latamgpt-IQ4_NL.gguf | IQ4_NL | 37.30 GiB | 475f2865e64eda84bdfecb00ce84c513d14680c1222824653c71e9d0ed0ec6c8 |

| latamgpt-Q3_K_M.gguf | Q3_K_M | 31.91 GiB | dbc69c8b11f35c0db91e66e978ee7ff5d37868b96e16510e9e1b6e63b7f5ca85 |

| latamgpt-IQ3_M.gguf | IQ3_M | 29.74 GiB | f8ac0ce926d2fbf801f066d72bc46ad178a6ad07e45ee18b16172a206479deac |

| latamgpt-IQ2_M.gguf | IQ2_M | 22.46 GiB | 26478308b329981b47145fd31461fd00d280434696df40430abdf921da9368b1 |

validación básica

Por ahora se hizo una validación básica para comprobar que algunos archivos cargan, generan texto y terminan sin errores. No son benchmarks.

Esto no mide razonamiento, factualidad, seguridad, sesgos ni rendimiento por tarea. Las evaluaciones de calidad, perplejidad, InspectAI y comparaciones con otros modelos están pendientes.

| Archivo / prueba | Estado | Qué significa |

|---|---|---|

| Q4_K_M con prompt en español | OK | Carga y genera texto con llama-cli --jinja --single-turn. |

| IQ3_M con prompt en portugués | OK | Carga y genera texto. |

| IQ2_M con prueba de finalización | OK | Carga y termina correctamente, pero la calidad puede degradarse de forma significativa. |

| Q8_0 con prompt en inglés | OK | Carga y genera texto. |

| Perplejidad | Pendiente | Está pendiente de ejecución. |

| InspectAI y comparaciones más completas | Pendiente | Todavía no hay resultados comparativos publicados. |

El resumen está en metadata/latamgpt-smoke-summary.tsv.

límites

  • La cuantización puede cambiar el comportamiento del modelo. Cuanto más pequeño sea el archivo, más probable es que pierda calidad.
  • IQ2_M existe para casos de memoria muy limitada. Puede repetir contenido, fallar con más frecuencia o producir respuestas de menor calidad.
  • Estas pruebas no miden factualidad, sesgos, seguridad, razonamiento ni calidad por tarea.
  • Antes de usarlo en producción, evalúalo con tus propios datos y casos de uso.
  • No debe usarse como única base para tomar decisiones en salud, finanzas, justicia, seguridad pública, educación, empleo u otros contextos sensibles.
  • Este repositorio no incluye filtros de seguridad, monitoreo, RAG ni controles adicionales propios de una aplicación.

para qué sirve

  • Probar LatamGPT localmente con GGUF.
  • Crear prototipos o demostraciones con llama.cpp y herramientas compatibles.
  • Comparar cuantizaciones con tus propios prompts.
  • Revisar o reproducir el proceso de conversión y cuantización.

usos no recomendados sin trabajo adicional

  • Como reemplazo de evaluaciones rigurosas.
  • Como sistema listo para producción sin controles adicionales.
  • Como evidencia de que LatamGPT supera a otros modelos. Esas evaluaciones están pendientes.

datos de calibración

Estos datos se usaron únicamente para generar la matriz de importancia de la cuantización. No son datos de evaluación y, por sí solos, no permiten inferir la calidad final del modelo.

| Fuente | Registros |

|---|---:|

| CohereForAI/aya_dataset | 600 |

| FreedomIntelligence/alpaca-gpt4-spanish | 200 |

| HuggingFaceH4/ultrachat_200k | 200 |

| Idioma | Registros |

|---|---:|

| spa | 400 |

| por | 200 |

| eng | 400 |

Total de registros de calibración: 1000.

Total de caracteres de calibración: 1750246.

fuentes

  • Modelo fuente: latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0
  • Proyecto LatamGPT: https://www.latamgpt.org/en
  • llama.cpp: https://github.com/ggml-org/llama.cpp
  • Esta publicación GGUF: https://huggingface.co/jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF

agradecimientos

El modelo original, la dirección del proyecto, el trabajo de datos y la colaboración regional son de LatamGPT y sus colaboradores.

LatamGPT es coordinado por CENIA. Según las preguntas frecuentes oficiales, el proyecto involucra a casi 200 profesionales y más de 65 instituciones de 15 países. Este repositorio no busca reemplazar el trabajo original ni presentarlo como propio. Solo publica una versión GGUF no oficial para facilitar pruebas con herramientas compatibles.

También se basa en:

  • El checkpoint original de LatamGPT.
  • Meta Llama 3.1 y sus términos de licencia.
  • llama.cpp y el ecosistema GGUF.
  • Los conjuntos de datos públicos usados para calibración, listados arriba y en metadata/latamgpt_calibration_manifest.json.

notas técnicas

  • El checkpoint original tenía config.vocab_size=128256, longitud del tokenizer 128257 e ID del token PAD 128256.
  • La versión publicada usa vocab_size=128257 y una fila adicional de ceros en model.embed_tokens.weight y lm_head.weight para que el tokenizer, la configuración y los tensores queden alineados.
  • La configuración fuente genera una advertencia de RoPE en Transformers porque original_max_position_embeddings es igual a max_position_embeddings en 4096.
  • El conversor GGUF informó sobre un token separador desconocido <|begin_of_text|> en TemplateProcessing<pair>.

licencia

El modelo fuente está marcado como license:llama3.1. Aplican los términos y restricciones de uso de Llama 3.1.

Esta publicación solo redistribuye derivados cuantizados en formato GGUF del checkpoint de LatamGPT. No cambia la licencia del modelo fuente, los requisitos de atribución ni las obligaciones asociadas a LatamGPT o a Llama 3.1.

Consulta también:

  • Modelo original: https://huggingface.co/latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0
  • Licencia Llama 3.1: https://www.llama.com/llama3_1/license/

Run jairo/Llama-3.1-70B-LatamGPT-SFT-1.0-GGUF with guIDE

Download guIDE — the AI-native code editor with local LLM inference and 69 built-in tools.

Download guIDE → · Browse 524k+ models · Compare models

Source: Hugging Face · Compare models