Mach Platz LLaMA: Tencents neues Open LLM ist bereit für Self-Hosting

Jonas Scholz

7 min

Tencent hat gerade ein neues Open-Source-Modell namens Hunyuan-A13B-Instruct veröffentlicht. Es hat offene Gewichte (nicht sicher über den Code) und läuft lokal (naja, wenn du eine B200 GPU hast). Wenn du neugierig bist, wie es funktioniert, und es selbst ausprobieren möchtest, erfährst du hier, wie du es in wenigen Minuten auf einer gemieteten GPU einrichtest.

Was ist Hunyuan-A13B?

Hunyuan-A13B ist ein Mixture-of-Experts (MoE)-Modell mit 80 Milliarden Gesamtparametern, von denen jedoch nur 13 Milliarden aktiv sind. Das bedeutet, dass die Inferenz viel günstiger ist als bei einem vollen dichten Modell.

Mixture-of-Experts (MoE) ist eine neuronale Netzwerkarchitektur, bei der nur ein Teil der spezialisierten "Expert"-Sub-Netzwerke für jede Eingabe aktiviert wird, was die Rechenleistung reduziert und die Modellkapazität erhöht. Ein Gate-Mechanismus wählt dynamisch aus, welche Experten basierend auf der Eingabe verwendet werden, sodass das Modell effizient skalieren kann, ohne immer alle Parameter zu verwenden.

Einige Highlights:

Unterstützt 256k Kontext von Haus aus
Schnelle und langsame Denkmuster
Grouped Query Attention (GQA) für effizientere Inferenz
Agentenorientierte Feinabstimmung, mit Benchmark-Ergebnissen auf BFCL-v3 und τ-Bench
Quantisierungsunterstützung, einschließlich GPTQ

Bisher sieht es wie ein solider Kandidat für lokale Experimente aus, besonders für langanhaltende oder agentenähnliche Aufgaben. Ich teste noch, wie es im Vergleich zu anderen Modellen wie LLaMA 3, Mixtral und Claude 3 abschneidet.

Schritt 1: Erstelle eine RunPod Instanz

Der einfachste Weg, es auszuprobieren, ist RunPod (Dieser Link gibt dir zwischen $5 und $500 Credits!). Du benötigst:

Ein 300 GB Netzwerkvolumen
Eine B200 GPU (ich glaube nicht, dass weniger funktioniert, du benötigst ~150GB VRAM)
Ein unterstütztes PyTorch-Image

Erstelle ein Netzwerkvolumen

Region: nutze eine, wo B200 verfügbar ist (derzeit eu-ro-1)
Größe: 300 GB
Kosten: ca. $21/Monat (abrechnung auch wenn ungenutzt)

Erstelle ein Pod

GPU-Typ: B200
Image: runpod/pytorch:2.8.0-py3.11-cuda12.8.1-cudnn-devel-ubuntu22.04 ⚠️ Frühere Versionen funktionierten bei meinem Testen nicht
GPU-Anzahl: 1
Aktiviere SSH + Jupyter
Verbinde dein Netzwerkvolumen

Schritt 2: Installiere Abhängigkeiten

Im Notebook-Terminal:

%pip install transformers tiktoken accelerate gptqmodel optimum

Schritt 3: Lade das Modell

Lege den Cache-Pfad fest, sodass Downloads ins gemountete Volumen statt ins Standard-Root-Verzeichnis gehen:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import os
import re

os.environ['HF_HOME'] = '/workspace/hf-cache'
model_path = 'tencent/Hunyuan-A13B-Instruct'

tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, cache_dir='/workspace/hf-cache/', local_files_only=False, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)

messages = [
  {
  "role": "user",
  "content": "What does the frog say?"
  },
]

tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt",
                                                  enable_thinking=True
                                              )

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=5000)
output_text = tokenizer.decode(outputs[0])
print(output_text)

Anmerkungen:

Der erste Lauf wird ~150 GB an Gewichten herunterladen
VRAM-Nutzung beträgt ~153 GB während der Inferenz
Das Laden in den VRAM dauert ein paar Minuten
Wenn die GPU-Auslastung (nicht nur VRAM) steigt, läuft es
Du kannst device_map="cpu" einstellen, wenn du nur auf der CPU testen möchtest. Stelle sicher, dass du etwa 200 GB RAM und eine gute CPU hast

Kosten

B200-Pod: $6.39/Stunde
Netzwerkvolumen: $21/Monat, auch wenn es nicht genutzt wird
Vorschlag: Fahre das Pod runter, wenn es nicht benutzt wird x)

Tooling Hinweise

llama.cpp Unterstützung ist noch nicht vorhanden. PR in Arbeit: #14425
Funktioniert gut in Python mit transformers und bfloat16

Benchmark

Die offiziellen Benchmarks sind auf Hugging Face verfügbar und wurden vom TRT-LLM-Backend evaluiert.

Modell	Hunyuan-Large	Qwen2.5-72B	Qwen3-A22B	Hunyuan-A13B
MMLU	88.40	86.10	87.81	88.17
MMLU-Pro	60.20	58.10	68.18	67.23
MMLU-Redux	87.47	83.90	87.40	87.67
BBH	86.30	85.80	88.87	87.56
SuperGPQA	38.90	36.20	44.06	41.32
EvalPlus	75.69	65.93	77.60	78.64
MultiPL-E	59.13	60.50	65.94	69.33
MBPP	72.60	76.00	81.40	83.86
CRUX-I	57.00	57.63	-	70.13
CRUX-O	60.63	66.20	79.00	77.00
MATH	69.80	62.12	71.84	72.35
CMATH	91.30	84.80	-	91.17
GSM8k	92.80	91.50	94.39	91.83
GPQA	25.18	45.90	47.47	49.12

Hunyuan-A13B-Instruct hat über mehrere Benchmarks hinweg hoch konkurrierende Leistungen erreicht, insbesondere in Mathematik, Wissenschaft, Agentendomänen und mehr. Wir haben es mit mehreren leistungsstarken Modellen verglichen, und die Ergebnisse sind unten gezeigt. - Tencent

Thema	Bench	OpenAI-o1-1217	DeepSeek R1	Qwen3-A22B	Hunyuan-A13B-Instruct
Mathematik	AIME 2024 AIME 2025 MATH	74.3 79.2 96.4	79.8 70 94.9	85.7 81.5 94.0	87.3 76.8 94.3
Wissenschaft	GPQA-Diamond OlympiadBench	78 83.1	71.5 82.4	71.1 85.7	71.2 82.7
Programmieren	Livecodebench Fullstackbench ArtifactsBench	63.9 64.6 38.6	65.9 71.6 44.6	70.7 65.6 44.6	63.9 67.8 43
Schlussfolgerung	BBH DROP ZebraLogic	80.4 90.2 81	83.7 92.2 78.7	88.9 90.3 80.3	89.1 91.1 84.7
Instruktionen Folgen	IF-Eval SysBench	91.8 82.5	88.3 77.7	83.4 74.2	84.7 76.1
Text Erstellung	LengthCtrl InsCtrl	60.1 74.8	55.9 69	53.3 73.7	55.4 71.9
NLU	ComplexNLU Word-Task	64.7 67.1	64.5 76.3	59.8 56.4	61.2 62.9
Agent	BDCL v3 τ-Bench ComplexFuncBench C3-Bench	67.8 60.4 47.6 58.8	56.9 43.8 41.1 55.3	70.8 44.6 40.6 51.7	78.3 54.7 61.2 63.5

Was ist Tencent 24113?

Tencent 24113 ist kein eigener Modellname in den offiziellen Docs. Wenn du über diesen Suchbegriff hier gelandet bist, meinst du sehr wahrscheinlich Tencents Hunyuan-Modellfamilie und konkret dieses Hunyuan-A13B-Instruct Release. Das relevante Modell ist Hunyuan-A13B-Instruct auf Hugging Face, ein Open-Weight MoE LLM mit 80 Milliarden Gesamtparametern und 13 Milliarden aktiven Parametern während der Inferenz. Das ist spannend, weil du stärkere Benchmark-Werte als bei kleinen Dense Models bekommst, ohne bei jedem Request alle 80 Milliarden Parameter zu aktivieren. Praktisch passt Hunyuan-A13B gut für Long-Context Chat, Agent Workflows, Coding, Mathe und Research-Experimente, wenn du genug GPU Memory mieten kannst.

Die wichtigsten Vorteile:

256K Context für lange Dokumente und Agent Memory
Fast und Slow Thinking Modes für unterschiedliche Latenz- und Reasoning-Anforderungen
MoE-Architektur mit 13B aktiven Parametern für effizientere Inferenz
GPTQ- und FP8-Varianten für mehr Deployment-Optionen
Offizielle Ressourcen auf GitHub und Hugging Face

Fazit

Dies ist eines der interessanteren offenen MoE-Modelle, die derzeit verfügbar sind. Es unterstützt lange Kontexte, hat einige durchdachte Designentscheidungen, und es ist leicht genug auszuführen. Ich bewerte noch, wie gut es tatsächlich ist, insbesondere im Vergleich zu Modellen wie Mistral Magistral und anderen aktuellen Modellen. Wenn du es selbst testen möchtest, bringt dich diese Einrichtung schnell ans Ziel.

Prost,

Jonas, Mitgründer von sliplane.io

Mach Platz LLaMA: Tencents neues Open LLM ist bereit für Self-Hosting

Willkommen in der Container-Cloud