Mach Platz LLaMA: Tencents neues Open LLM ist bereit für Self-Hosting

Mach Platz LLaMA: Tencents neues Open LLM ist bereit für Self-Hosting

Jonas Scholz - Co-Founder von sliplane.ioJonas Scholz
7 min

Tencent hat gerade ein neues Open-Source-Modell namens Hunyuan-A13B-Instruct veröffentlicht. Es hat offene Gewichte (nicht sicher über den Code) und läuft lokal (naja, wenn du eine B200 GPU hast). Wenn du neugierig bist, wie es funktioniert, und es selbst ausprobieren möchtest, erfährst du hier, wie du es in wenigen Minuten auf einer gemieteten GPU einrichtest.

Was ist Hunyuan-A13B?

Hunyuan-A13B ist ein Mixture-of-Experts (MoE)-Modell mit 80 Milliarden Gesamtparametern, von denen jedoch nur 13 Milliarden aktiv sind. Das bedeutet, dass die Inferenz viel günstiger ist als bei einem vollen dichten Modell.

Mixture-of-Experts (MoE) ist eine neuronale Netzwerkarchitektur, bei der nur ein Teil der spezialisierten "Expert"-Sub-Netzwerke für jede Eingabe aktiviert wird, was die Rechenleistung reduziert und die Modellkapazität erhöht. Ein Gate-Mechanismus wählt dynamisch aus, welche Experten basierend auf der Eingabe verwendet werden, sodass das Modell effizient skalieren kann, ohne immer alle Parameter zu verwenden.

Einige Highlights:

  • Unterstützt 256k Kontext von Haus aus
  • Schnelle und langsame Denkmuster
  • Grouped Query Attention (GQA) für effizientere Inferenz
  • Agentenorientierte Feinabstimmung, mit Benchmark-Ergebnissen auf BFCL-v3 und τ-Bench
  • Quantisierungsunterstützung, einschließlich GPTQ

Bisher sieht es wie ein solider Kandidat für lokale Experimente aus, besonders für langanhaltende oder agentenähnliche Aufgaben. Ich teste noch, wie es im Vergleich zu anderen Modellen wie LLaMA 3, Mixtral und Claude 3 abschneidet.

Schritt 1: Erstelle eine RunPod Instanz

Der einfachste Weg, es auszuprobieren, ist RunPod (Dieser Link gibt dir zwischen $5 und $500 Credits!). Du benötigst:

  • Ein 300 GB Netzwerkvolumen
  • Eine B200 GPU (ich glaube nicht, dass weniger funktioniert, du benötigst ~150GB VRAM)
  • Ein unterstütztes PyTorch-Image

Erstelle ein Netzwerkvolumen

  • Region: nutze eine, wo B200 verfügbar ist (derzeit eu-ro-1)
  • Größe: 300 GB
  • Kosten: ca. $21/Monat (abrechnung auch wenn ungenutzt)

Erstelle ein Pod

  • GPU-Typ: B200
  • Image: runpod/pytorch:2.8.0-py3.11-cuda12.8.1-cudnn-devel-ubuntu22.04 ⚠️ Frühere Versionen funktionierten bei meinem Testen nicht
  • GPU-Anzahl: 1
  • Aktiviere SSH + Jupyter
  • Verbinde dein Netzwerkvolumen

Schritt 2: Installiere Abhängigkeiten

Im Notebook-Terminal:

%pip install transformers tiktoken accelerate gptqmodel optimum

Schritt 3: Lade das Modell

Lege den Cache-Pfad fest, sodass Downloads ins gemountete Volumen statt ins Standard-Root-Verzeichnis gehen:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import os
import re

os.environ['HF_HOME'] = '/workspace/hf-cache'
model_path = 'tencent/Hunyuan-A13B-Instruct'

tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, cache_dir='/workspace/hf-cache/', local_files_only=False, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)

messages = [
  {
  "role": "user",
  "content": "What does the frog say?"
  },
]

tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt",
                                                  enable_thinking=True
                                              )

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=5000)
output_text = tokenizer.decode(outputs[0])
print(output_text)

Anmerkungen:

  • Der erste Lauf wird ~150 GB an Gewichten herunterladen
  • VRAM-Nutzung beträgt ~153 GB während der Inferenz
  • Das Laden in den VRAM dauert ein paar Minuten
  • Wenn die GPU-Auslastung (nicht nur VRAM) steigt, läuft es
  • Du kannst device_map="cpu" einstellen, wenn du nur auf der CPU testen möchtest. Stelle sicher, dass du etwa 200 GB RAM und eine gute CPU hast

Kosten

  • B200-Pod: $6.39/Stunde
  • Netzwerkvolumen: $21/Monat, auch wenn es nicht genutzt wird
  • Vorschlag: Fahre das Pod runter, wenn es nicht benutzt wird x)

Tooling Hinweise

  • llama.cpp Unterstützung ist noch nicht vorhanden. PR in Arbeit: #14425
  • Funktioniert gut in Python mit transformers und bfloat16

Benchmark

Die offiziellen Benchmarks sind auf Hugging Face verfügbar und wurden vom TRT-LLM-Backend evaluiert.

ModellHunyuan-LargeQwen2.5-72BQwen3-A22BHunyuan-A13B
MMLU88.4086.1087.8188.17
MMLU-Pro60.2058.1068.1867.23
MMLU-Redux87.4783.9087.4087.67
BBH86.3085.8088.8787.56
SuperGPQA38.9036.2044.0641.32
EvalPlus75.6965.9377.6078.64
MultiPL-E59.1360.5065.9469.33
MBPP72.6076.0081.4083.86
CRUX-I57.0057.63-70.13
CRUX-O60.6366.2079.0077.00
MATH69.8062.1271.8472.35
CMATH91.3084.80-91.17
GSM8k92.8091.5094.3991.83
GPQA25.1845.9047.4749.12

Hunyuan-A13B-Instruct hat über mehrere Benchmarks hinweg hoch konkurrierende Leistungen erreicht, insbesondere in Mathematik, Wissenschaft, Agentendomänen und mehr. Wir haben es mit mehreren leistungsstarken Modellen verglichen, und die Ergebnisse sind unten gezeigt. - Tencent

ThemaBenchOpenAI-o1-1217DeepSeek R1Qwen3-A22BHunyuan-A13B-Instruct
MathematikAIME 2024
AIME 2025
MATH
74.3
79.2
96.4
79.8
70
94.9
85.7
81.5
94.0
87.3
76.8
94.3
WissenschaftGPQA-Diamond
OlympiadBench
78
83.1
71.5
82.4
71.1
85.7
71.2
82.7
ProgrammierenLivecodebench
Fullstackbench
ArtifactsBench
63.9
64.6
38.6
65.9
71.6
44.6
70.7
65.6
44.6
63.9
67.8
43
SchlussfolgerungBBH
DROP
ZebraLogic
80.4
90.2
81
83.7
92.2
78.7
88.9
90.3
80.3
89.1
91.1
84.7
Instruktionen
Folgen
IF-Eval
SysBench
91.8
82.5
88.3
77.7
83.4
74.2
84.7
76.1
Text
Erstellung
LengthCtrl
InsCtrl
60.1
74.8
55.9
69
53.3
73.7
55.4
71.9
NLUComplexNLU
Word-Task
64.7
67.1
64.5
76.3
59.8
56.4
61.2
62.9
AgentBDCL v3
τ-Bench
ComplexFuncBench
C3-Bench
67.8
60.4
47.6
58.8
56.9
43.8
41.1
55.3
70.8
44.6
40.6
51.7
78.3
54.7
61.2
63.5

Was ist Tencent 24113?

Tencent 24113 ist kein eigener Modellname in den offiziellen Docs. Wenn du über diesen Suchbegriff hier gelandet bist, meinst du sehr wahrscheinlich Tencents Hunyuan-Modellfamilie und konkret dieses Hunyuan-A13B-Instruct Release. Das relevante Modell ist Hunyuan-A13B-Instruct auf Hugging Face, ein Open-Weight MoE LLM mit 80 Milliarden Gesamtparametern und 13 Milliarden aktiven Parametern während der Inferenz. Das ist spannend, weil du stärkere Benchmark-Werte als bei kleinen Dense Models bekommst, ohne bei jedem Request alle 80 Milliarden Parameter zu aktivieren. Praktisch passt Hunyuan-A13B gut für Long-Context Chat, Agent Workflows, Coding, Mathe und Research-Experimente, wenn du genug GPU Memory mieten kannst.

Die wichtigsten Vorteile:

  • 256K Context für lange Dokumente und Agent Memory
  • Fast und Slow Thinking Modes für unterschiedliche Latenz- und Reasoning-Anforderungen
  • MoE-Architektur mit 13B aktiven Parametern für effizientere Inferenz
  • GPTQ- und FP8-Varianten für mehr Deployment-Optionen
  • Offizielle Ressourcen auf GitHub und Hugging Face

Fazit

Dies ist eines der interessanteren offenen MoE-Modelle, die derzeit verfügbar sind. Es unterstützt lange Kontexte, hat einige durchdachte Designentscheidungen, und es ist leicht genug auszuführen. Ich bewerte noch, wie gut es tatsächlich ist, insbesondere im Vergleich zu Modellen wie Mistral Magistral und anderen aktuellen Modellen. Wenn du es selbst testen möchtest, bringt dich diese Einrichtung schnell ans Ziel.

Prost,

Jonas, Mitgründer von sliplane.io

Willkommen in der Container-Cloud

Sliplane macht es einfach, Container in der Cloud zu deployen und bei Bedarf zu skalieren. Probier es jetzt aus!