Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Despliega un LLM open-source on-premise con fallback automático
Code

Despliega un LLM open-source on-premise con fallback automático

FreeVerified credential4 semanasExpert

Visión general

De qué trata este proyecto.

Desplegarás vLLM o TGI (Text Generation Inference) en una GPU compartida (4xL40S o equivalente) para el modelo grande, y otro endpoint con modelo más pequeño (Qwen2 7B) como fallback. Implementarás load balancer con circuit breaker: si el principal supera latencia P95 o está caído, fallback automático. Diseñarás 50 prompts realistas y mediarás latencia, throughput y calidad relativa entre modelos. Entregarás docker-compose o Helm chart + runbook operativo.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Desplegar un LLM open-source on-premise con fallback automático y validar resiliencia bajo carga realista.

Earning criteria — what you'll demonstrate

  • Desplegar LLMs abiertos on-premise con stacks de inferencia (vLLM, TGI)
  • Implementar resiliencia con load balancing y circuit breakers
  • Benchmarkar bajo carga realista con percentiles correctos
  • Documentar runbooks operativos para equipos de plataforma

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Ingeniera de MLOps

Desplegar LLMs on-premise con resiliencia operativa es el portafolio que sectores regulados (seguros, banca, salud) buscan en MLOps senior.

Este proyecto afina

  • llm-deployment
  • on-premise-inference
  • infrastructure

Arquitecta de Soluciones de IA

Diseñar arquitectura con fallback y circuit breaker es responsabilidad central de architects en empresas con SLA estrictos.

Este proyecto afina

  • load-balancing
  • on-premise-inference
  • infrastructure

Ingeniera de IA

Empaquetar la inferencia y exponerla con resiliencia es competencia transversal de AI engineers en organizaciones medianas y grandes.

Este proyecto afina

  • llm-deployment
  • python
  • load-balancing

Una cosa más

Puedes tener una credencial en tu CV para el viernes.