Kom i kontakt

Kursplan

AI-suveränitet och lokal utplacering av LLM:er

  • Risker med moln-LLM:er: dataretention, träning på indata, främmande jurisdiktion.
  • Ollamas arkitektur: modellserver, register och OpenAI-kompatibelt API.
  • Jämförelse med vLLM, llama.cpp och Text Generation Inference.
  • Licensiering av modeller: villkor för Llama, Mistral, Qwen och Gemma.

Installation och hårdvaruuppställning

  • Installera Ollama på Linux med stöd för CUDA och ROCm.
  • Reservlösning enbart för CPU och optimering för AVX/AVX2.
  • Docker-utplacering och permanent volymkoppling.
  • Uppställning med flera GPU:er och strategier för VRAM-allokering.

Modellhantering

  • Hämta modeller från Ollamas register: ollama pull llama3.
  • Importera GGUF-modeller från HuggingFace och TheBloke.
  • Kvantiseringssnivåer: tradeoffs mellan Q4_K_M, Q5_K_M och Q8_0.
  • Modellbyte och begränsningar för samtidiga modellinläsningar.

Anpassade Modelfiles

  • Skriva Modelfile-syntax: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Justering av temperatur, top_p och repeat_penalty.
  • Systemprompt-engineering för rollspecifikt beteende.
  • Skapa och publicera anpassade modeller till det lokala registret.

API-integration

  • OpenAI-kompatibel /v1/chat/completions-slutpunkt.
  • Streaming-svar och JSON-läge.
  • Integration med LangChain, LlamaIndex och egna appar.
  • Autentisering och hastighetsbegränsning med omvänd proxy.

Prestandaoptimering

  • Storlek på contextfönstret och hantering av KV-cache.
  • Batchinferens och hantering av parallella begäranden.
  • Tilldelning av CPU-trådar och medvetenhet om NUMA.
  • Övervakning av GPU-användning och minnesbelastning.

Säkerhet och efterlevnad

  • Nätverksisolering för modellserveringsslutpunkter.
  • Filter av indata och flöden för moderering av utdata.
  • Granskningsloggning av prompts och färdiga svar.
  • Modellursprung och hash-verifiering.

Krav

  • Mellannivåkunskaper inom Linux och containeradministration.
  • Övergripande förståelse för maskininlärning och transformer-modeller.
  • Bekantskap med REST-API:er och JSON.

Målgrupp

  • AI-ingenjörer och utvecklare som ersätter molnbaserade LLM-API:er.
  • Organisationer med dataskärptänk som förhindrar användning av molnmodeller.
  • Statliga och försvarsmyndigheter som kräver luftkuddade (air-gapped) språkmodeller.
 14 Timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier