Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.
Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.
Kursplan
AI-suveränitet och lokal utplacering av LLM:er
- Risker med moln-LLM:er: dataretention, träning på indata, främmande jurisdiktion.
- Ollamas arkitektur: modellserver, register och OpenAI-kompatibelt API.
- Jämförelse med vLLM, llama.cpp och Text Generation Inference.
- Licensiering av modeller: villkor för Llama, Mistral, Qwen och Gemma.
Installation och hårdvaruuppställning
- Installera Ollama på Linux med stöd för CUDA och ROCm.
- Reservlösning enbart för CPU och optimering för AVX/AVX2.
- Docker-utplacering och permanent volymkoppling.
- Uppställning med flera GPU:er och strategier för VRAM-allokering.
Modellhantering
- Hämta modeller från Ollamas register: ollama pull llama3.
- Importera GGUF-modeller från HuggingFace och TheBloke.
- Kvantiseringssnivåer: tradeoffs mellan Q4_K_M, Q5_K_M och Q8_0.
- Modellbyte och begränsningar för samtidiga modellinläsningar.
Anpassade Modelfiles
- Skriva Modelfile-syntax: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Justering av temperatur, top_p och repeat_penalty.
- Systemprompt-engineering för rollspecifikt beteende.
- Skapa och publicera anpassade modeller till det lokala registret.
API-integration
- OpenAI-kompatibel /v1/chat/completions-slutpunkt.
- Streaming-svar och JSON-läge.
- Integration med LangChain, LlamaIndex och egna appar.
- Autentisering och hastighetsbegränsning med omvänd proxy.
Prestandaoptimering
- Storlek på contextfönstret och hantering av KV-cache.
- Batchinferens och hantering av parallella begäranden.
- Tilldelning av CPU-trådar och medvetenhet om NUMA.
- Övervakning av GPU-användning och minnesbelastning.
Säkerhet och efterlevnad
- Nätverksisolering för modellserveringsslutpunkter.
- Filter av indata och flöden för moderering av utdata.
- Granskningsloggning av prompts och färdiga svar.
- Modellursprung och hash-verifiering.
Krav
- Mellannivåkunskaper inom Linux och containeradministration.
- Övergripande förståelse för maskininlärning och transformer-modeller.
- Bekantskap med REST-API:er och JSON.
Målgrupp
- AI-ingenjörer och utvecklare som ersätter molnbaserade LLM-API:er.
- Organisationer med dataskärptänk som förhindrar användning av molnmodeller.
- Statliga och försvarsmyndigheter som kräver luftkuddade (air-gapped) språkmodeller.
14 Timmar