Dossier

Open models, lokale AI en privacy

Lokale/open modellen als alternatief voor Big Tech-cloud-AI.

Nieuwsitems

Gekoppelde artikelen

100 artikelen

Deze gids legt uit hoe u een volledig functionele, autonome AI-codeeragent lokaal kunt opzetten met Llama.cpp en Qwen 3.5-4B. Het model is gratis en privacyvriendelijk. De handleiding omvat het downloaden van open wegingen, het configureren van Llama.cpp en het installeren van de benodigde tools.

WIRED testte Wispr Flow en diverse AI-transcriptiediensten om te zien of betalen de moeite waard is. De conclusie: er zijn goede gratis alternatieven zoals Spokenly, dat offline werkt en lokale modellen ondersteunt. Ook open-source opties zoals MacParakeet en VoiceInk worden besproken.

Met OpenClaw, een open-source AI-agent, kun je een zelfgehoste XDR-achtige securitybot bouwen die continu logs analyseert. Het systeem gebruikt AI voor anomaliedetectie, correlatie en notificaties via Telegram, zonder cloudafhankelijkheid of dure licenties. De auteur claimt dat de totale kosten ongeveer $28 per maand bedragen.

StepFun heeft Step 3.7 Flash uitgebracht, een multimodaal Mixture-of-Experts-model met 198B parameters. Het model combineert een 196B taalbackbone met een 1.8B visie-encoder (ViT) voor beeldverwerking. Step 3.7 Flash behaalt 56,26% op SWE-Bench Pro en 59,55% op Terminal-Bench 2.1, en ondersteunt Advisor Mode voor efficiëntere agentische workflows. Het model is uitgebracht onder de Apache 2.0-licentie en is beschikbaar op Hugging Face.

Transformers.js maakt het mogelijk om NLP-modellen direct in de browser uit te voeren, zonder server. Deze tutorial behandelt tekstclassificatie, zero-shot labeling en vraagbeantwoording met de pipeline()-API. De modellen worden eenmalig gedownload en lokaal gecachet. Een complete support ticket router laat zien hoe de drie pipelines samenwerken.

Hexo Labs heeft SIA (Self-Improving AI) als open-source uitgebracht onder een MIT-licentie. SIA is een zelfverbeterende agent die tijdens een loop zowel de scaffold (system prompt, tool-dispatch, retry-logica) als de modelgewichten kan aanpassen. Het systeem behaalde op drie uiteenlopende taken consistente verbeteringen ten opzichte van eerdere state-of-the-art. Op LawBench steeg de nauwkeurigheid van 50% naar 70,1% door gewichtsupdates via PPO.

AssemblyAI maakt zijn spraakherkenningsmodellen beschikbaar voor zelfhosting op eigen infrastructuur, zowel in de cloud als on-premises. Hiermee kunnen organisaties voldoen aan compliance-eisen en data-soevereiniteit behouden terwijl ze gebruikmaken van dezelfde modellen als de cloud-API. De prijzen zijn sessiegebaseerd zonder extra kosten voor zelfhosting.

Liquid AI heeft LFM2.5-8B-A1B gelanceerd, een Mixture-of-Experts-model voor on-device gebruik met 8,3 miljard totale parameters waarvan er per token slechts 1,5 miljard actief zijn. Het model beschikt over een contextvenster van 128K tokens, ondersteunt negen talen en is gespecialiseerd in tool calling en redeneren. Ten opzichte van de voorganger LFM2-8B-A1B zijn de prestaties aanzienlijk verbeterd, met een stijging van de non-hallucinatiescore van 7,46 naar 63,47 en een IFEval-score van 91,84.

In dit artikel worden technieken besproken om lokale LLM-agenten voor wetenschappelijke workflows sneller en betrouwbaarder te maken. Optimalisaties zoals CUDA graphs, prefix caching, FP8 KV-cache en Multi-Token Prediction (MTP) in vLLM verlagen de latentie aanzienlijk. Voor lange sessies wordt een gestructureerde 'world state' gebruikt om contextverlies te voorkomen en reproduceerbaarheid te garanderen.

Google heeft op Google I/O de nieuwe Coral Board onthuld, een compacte single-board computer voor AI op het apparaat zelf. Het bord draait het open-source taalmodel Gemma 3 270M lokaal, zonder cloud. Het is bedoeld voor kleine apparaten zoals koptelefoons, AR-brillen en smartwatches en lost het versnipperingsprobleem van AI-versnellers op.

Een diepgaande gids over het aanpassen van Ollama's configuratie voor lokale taalmodellen behandelt het afstemmen van hyperparameters zoals temperatuur, top-k en min-p, serverinstellingen voor geheugenoptimalisatie en prompttemplates. Het artikel geeft praktische voorbeelden voor specifieke toepassingen zoals codering en conversatie.

Stability AI heeft de open gewichten van Stable Audio 3 gepubliceerd, samen met een technisch onderzoekspaper. Stable Audio 3 is een familie van latente diffusiemodellen die stereo audio genereren op 44,1 kHz. De modellen ondersteunen variabele lengtes, inpainting-gebaseerde bewerking en snelle inferentie. De familie bestaat uit drie schalen: small, medium en large. Open gewichten voor small en medium zijn beschikbaar via Hugging Face.

Teamenergie uit Naarden introduceert een AI-platform dat teams helpt hun ontwikkeling te analyseren en verbeteren met een teamanalyse, interventieplan en AI-coach. Lenovo boekte een recordomzet van 83,1 miljard dollar, gedreven door AI-activiteiten die een derde van de omzet uitmaken. Nextview neemt Pole Consulting over om de AI-vraag in Scandinavië te bedienen. Een coalitie van opensource-bedrijven roept de EU op tot een opensource-first-beleid.

OmniVoice Studio is een open-source desktopapplicatie die spraakklonen, videodubbing, real-time dictatie en andere spraak-AI-taken lokaal uitvoert, zonder gegevens naar externe servers te sturen. De tool ondersteunt 646 talen voor tekst-naar-spraak en gebruikt modellen zoals WhisperX, Demucs en Pyannote. Het project is beschikbaar voor macOS, Windows en Linux en is gratis voor persoonlijk, educatief en onderzoeksgebruik.

Tencent heeft TencentDB Agent Memory uitgebracht, een open-source geheugensysteem voor AI-agenten onder de MIT-licentie. Het systeem combineert symbolisch kortetermijngeheugen met een gelaagd langetermijngeheugen in vier lagen: L0 Conversatie, L1 Atomen, L2 Scenario's en L3 Persona. De prestaties tonen een stijging in slagingspercentage van 33% naar 50% op WideSearch en een vermindering van tokenverbruik met 61,38%.

Een technische gids op Towards AI legt uit hoe teams een private, onbeperkte AI-server kunnen opzetten met open-source tools zoals Ollama, Open WebUI, Qdrant en Tailscale. De server draait op eigen hardware met een GPU van 24GB VRAM en kost onder $75 per maand aan operationele kosten. Dit bespaart aanzienlijk ten opzichte van ChatGPT Team, dat $3.600 per jaar kost voor tien gebruikers.

GBrain is een open-source geheugenlaag voor AI-agents, gebouwd door Y Combinator's CEO Garry Tan. De tutorial legt uit hoe je GBrain lokaal installeert, een kennisgrafiek automatisch laat bedraden zonder LLM-aanroepen, en het via MCP verbindt met Claude Code. GBrain haalt op BrainBench een P@5 van 49,1% en R@5 van 97,9%, een +31,4-punts verbetering ten opzichte van de versie zonder grafieklaag.

In een nieuwe tutorial op KDnuggets wordt uitgelegd hoe je Gemma 4 kunt voorzien van twee tools: een sandboxed bestandssysteemverkenner en een beperkte Python-interpreter. Het model beslist zelf wanneer het deze tools gebruikt om de omgeving te inspecteren of berekeningen uit te voeren. De tutorial bouwt voort op eerder werk en toont hoe kleine taalmodellen lokaal agentisch gedrag kunnen vertonen.

Cohere heeft Command A+ als open source uitgebracht onder de Apache 2.0-licentie. Het mixture-of-experts model heeft 218 miljard parameters waarvan 25 miljard actief en draait op twee Nvidia H100 GPU's of een enkele Blackwell GPU. Command A+ is ontworpen voor enterprise workflows zoals agentische taken, RAG en meertalige documentverwerking en ondersteunt 48 talen, tekst en afbeeldingen, met een contextvenster van 128.000 tokens. Vergeleken met de voorganger Command A Reasoning stegen de scores van 37 naar 85 procent op de agent benchmark τ²-Bench Telecom en van 3 naar 25 procent op Terminal-Bench Hard.

Google heeft tijdens I/O 2026 drie grote updates aangekondigd voor de Edge Gallery-app, waarmee gebruikers AI-modellen offline kunnen draaien. De app krijgt ondersteuning voor het Model Context Protocol, kan zelf initiatief nemen voor herinneringen en biedt een permanente chatgeschiedenis.

Een ontwikkelaar bouwde een volledig lokale mobiele app die RAG, een vector database (ObjectBox) en Gemma LLM op het toestel draait. De app vereist geen cloud of API-sleutels na de eerste modeldownload. Notities worden gechunkd, geëmbed met EmbeddingGemma en opgeslagen in een HNSW-index. Vragen worden beantwoord via hybride retrieval en LLM-inferentie op de telefoon.

Stability AI, bekend van Stable Diffusion, brengt een nieuwe familie audiomodellen uit onder de naam Stability Audio 3.0. Het topmodel kan professionele muziek van meer dan zes minuten genereren, terwijl de kleine modellen geschikt zijn voor on-device gebruik en tot twee minuten durende tracks kunnen maken. De medium- en small-modellen worden uitgebracht met open gewichten, terwijl het large-model alleen via API beschikbaar is. Stability AI heeft licentiedeals met muzieklabels om ervoor te zorgen dat de modellen getraind zijn op volledig gelicentieerde data.

Stability AI heeft Stable Audio 3.0 uitgebracht, een familie van open-gewicht muziekmodellen getraind op volledig gelicentieerde data. De modellen bieden variabele lengtegeneratie tot meer dan zes minuten en volledige muziekcompositie op draagbare apparaten. De open-gewicht versies Small SFX, Small en Medium zijn beschikbaar op Hugging Face, terwijl de Large variant via de API toegankelijk is.

Stability AI heeft Stable Audio 3.0 uitgebracht, een nieuwe generatie audiomodellen die muziektracks tot zes minuten kunnen genereren. Drie van de vier modelvarianten zijn beschikbaar als open-gewichtenmodellen. Het grootste model is exclusief voor API- en enterprise-gebruikers. De modellen zijn getraind op volledig gelicentieerde data, waarmee Stability AI zich onderscheidt van concurrenten die met auteursrechtelijke geschillen kampen.

De gemeente Hoeksche Waard gebruikt een groot taalmodel om documenten automatisch te anonimiseren, waarbij namen worden vervangen door neutrale termen. Het project 'Anonimiseren bij de bron' is een vervolg op het awardwinnende 'Anonimiseren met LLM' en richt zich op open-source software voor meerdere overheden. Een minimum viable product moet voor de zomer beschikbaar zijn.

Een ontwikkelaar heeft een volledige AI-gestuurde zoekmachine voor e-commerce gebouwd die lokaal draait op een laptop met 20GB RAM en zonder GPU. De oplossing gebruikt BERT voor sentimentanalyse, FAISS voor semantisch vectorzoeken en Llama 3 voor het autonoom beoordelen van zoekresultaten. Dit toont aan dat geavanceerde AI-toepassingen mogelijk zijn zonder dure cloudinfrastructuur.

De auteur bouwde localmail, een alleen-lezen spiegel van al zijn e-mailaccounts, die dienst doet als de interface waarmee zijn AI-agenten communiceren. Dit verhoogt de veiligheid doordat de agenten geen directe schrijftoegang hebben tot de echte inbox. Het artikel beschrijft de technische implementatie van deze 'muur' tussen de AI en de inbox.

De auteur deelt vijf projecten die hij met lokale taalmodellen heeft gerealiseerd, zoals een privé-documentbrein, een code reviewer die nooit oordeelt, een volledig offline AI-assistent, een persoonlijke denkpartner die je context onthoudt en een lokale AI-agent die gereedschappen gebruikt. Hij benadrukt dat lokale modellen vaak een betere keuze zijn dan clouddiensten, vooral voor gevoelige of offline situaties. De gebruikte modellen zijn onder andere Llama 3.2, Mistral 7B en Qwen2.5-Coder 7B, via Ollama en AnythingLLM.

BerriAI heeft het LiteLLM Agent Platform als open-source uitgebracht. Het platform biedt een self-hosted infrastructuurlaag voor het draaien van meerdere AI-agenten in productie, met per-team sandbox-isolatie en sessiecontinuïteit bij pod-herstart. Sandboxes draaien op Kubernetes via de kubernetes-sigs/agent-sandbox CRD, lokaal met kind en in productie met AWS EKS. Het platform werkt bovenop de bestaande LiteLLM Gateway.

Osaurus is een open-source Mac-app die gebruikers laat schakelen tussen lokale en cloud-AI-modellen zoals Anthropic, OpenAI, Gemini, Llama, Qwen, DeepSeek en xAI's Grok. De app houdt geheugen, bestanden en tools op de eigen hardware van de gebruiker en biedt een sandbox voor veiligheid. Opgericht door ex-Tesla en Netflix-ingenieur Terence Pae, concurreert Osaurus met tools als Ollama en LM Studio, maar richt zich op een gebruiksvriendelijke ervaring voor niet-ontwikkelaars.

Supertone heeft Supertonic v3 uitgebracht, de derde generatie van zijn on-device, op ONNX gebaseerde tekst-naar-spraaksysteem. Het model ondersteunt 31 talen, heeft minder herhalings- en overslagfouten en biedt expressietags zoals <laugh>, <breath> en <sigh>. Met ongeveer 99 miljoen parameters is het aanzienlijk kleiner dan vergelijkbare open TTS-systemen en draait het efficiënt op CPU's, zonder dat een GPU nodig is.

Google rolt een nieuwe AI-functie genaamd Contextual suggestions uit voor Android, die gebruikersgewoonten analyseert en proactief suggesties doet, zoals het automatisch voorstellen van een playlist bij binnenkomst in de sportschool. De verwerking vindt lokaal op het toestel plaats en gebruikers kunnen zelf bepalen welke data wordt gebruikt. De functie is voorlopig gespot op Pixel 10-toestellen met Android 16.

Een ontwikkelaar test of lokale AI-modellen zoals Qwen3.6 kunnen concurreren met cloudmodellen zoals GPT-5.5 voor coderingsagenten. Uit het experiment blijkt dat het lokale model aanzienlijk langzamer is maar gratis, terwijl het cloudmodel sneller maar duurder is. De outputkwaliteit was vergelijkbaar.

Northwestern Medicine gebruikt AI om ziekten vroeger te voorspellen en de efficiëntie van radiologie te verbeteren. Dit gebeurt met on-premise infrastructuur van Dell Technologies en NVIDIA. De technologie ondersteunt een proactiever zorgmodel.

Together AI introduceert Violin, een volledig open-source videovertaaltool die spraakherkenning, LLM-vertaling en tekst-naar-spraak combineert. De tool ondersteunt interactieve functies zoals een videogebaseerde chatassistent en natuurlijke stemselectie. Violin is beschikbaar als webapp, CLI en agent skill onder een MIT-licentie.

Fastino Labs heeft GLiGuard uitgebracht, een open-source veiligheidsmoderatiemodel met 300 miljoen parameters. Het encoder-gebaseerde model voert vier moderatietaken uit in één enkele forward pass. Volgens benchmarks evenaart of overtreft GLiGuard de nauwkeurigheid van modellen die 23 tot 90 keer groter zijn, terwijl het tot 16 keer sneller werkt. De modelgewichten zijn beschikbaar onder de Apache 2.0-licentie op Hugging Face.

Adaption introduceert AutoScientist, een AI-tool die modellen helpt snel specifieke vaardigheden te leren via geautomatiseerde fine-tuning. CEO Sara Hooker stelt dat het systeem zowel data als model co-optimaliseert. Adaption richt zich op het mogelijk maken van frontier AI-training buiten grote laboratoria. De tool is de eerste 30 dagen gratis te gebruiken.

Proximal Cloud en NxtGen hebben een strategisch partnerschap aangekondigd om veilige, conforme en schaalbare soevereine AI-implementaties mogelijk te maken voor bedrijven en overheidsorganisaties in India. NxtGen ondersteunt Proximal Clouds Enterprise Deep Research-platform, dat organisaties helpt bij het beheren van datasprawl en het bouwen van intelligentielagen voor privégegevens. De samenwerking richt zich op naleving, gegevenssoevereiniteit en operationele controle binnen lokaal beheerde omgevingen.

Joe Rose van JBS Dev benadrukt dat het geen misverstand is dat perfecte data vereist is voor generatieve en agente AI-systemen. Hij legt uit dat moderne tools het mogelijk maken om met slechte data te werken, zoals bijvoorbeeld het gebruik van LLM’s om onvolledige prompts te begrijpen. Rose geeft een voorbeeld uit de medische sector waarbij AI werd gebruikt om ongeordende gegevens te verwerken en te migreren naar een nieuw factureringssysteem. Volgens hem ligt de toekomst van AI in kostenbesparing en draagbaarheid, met een focus op het draaien van modellen op laptops of telefoons in plaats van in datacenters.

Via, een open source CLI-tool, het probleem van contextverlies oplost tussen verschillende AI-tools zoals Claude, Cursor, Windsurf en ChatGPT. Via fungeert als een infrastructuur die de tools met elkaar verbindt, waardoor context en gegevens gedeeld kunnen worden. Het vergelijkt dit met de Romeinse wegen die het imperium mogelijk maakten. Via gebruikt SQLite voor lokale opslag en biedt functies zoals het delen van taken, het vergelijken van AI-tools en het overdragen van werkstatus.