AI agent platforms, skills en tools die de agent ook echt kan callen, evals die de regressies vangen.
Agent-demo's zijn makkelijk. Agent-producten niet. We bouwen platforms waar het model een getypte tool-laag heeft, een skill-catalog die de operator kan composeen, een eval-harness die op elke change draait, en een observability-pad dat exact toont welke tool de agent heeft gecalled en wat terugkwam. De saaie infrastructuur is de moat.
Wat we bouwen
Getypte tool-catalog, geen vrije function calling
Tools zijn getypt aan de boundary. Het model krijgt een JSON-schema beschrijving; de runtime valideert de call voor execution. Foute tool-invocations surfacen als getypte errors waar het model over kan redeneren, niet als stille fouten.
Skills als composable units, geen monolithische prompts
Een skill bundelt een system prompt, een tool-set en een kleine eval-suite. De operator componeert skills in agent-flows. Een skill toevoegen is een unit-change, geen herschrijven van de master prompt.
Multi-model routing waar de cost-rekensom klopt
Goedkope modellen voor high-volume smalle taken (classificatie, extractie); frontier-modellen waar reasoning-kwaliteit het prijsverschil verdient. De router is observeerbaar, operationele bedrijven zien per-route cost + latency, geen blended numbers.
Evals die met de agent meeopleveren
Elke skill heeft een gelabelde eval-set die op elke change gecheckt wordt. CI faalt als een eval regressed. Production-verkeer wordt teruggesampled in de eval-pool zodat de agent niet tussen live-gangen drift.
Long-running runs door de queue afgehandeld
Agent-runs die minuten (of uren) duren, draaien als background jobs. Voortgang streamt naar de UI; fouten retryen met backoff; mensen kunnen op decision points ingrijpen. De request-handler houdt nooit een open connection vast wachtend op een model.
Per-call observability met stack traces
Elke model-call, tool-call, retry en error krijgt een trace span. Operators kunnen een agent-run volledig replay, exact zien welke beslissing waar vertakte, en auditen wat de agent deed namens welke gebruiker.
Waar dit past
Je agent-demo werkt in de handen van de oprichter en valt om zodra een echte gebruiker iets net buiten het script typt.
Je draait een agent-product en de model-spend is onvoorspelbaar omdat er geen cost ceiling en geen router is.
Je team opgeleverd agent-features en er is geen eval-discipline, elke release voelt als dobbelen.
Tech stack
- TypeScript
- Anthropic API
- OpenAI API
- BullMQ
- Postgres
Wil je dit voor je team?
30 minuten met een oprichter of ervaren ontwikkelaar. We bepalen wat je nodig hebt en zeggen je eerlijk of Stacklane past.
Plan een gesprekVerwante capabilities

