Evaluating RAG and Agentic AI Systems - Failure Taxonomy & Contracts (eBook)

Evaluating RAG and Agentic AI Systems - Failure Taxonomy & Contracts (eBook)

Shrikant Wagh
Shrikant Wagh
Prezzo:
€ 21,99
Compra EPUB
Prezzo:
€ 21,99
Compra EPUB

Formato

:
EPUB
Cloud: Scopri di più
Compatibilità: Tutti i dispositivi
Lingua: Inglese
Editore: Shrikant Wagh
Codice EAN: 9798233797484
Anno pubblicazione: 2026
Scopri QUI come leggere i tuoi eBook
Abbonati a Kobo Plus per avere accesso illimitato a migliaia di eBook

Note legali

NOTE LEGALI

a) Garanzia legale, Pagamenti, Consegne, Diritto di recesso
b) Informazioni sul prezzo
Il prezzo barrato corrisponde al prezzo di vendita al pubblico al lordo di IVA e al netto delle spese di spedizione
Il prezzo barrato dei libri italiani corrisponde al prezzo di copertina.
I libri in inglese di Libraccio sono di provenienza americana o inglese.
Libraccio riceve quotidianamente i prodotti dagli USA e dalla Gran Bretagna, pagandone i costi di importazione, spedizione in Italia ecc.
Il prezzo in EURO è fissato da Libraccio e, in alcuni casi, può discostarsi leggermente dal cambio dollaro/euro o sterlina/euro del giorno. Il prezzo che pagherai sarà quello in EURO al momento della conferma dell'ordine.
In ogni caso potrai verificare la convenienza dei nostri prezzi rispetto ad altri siti italiani e, in moltissimi casi, anche rispetto all'acquisto su siti americani o inglesi.
c) Disponibilità
I termini relativi alla disponibilità dei prodotti sono indicati nelle Condizioni generali di vendita.

Disponibilità immediata
L'articolo è immediatamente disponibile presso Libraccio e saremo in grado di procedere con la spedizione entro un giorno lavorativo.
Nota: La disponibilità prevista fa riferimento a singole disponibilità.

Disponibile in giorni o settimane (ad es. "3-5-10 giorni", "4-5 settimane" )
L'articolo sarà disponibile entro le tempistiche indicate, necessarie per ricevere l'articolo dai nostri fornitori e preparare la spedizione.
Nota: La disponibilità prevista fa riferimento a singole disponibilità.

Prenotazione libri scolastici
Il servizio ti permette di prenotare libri scolastici nuovi che risultano non disponibili al momento dell'acquisto.

Attualmente non disponibile
L'articolo sarà disponibile ma non sappiamo ancora quando. Inserisci la tua mail dalla scheda prodotto attivando il servizio Libraccio “avvisami” e sarai contattato quando sarà ordinabile.

Difficile reperibilità
Abbiamo dei problemi nel reperire il prodotto. Il fornitore non ci dà informazioni sulla sua reperibilità, ma se desideri comunque effettuare l'ordine, cercheremo di averlo nei tempi indicati. Se non sarà possibile, ti avvertiremo via e-mail e l'ordine verrà cancellato.
Chiudi

Descrizione

Your test suite is green. Your CI pipeline passed. And your agentic AI system just leaked customer data in production. This is the crisis no one warned you about — unfolding right now across every industry deploying RAG and agentic AI systems without the tools to truly test them. A fintech agent leaks customer records through a manipulated tool description. An enterprise RAG pipeline silently cross-contaminates tenant data without raising a single exception. A model update quietly shifts agent behavior in ways no test ever caught. These aren't software bugs. They're a new category of failure — and conventional testing was never built to catch them. Evaluating RAG and Agentic AI Systems — Failure Taxonomy & Contracts is the definitive answer to that gap. Written by Shrikant Wagh — a veteran of over three decades in software quality, co-founder of a patented testing tools company, and IIT Madras alumnus — this framework gives engineering teams the language, architecture, and working code to test agentic AI with mission-critical rigor. Not through informal spot-checking. Through deterministic, CI-gateable, production-grade contracts. At the heart of the book is the Eleven Contract Taxonomy: behavioral invariants covering every critical failure surface — Knowledge, Retrieval, Generation, Agent and Tool, Skill, Protocol, Security, Operational, Multi-Agent, Multi-Modal, and Fine-Tuning. These contracts give you testable, automatable assertions for catching failure before it reaches your users. When your system is non-deterministic, contracts need muscle. The MITM Testing Pattern delivers it — using fake retrievers, fake LLMs, in-process MCP clients, and in-memory tracers to inject precise control at every agent boundary. Write deterministic tests for probabilistic systems, isolate every layer, and assert correctness — without expensive live model calls. On top of this sits a complete production evaluation stack: golden datasets, LLM-as-Judge pipelines, Recall@K, MRR, and NDCG@K metrics, regression quality gates, drift detection, and a full GitHub Actions CI pipeline — each chapter backed by real Python code and exercises. The final chapters address the organization: a five-level maturity model, sprint-by-sprint roadmap, and Investment Decision Framework for building a sustainable testing program at scale. This is not a book about theory. It was born from real failures — MCP rug pull exploits, retrieval authorization bypass, silent hallucination, citation fabrication, multi-agent cascade failure. Each has a named contract and a test that catches it. Not "did it pass the tests?" — but "do we have the right tests?" The systems are in production. The failures are real. Now there is a framework built to catch them. Build the contracts. Gate the pipeline. Ship with confidence.