Clean enterprise illustration in Turatti Consulting blue palette hex 090378 and 3574E3 32 ratio Show a B2B contact center scene with phone web and cha

Davide Turatti3-feb-2026 12.33.407 min read

Voice AI B2B: progettare un contact center davvero realtime

9:26

Come progettare Voice AI B2B davvero realtime, integrata e misurabile.

Perché il Voice AI di oggi non è il vecchio IVR (e perché la latenza conta)

Negli ultimi mesi il termine "Voice AI" è ricomparso ovunque, ma rispetto ai vecchi IVR e ai primi bot telefonici la posta in gioco è molto diversa. I nuovi modelli multimodali e audio-native non si limitano a trascrivere e leggere testi: possono ascoltare, ragionare, usare tool e agire su sistemi come CRM e piattaforme di ticketing in tempi vicini al tempo reale. Per le aziende B2B – soprattutto in settori dove il telefono resta il canale principale di relazione (industriale, servizi tecnici, after-sales) – questo apre un ventaglio di possibilità: ridurre tempi di attesa, migliorare la raccolta di dati, dare supporto in più lingue, mantenere un servizio 24/7 senza sacrificare qualità e controllo. Ma c’è un vincolo che non si può aggirare: la voce è spietata sulla latenza. Se tra domanda e risposta passano più di qualche centinaio di millisecondi, la conversazione diventa innaturale e i clienti abbandonano. Google, presentando Gemini 2.5 Native Audio, parla chiaramente di target sotto i 300 ms per turn-taking naturale, con function calling sullo stream per permettere all’agente di chiamare tool mentre l’utente parla Google – Gemini 2.5 Native Audio. ElevenLabs, con Scribe v2 Realtime, punta a trascrizioni sotto i 150 ms, proprio per abilitare casi d’uso live ElevenLabs – Scribe v2 Realtime. Questo ha due implicazioni importanti per chi disegna un contact center B2B AI-ready: • l’architettura di rete conta quanto il modello: non basta "un buon LLM", serve pensare a dove terminano le chiamate, dove vive il media server, come si instrada traffico tra carrier, infrastruttura Voice AI e CRM; • bisogna misurare p95 edge→azione, non solo la latenza dichiarata dal modello: dal momento in cui il cliente parla al momento in cui l’azione su CRM/ticket viene eseguita e la risposta viene sintetizzata. In parallelo, c’è il tema della governance. Un agente vocale che può leggere e scrivere su CRM o sistemi di servizio è, di fatto, un nuovo “utente privilegiato”. Le linee guida OWASP per le applicazioni LLM e l’AI Act ricordano che non basta fidarsi del modello: servono permessi granulari, audit trail e controlli indipendenti sulle azioni ad alto impatto OWASP – LLM Top 10; Deloitte – EU AI Act overview. In questo articolo guardiamo a come mettere insieme questi pezzi – modello, infrastruttura, integrazione, governance – per progettare un contact center Voice AI realmente realtime, integrato con CRM e misurabile, evitando sia il "giocattolo" da demo sia il salto nel buio.

Stack moderno: modelli multimodali, bassa latenza e integrazione CRM

Una volta chiarito che la latenza è la metrica da proteggere, bisogna tradurre questi requisiti in uno stack concreto. Qui le scelte tecnologiche recenti dei vendor danno indicazioni utili. Sul fronte modelli, la direzione è chiara: modelli audio-native e multimodali che unificano comprensione e sintesi della voce. Google, con Gemini 2.5 Native Audio, parla esplicitamente di turn-taking naturale e function calling sullo stream: il modello è progettato per ascoltare, capire e attivare tool in tempo quasi reale, riducendo gli “hop” tra ASR, LLM e TTS tradizionali Google – Gemini 2.5 Native Audio. In parallelo, il technical report di Qwen3‑Omni mostra come un singolo modello possa gestire testo, audio, immagini e video mantenendo performance SOTA su benchmark audio e multimodali, con comprensione vocale in più lingue e latenze compatibili con scenari di streaming Qwen3‑Omni – technical report. Sul layer ASR/TTS standalone, player come ElevenLabs stanno spingendo sia sull’accuratezza che sulla bassa latenza. Con Scribe v2 e Scribe v2 Realtime, ElevenLabs promette trascrizione multilingua ad alta qualità e varianti sotto i 150 ms per scenari live ElevenLabs – Scribe v2; ElevenLabs – Scribe v2 Realtime. Il loro blog mostra anche casi d’uso concreti di agenti vocali in telco, utilities e servizi finanziari, con partnership come Deutsche Telekom e Cisco Webex per contact center di nuova generazione ElevenLabs – partnership Deutsche Telekom; ElevenLabs – Cisco Webex AI Agent. Il collante fra modelli e canali è l’orchestratore di agenti. NVIDIA, nel suo Technical Blog, propone blueprint basati su LangGraph e NeMo Agent Toolkit per costruire agenti che combinano percezione (ASR/TTS), reasoning (LLM), tool (CRM, KB, sistemi esterni) e verificatori, con trace dettagliati e metriche p95/CPO NVIDIA – Scaling LangGraph agents; NVIDIA – NeMo Agent Toolkit. Sotto a tutto questo, serve un layer di integrazione pulito con CRM e sistemi di servizio. Il pattern moderno è esporre HubSpot (o strumenti analoghi) tramite tool governati – spesso usando standard come il Model Context Protocol (MCP) – in modo che l’agente vocale possa leggere anagrafiche, ticket, SLA e cronologia, e scrivere note, aggiornamenti di stato e follow-up, senza mai vedere direttamente le credenziali o avere permessi “root” Anthropic – MCP. Questo è anche ciò che le linee guida OWASP GenAI e l’AI Act suggeriscono: permessi granulari, log strutturati, controlli indipendenti sulle azioni scriventi OWASP – LLM Top 10; Deloitte – Deep dive AI Act. In pratica, uno stack Voice AI B2B moderno per PMI e mid-market potrebbe assomigliare a questo: • WebRTC/SIP per portare le chiamate in un media server in regione, vicino a CRM e orchestratore; • modelli audio-native o combo ASR+LLM+TTS pensati per italiano e contesti enterprise; • un orchestratore agentico (LangGraph, AgentKit, Interactions API) con tool verso CRM/KB e un Verifier per azioni critiche; • logging standardizzato (OpenTelemetry) e metriche p95/Attack Pass Rate/Costo per Outcome su ogni flusso. La scelta del vendor specifico (Google, ElevenLabs, NVIDIA, altri) viene dopo: prima vanno fissati questi mattoni architetturali.

Roadmap 12 mesi: dal primo voicebot a un servizio omnicanale

Per portare Voice AI in un contact center B2B senza farsi travolgere dall’hype serve una roadmap concreta, legata a processi e KPI reali. Un percorso in tre fasi può aiutare a bilanciare valore, rischio e complessità. Fase 1 (0–3 mesi): "AI che ascolta e scrive". Qui l’obiettivo non è parlare al posto degli operatori, ma migliorare qualità dati e tempi di reporting. Si parte da: • trascrizione automatica delle chiamate con modelli tipo Scribe v2 o equivalenti, collegati al CRM; • generazione di note strutturate (motivo contatto, categoria, urgenza, prossimi passi) e suggerimenti di tag per ticket e deal; • primi KPI su tasso di chiamate documentate, qualità delle note, tempo risparmiato dagli operatori. Questa fase permette di testare latenza, qualità linguistica in italiano, integrazione con HubSpot o sistemi analoghi e flussi di sicurezza (chi vede cosa, dove si salvano le registrazioni). Fase 2 (3–9 mesi): "AI che parla su casi a basso rischio". Una volta che infrastruttura e processi sono stabili, si può introdurre un primo voicebot su perimetri ben definiti: IVR informativi (orari, stato ordine, info di base), reminder automatici di appuntamenti, recall su survey post-intervento. In questa fase è fondamentale: • definire in modo esplicito quali azioni sono consentite all’agente (lettura vs scrittura, quali campi può aggiornare, quali flussi può chiudere in autonomia); • introdurre un agent firewall con server MCP e Verifier per azioni scriventi, come suggerito da Anthropic e OWASP; • misurare p95 edge→azione sull’intero flusso audio→azione e Costo per Outcome (euro per ticket deflesso, appuntamento confermato, nota valida); • mantenere un canale di escalation semplice verso operatori umani, con passaggio di contesto completo. Fase 3 (9–18 mesi): "AI come canale a tutti gli effetti". Se le metriche tengono, si può iniziare a usare Voice AI su fette più rilevanti di volume: triage di ticket tecnici, raccolta di dati strutturati per inbound sales, gestione di code di assistenza in orari estesi. Qui la priorità non è più solo la tecnologia, ma governance e compliance: • definire un AI Governance Board leggero che approva nuovi casi d’uso, permessi e KPI per Voice AI; • collegare metriche tecniche (p95, APR, CPO) a KPI di business (FCR, NPS, tempo medio di gestione, costo per chiamata); • preparare la documentazione e i processi necessari per l’AI Act: inventario dei sistemi, policy card per ogni agente, procedure di monitoraggio post-market e incident response GPAI Guidelines. In tutto questo, la tentazione di "mettere il bot al posto dell’operatore" va frenata: Voice AI rende meglio quando è progettata come team-mate dei tuoi operatori, non come sostituto. Combinare copilot interni (per riassumere, suggerire, cercare informazioni) e agenti vocali ben incapsulati su scenari semplici permette di migliorare subito esperienza cliente e qualità dati, senza bruciare la fiducia (interna ed esterna) che serve per fare passi più ambiziosi nei mesi successivi.

Davide Turatti

Sono fondatore e CEO di Turatti Consulting, società di consulenza digitale specializzata in CRM, AI agent e automazioni per PMI manifatturiere e aziende B2B italiane. HubSpot Platinum Partner, lavoro con aziende tra €10M e €200M di fatturato per trasformare processi commerciali e customer service in sistemi misurabili e scalabili. Ho maturato esperienza come digital manager e direttore marketing in contesti strutturati prima di fondare Turatti. Applico lo stesso approccio pragmatico, nessuna teoria senza esecuzione, sia ai progetti dei clienti che alla gestione della mia azienda. Scrivo di AI applicata al business, CRM, automazione e visibilità digitale nell'era degli AI engine.

COMMENTI

Voice AI B2B: progettare un contact center davvero realtime

Perché il Voice AI di oggi non è il vecchio IVR (e perché la latenza conta)

Stack moderno: modelli multimodali, bassa latenza e integrazione CRM

Roadmap 12 mesi: dal primo voicebot a un servizio omnicanale

ARTICOLI CORRELATI