Cybersecurity

Il Penetration Testing Incontra l'IA: Una Nuova Era per la Difesa Cyber

Prootego Team

2 marzo 2026

Il penetration testing basato sull'intelligenza artificiale sta trasformando il modo in cui le organizzazioni individuano e correggono le vulnerabilità prima che gli attaccanti possano sfruttarle. Nel 2025, la convergenza tra intelligenza artificiale e test di sicurezza offensivi ha modificato l'economia, la velocità e la scalabilità di quella che era una disciplina puramente manuale. Per le aziende europee che affrontano un panorama di minacce in cui il cybercrimine costa circa 10.500 miliardi di dollari a livello globale e l'Italia da sola assorbe il 10% degli attacchi informatici mondiali, l'urgenza di adottare approcci di testing più intelligenti non è mai stata così pressante.

Questo articolo copre l'intero panorama — dai fondamenti del penetration testing agli strumenti basati sull'IA, dalla corsa agli armamenti offensiva-difensiva a ciò che attende le organizzazioni che valutano strategie di sicurezza integrate XDR/MDR.

Il panorama delle minacce richiede test continui, non verifiche annuali

I numeri dipingono un quadro allarmante dell'attuale ambiente di minacce informatiche. Il report IBM 2024 sul costo di una violazione dei dati ha rilevato che il costo medio globale di una violazione ha raggiunto i 4,88 milioni di dollari, un aumento del 10% su base annua e il balzo più significativo dalla pandemia. Le organizzazioni impiegano in media 204 giorni per identificare una violazione e altri 73 giorni per contenerla. Nel frattempo, il Verizon 2025 Data Breach Investigations Report ha analizzato oltre 22.000 incidenti di sicurezza in 139 paesi e ha riscontrato la presenza di ransomware nel 44% di tutte le violazioni — con un devastante 88% delle violazioni nelle PMI che coinvolgono ransomware, rispetto al 39% per le grandi organizzazioni. Lo sfruttamento delle vulnerabilità è aumentato del 34% e il coinvolgimento di terze parti nelle violazioni è raddoppiato al 30%.

Per le aziende europee, il quadro normativo è cambiato radicalmente. La Direttiva NIS2, ora recepita nel diritto nazionale in tutti gli Stati membri dell'UE (l'Italia l'ha implementata tramite il Decreto Legislativo 138/2024), estende gli obblighi di cybersecurity a oltre 160.000 entità europee in 18 settori critici. Le sanzioni raggiungono i 10 milioni di euro o il 2% del fatturato globale per le entità essenziali, con responsabilità personale dei dirigenti per inadempienza. Il regolamento attuativo della direttiva raccomanda esplicitamente il penetration testing e il red/blue/purple teaming come meccanismi per valutare l'efficacia della sicurezza. Nei servizi finanziari, il DORA richiede penetration testing basato sulle minacce ogni tre anni su sistemi di produzione attivi. L'Articolo 32 del GDPR impone di testare, valutare e verificare regolarmente l'efficacia delle misure tecniche e organizzative.

Il quadro italiano è particolarmente preoccupante. Il Rapporto Clusit 2025 ha documentato 3.541 attacchi informatici significativi a livello globale nel 2024 — un aumento del 27,4% — con l'Italia che rappresenta una quota sproporzionata del 10%. Le organizzazioni italiane hanno subito un aumento del 527% degli attacchi informatici dal 2018, con il 79% degli incidenti classificati come critici o ad alto impatto. L'ACN ha segnalato 1.549 eventi cyber solo nel primo semestre 2025, in aumento del 53% su base annua, inclusi 346 incidenti gravi confermati. Eppure solo l'1% delle organizzazioni italiane dimostra una maturità cyber adeguata secondo il Cisco Readiness Index. Questo divario tra l'intensità delle minacce e la maturità difensiva rappresenta sia una crisi che un'opportunità per le organizzazioni disposte a investire in test di sicurezza proattivi.

I fondamenti del penetration testing rimangono la spina dorsale della sicurezza proattiva

Il penetration testing rimane il modo più diretto per verificare se i controlli di sicurezza funzionano effettivamente contro le tecniche di attacco del mondo reale. Nella sua essenza, coinvolge hacker etici che simulano attacchi informatici contro sistemi, reti e applicazioni per identificare vulnerabilità sfruttabili prima che lo facciano gli attori malevoli. Il risultato è un report operativo con risultati prioritizzati, valutazioni del rischio e indicazioni per la remediation.

Gli approcci di test variano in base al livello di conoscenza del tester. Il Black box testing simula un attaccante esterno senza alcuna conoscenza preliminare, fornendo la prospettiva avversariale più realistica. Il White box testing garantisce pieno accesso al codice sorgente, alla documentazione dell'architettura e alle credenziali, consentendo la valutazione più approfondita possibile. Il Grey box testing occupa una posizione intermedia — tipicamente fornendo credenziali a livello utente per simulare uno scenario di insider compromesso o attaccante autenticato. Questi approcci basati sul livello di conoscenza si combinano con categorie di ambito: test esterni mirati agli asset esposti su Internet; test interni che simulano scenari post-violazione o insider; test delle applicazioni web che affrontano le vulnerabilità OWASP Top 10 e la sicurezza delle API; test di rete che valutano infrastruttura e sicurezza wireless; test di social engineering che esplorano le vulnerabilità umane attraverso phishing, vishing e pretexting; e penetration testing cloud che valuta le misconfigurazioni in ambienti AWS, Azure e GCP.

Diverse metodologie consolidate guidano gli engagement professionali. L'OWASP Testing Guide è il gold standard per le valutazioni delle applicazioni web. Il PTES (Penetration Testing Execution Standard) fornisce un framework in sette fasi orientato ai professionisti, che copre tutto, dalle interazioni pre-engagement al reporting post-exploitation. Il NIST SP 800-115 offre un approccio più formale e documentale, adatto ad ambienti governativi e infrastrutture critiche. Il framework MITRE ATT&CK funziona sempre più come matrice di riferimento per mappare tecniche di attacco specifiche durante penetration test ed esercitazioni red team.

Il business case è una questione di semplice aritmetica. Un penetration test completo costa tipicamente tra i 5.000 e i 50.000 dollari, mentre il costo medio di una violazione è di 4,88 milioni di dollari a livello globale. Secondo l'analisi BreachLock 2024, l'87% delle vulnerabilità critiche e ad alta gravità rilevate nei pen test si trova in organizzazioni con meno di 200 dipendenti — precisamente le organizzazioni meno propense a investire nei test. La ricerca DeepStrike 2025 ha rilevato che il 60% delle violazioni deriva da vulnerabilità note e non corrette piuttosto che da zero-day esotici, il che significa che il testing regolare e la remediation delle debolezze ben comprese rimane il singolo investimento difensivo con il maggiore impatto che la maggior parte delle organizzazioni possa fare.

L'IA trasforma il penetration testing da evento periodico a capacità continua

Il penetration testing basato sull'IA rappresenta un cambio fondamentale: da valutazioni guidate dall'uomo e puntuali a una validazione di sicurezza adattiva e continua. Dove il testing tradizionale si affida alla conoscenza, all'intuizione e al tempo disponibile di un professionista qualificato, le piattaforme basate sull'IA utilizzano machine learning, deep reinforcement learning e large language model per scoprire autonomamente vulnerabilità, concatenare percorsi di attacco e scalare i test sull'intero ambiente aziendale.

L'architettura tecnica comprende diversi approcci AI/ML distinti che lavorano in concerto. La scoperta automatizzata delle vulnerabilità utilizza modelli ML addestrati su enormi database di CVE noti e pattern di codice per prevedere dove possano esistere nuove vulnerabilità. Il fuzzing intelligente — esemplificato dal programma OSS-Fuzz di Google potenziato dall'IA, che ha scoperto 26 nuove vulnerabilità in progetti già ampiamente testati nel 2024 — utilizza LLM, algoritmi genetici e reinforcement learning per generare input di test sempre più sofisticati. Il reinforcement learning per l'ottimizzazione dei percorsi di attacco modella il penetration testing come un Processo Decisionale di Markov, con algoritmi come PPO e DQN che apprendono sequenze di exploitation ottimali. Le capacità NLP consentono sia la simulazione di social engineering su larga scala sia la generazione automatizzata di report conformi a SOC 2, ISO 27001, PCI-DSS e framework NIST.

L'ecosistema degli strumenti è maturato rapidamente. XBOW ha raggiunto un traguardo storico a metà 2025 diventando il primo sistema autonomo a guidare la classifica US dei bug bounty di HackerOne, presentando oltre 1.060 segnalazioni di vulnerabilità in 90 giorni — incluse vulnerabilità critiche in Amazon, Disney, PayPal e Sony. NodeZero di Horizon3.ai ha dimostrato la sua scalabilità in un caso studio documentato in cui ha valutato 3.600 host in meno di tre giorni con una copertura del 98%, rispetto ai circa 600 host coperti da un engagement tradizionale. Pentera guida la categoria della simulazione di violazione e attacco con il 29,8% di mindshare di mercato, offrendo validazione continua con generazione di payload basata sull'IA. PentestGPT v2, l'assistente open-source basato su LLM, ha completato 10 su 13 macchine della competizione HackTheBox nel 2025, posizionandosi nella top 100 tra 8.036 partecipanti umani — ad un costo di circa 28,50 dollari per engagement Active Directory completo.

I benefici sono quantificabili. I guadagni in velocità sono notevoli: le piattaforme IA forniscono risultati completi in ore o giorni rispetto ai 35–100 giorni tipici per gli engagement tradizionali dalla pianificazione al report finale. La scalabilità è di fatto illimitata, con piattaforme che testano simultaneamente ambienti on-premises, cloud, ibridi e Kubernetes. L'economia dei costi è cambiata radicalmente — gli agenti IA operano a 18,21 dollari l'ora contro i 60 dollari l'ora dei pen tester professionisti. Il report IBM 2025 sul costo delle violazioni ha rilevato che le organizzazioni che utilizzano estensivamente IA e automazione risparmiano 1,9 milioni di dollari per violazione (3,62M contro 5,52M per chi non le utilizza) e identificano le violazioni quasi 100 giorni prima.

Perché l'expertise umana resta essenziale nonostante i progressi dell'IA

I limiti del testing basato sull'IA sono importanti da comprendere quanto le sue capacità. I team di ricerca hanno identificato due categorie distinte di fallimento: fallimenti di Tipo A (lacune di capacità risolvibili attraverso una migliore ingegneria) e fallimenti di Tipo B (limitazioni fondamentali di pianificazione e gestione dello stato che persistono indipendentemente dai miglioramenti degli strumenti). L'IA fatica costantemente con le falle nella logica di business, gli scenari di attacco nuovi che richiedono exploitation creativo e la comprensione contestuale che i tester umani esperti apportano. Il PCI-DSS v4.0.1 afferma esplicitamente che i test automatizzati non possono costituire un penetration test completo perché non possono comprendere il processo di business di un sistema e quindi violare quel sistema.

La gestione dei falsi positivi rimane una sfida continua. Mentre alcune piattaforme dichiarano una riduzione degli alert fino all'88% rispetto agli strumenti tradizionali, la natura non deterministica degli output degli LLM significa che input identici possono generare risultati in modo inconsistente — lo stesso test potrebbe identificare un problema solo 20 volte su 100 esecuzioni. L'analisi critica di Edgescan sostiene che molte soluzioni di "AI pen testing" sono scanner di vulnerabilità sofisticati con un marketing migliore. La preoccupazione sulla qualità è reale: i manutentori di cURL hanno sospeso il loro programma di bug bounty a causa del volume di segnalazioni di vulnerabilità di scarsa qualità generate dall'IA.

Il consenso degli esperti favorisce un modello ibrido — che utilizza l'IA per ampiezza, velocità e copertura continua, riservando l'expertise umana per il pensiero strategico, l'exploitation creativo, la simulazione di social engineering e la validazione di conformità che richiede professionisti certificati. Circa il 60% delle organizzazioni utilizza già un mix di approcci di test interni ed esterni, e questa integrazione è destinata ad approfondirsi man mano che l'IA gestisce il rilevamento e la validazione di routine mentre gli umani si concentrano sul lavoro ad alto valore aggiunto che le macchine non possono replicare.

La corsa agli armamenti IA si sta accelerando su entrambi i fronti

Gli attaccanti hanno adottato l'IA con una velocità e una sofisticazione allarmanti. Il Threat Landscape ENISA 2025 ha rilevato che oltre l'80% delle campagne di phishing globali utilizza ora contenuti generati o potenziati dall'IA. Il dark web ospita un ecosistema crescente di strumenti IA malevoli — da WormGPT e FraudGPT a varianti più recenti costruite su modelli jailbreakati, venduti via Telegram per circa €60 al mese. La ricerca ha documentato un aumento del 219% nelle menzioni di strumenti IA oscuri sui forum di cybercrimine nel 2024.

I deepfake rappresentano forse lo sviluppo offensivo dell'IA più inquietante. Un'indagine Gartner 2025 ha rilevato che il 62% delle organizzazioni ha subito almeno un attacco deepfake nei dodici mesi precedenti. Il vishing abilitato da deepfake è aumentato del 1.600% nel Q1 2025 rispetto al Q4 2024 negli USA, con perdite aziendali medie che raggiungono circa 500.000 dollari per incidente. La società di ingegneria Arup ha perso 25 milioni di dollari attraverso un attacco deepfake in videoconferenza all'inizio del 2024, mentre il CEO di Ferrari è stato quasi impersonato tramite clonazione vocale — impedito solo da una domanda di verifica personale. Gartner prevede che entro il 2027, gli agenti IA dimezzeranno il tempo necessario per sfruttare i takeover degli account.

I difensori stanno rispondendo con capacità IA altrettanto sofisticate. La rivoluzione dell'IA agentica nei Security Operations Center rappresenta il trend definente del 2025–2026. Microsoft Security Copilot ha mostrato guadagni misurabili — gli analisti junior hanno lavorato il 26% più velocemente con una precisione maggiore del 35%. L'integrazione del penetration testing IA con le piattaforme XDR/MDR rappresenta una convergenza particolarmente promettente. Il testing continuo basato sull'IA alimenta dati validati sulle vulnerabilità direttamente nei flussi di lavoro di rilevamento e risposta, creando un circuito chiuso in cui i risultati offensivi informano automaticamente le priorità difensive. Questo trasforma il penetration testing da un'attività di compliance isolata in una fonte continua di segnali per il rilevamento delle minacce, la prioritizzazione delle vulnerabilità e l'ottimizzazione automatizzata della risposta.

I quadri normativi stanno recuperando terreno rispetto alla realtà dell'IA

L'EU AI Act, entrato in vigore nell'agosto 2024 con un'attuazione graduale fino al 2027, crea obblighi specifici per i sistemi IA utilizzati nella cybersecurity. L'Articolo 15 impone accuratezza, robustezza e cybersecurity durante l'intero ciclo di vita del sistema IA. I sistemi IA ad alto rischio devono proteggersi da avvelenamento dei dati, evasione del modello, esempi avversariali e furto del modello. I modelli IA general-purpose con rischio sistemico richiedono test avversariali e segnalazione degli incidenti. L'emendamento al Cybersecurity Act adottato nel gennaio 2025 consente schemi di certificazione specifici per i servizi di sicurezza gestiti, inclusi penetration testing e audit di sicurezza.

L'Italia è diventata il primo Stato membro dell'UE a stabilire un quadro nazionale completo sull'IA allineato all'AI Act attraverso la Legge n. 132/2025 (in vigore da ottobre 2025). L'ACN è stata designata come autorità di sorveglianza del mercato responsabile della supervisione dell'IA nella cybersecurity, con sanzioni per le violazioni che raggiungono il 4% del fatturato globale. Il governo italiano ha autorizzato 1 miliardo di euro per investimenti in IA, cybersecurity e calcolo quantistico.

L'ENISA ha sviluppato il FAICP (Framework for AI Cybersecurity Practices) come risposta all'AI Act — un framework multilivello per la sicurezza dei sistemi IA durante il loro intero ciclo di vita. Questa guida, combinata con la tassonomia AI Threat Landscape dell'ENISA, fornisce il quadro europeo autorevole per le organizzazioni che implementano l'IA in contesti di sicurezza.

La traiettoria del mercato punta verso test autonomi e integrati

Il mercato dell'IA nella cybersecurity, valutato a circa 25–30 miliardi di dollari nel 2024, è previsto raggiungere gli 86–134 miliardi di dollari entro il 2030 a seconda delle definizioni di ambito, con una crescita del 22–24% annuo. Il mercato del penetration testing specificamente si sta espandendo da 2,45 miliardi di dollari nel 2024 verso oltre 5 miliardi entro il 2031, con il Pen Testing-as-a-Service (PTaaS) che cresce più rapidamente con un CAGR del 29,1%. Il solo mercato italiano del penetration testing ha raggiunto circa 46 milioni di dollari nel 2025. La spesa europea complessiva in sicurezza è prevista crescere dell'11,8% nel 2025 secondo IDC, con le PMI che rappresentano il segmento in più rapida crescita, spinte dalla pressione di conformità NIS2.

L'adozione sta accelerando su tutti i fronti. Il sondaggio ISC2 2025 AI Pulse ha rilevato che il 30% dei professionisti della cybersecurity ha già integrato strumenti di sicurezza IA, con un ulteriore 42% che sta attualmente esplorando l'adozione. Tra i pentester specificamente, il 75% ha adottato nuovi strumenti IA nel 2024, e l'adozione del pen testing basato sull'IA ha raggiunto l'80% principalmente per finalità di conformità normativa.

Il gap globale della forza lavoro nella cybersecurity di 4,76 milioni di posizioni non coperte — con una domanda di 10,2 milioni contro una forza lavoro di 5,5 milioni — rende il potenziamento tramite IA non semplicemente vantaggioso ma strutturalmente necessario. In Italia, le posizioni nella cybersecurity crescono di circa il 70% in termini di domanda ma rimangono tra i ruoli più difficili da coprire, con oltre 10.000 posizioni vacanti. Gli strumenti basati sull'IA non sostituiscono questa necessità di capitale umano, ma moltiplicano l'efficacia dei team esistenti e rendono il testing di sicurezza di livello enterprise accessibile alle PMI che non potrebbero mai permettersi modelli di engagement tradizionali.

Cosa significa per le organizzazioni che valutano la propria postura di sicurezza

La convergenza del penetration testing basato sull'IA con le piattaforme XDR/MDR rappresenta un cambio di paradigma per le operazioni di sicurezza. Diverse conclusioni emergono da questa analisi.

Primo, l'economia favorisce ora decisamente il testing continuo assistito dall'IA rispetto alle valutazioni manuali periodiche per la maggior parte della validazione di sicurezza di routine — a 18 dollari l'ora contro 60 per i tester umani e con un rilevamento delle vulnerabilità più rapido del 60–70%. Secondo, l'expertise umana resta insostituibile per il testing strategico, la valutazione della logica di business e la simulazione creativa di attacchi, rendendo il modello ibrido l'approccio ottimale per una copertura completa. Terzo, i requisiti normativi europei sotto NIS2, DORA e l'AI Act stanno creando sia pressione di conformità sia un quadro per l'adozione responsabile. Quarto, le organizzazioni che implementano estensivamente l'IA nelle loro operazioni di sicurezza risparmiano quasi 2 milioni di dollari per violazione e rilevano gli incidenti quasi 100 giorni prima — un vantaggio competitivo che si accumula nel tempo.

Per i decisori aziendali, la domanda non è più se integrare l'IA nel penetration testing e nelle operazioni di sicurezza, ma quanto velocemente possano farlo mantenendo la supervisione umana e le strutture di governance che impediscono al gap di governance dell'IA di diventare la loro prossima vulnerabilità. Le organizzazioni che troveranno questo equilibrio — sfruttando l'IA per velocità, scala e copertura continua mantenendo il giudizio umano per le decisioni che contano di più — saranno quelle che trasformeranno l'attuale panorama delle minacce da rischio esistenziale a realtà aziendale gestibile.