(Fonte) Alessandro Longo – 8 agosto 2025
Chat GPT-5 è stato presentato da Sam Altman come un passo avanti verso l’intelligenza artificiale generale. Più probabilmente agli esperti appare come una transizione verso una “intelligenza operativa”.
La nuova versione di Chat GPT è disponibile anche in Italia, con interfaccia più pulita e gestione automatica delle modalità di ragionamento.
Ragionamento e allucinazioni
Secondo i tester e i commentatori tecnici (Tom’s Hardware, Techtarget), GPT 5 mostra una migliore “consistenza” nell’affrontare problemi multi-passo maggiore coerenza nel completamento di sequenze complesse, capacità di orchestrare flussi di lavoro integrati (ricerca, dati, output).
Sul fronte dell’affidabilità, OpenAI dichiara una riduzione del 26% delle allucinazioni e del 44% della probabilità di errori fattuali gravi rispetto al modello precedente, sebbene resti il rischio che una risposta su dieci contenga ancora informazioni inesatte.
Programmazione
I dati condivisi da OpenAI e rilanciati dalle testate tecniche mostrano che il modello ottiene punteggi più alti in benchmark software-oriented (SWE-Bench e analoghi); impiega meno token e meno chiamate a strumenti esterni per risolvere lo stesso problema.
Finestra contestuale e multimodale
Un altro punto di forza è la capacità di gestire contesti molto più ampi, consentendo di lavorare con documenti lunghi, progetti complessi o conversazioni estese senza continue ricapitolazioni. La multimodalità, intesa come integrazione di testo, immagini e dati strutturati, è già solida, mentre audio e video restano prospettive future.
L’evoluzione non è solo nel modello, ma anche nell’infrastruttura: nuove API e strumenti SDK permettono di costruire agenti personalizzati che combinano ricerca, accesso a database e generazione di contenuti, con meccanismi di sicurezza e tracciabilità integrati.
Gli aspetti critici: test, prezzi, sicurezza
Accanto ai toni positivi, però, la stampa tecnica mantiene un registro critico e misurato: autorevoli blog e analisti chiedono verifiche indipendenti e benchmark riproducibili prima di trattare il rilascio come “svolta” definitiva. La comunità open e i forum tecnici — dove emergono test estemporanei e confronti dal basso — notano inoltre che la percezione di utilità può variare radicalmente a seconda del dominio: ciò che funziona bene per la scrittura di codice non è automaticamente trasferibile a compiti di valutazione clinica o a processi regolamentati.
Ma soprattutto c’è da porre attenzione alla sicurezza e alla governance: la capacità estesa del modello di generare artefatti complessi e di orchestrare azioni su risorse esterne richiede nuovi strumenti di audit, limiti d’accesso e policy operative. Gli esperti tecnici ricordano che il problema non è solo la riduzione delle allucinazioni, ma la gestione delle dipendenze tra modello e sistemi aziendali — come si verifica una risposta, chi è responsabile dell’output e come si traccia la catena delle decisioni in presenza di agenti autonomi. Le discussioni tecniche mettono al centro questioni pratiche: logging, test in ambienti isolati, approvazioni umane obbligatorie su output sensibili e criteri chiari per bloccare funzionalità rischiose.