C’è una convinzione diffusa tra chi lavora con i mercati internazionali: i modelli di intelligenza artificiale migliorano di generazione in generazione, quindi le traduzioni automatiche miglioreranno di conseguenza. Sembra logico. Ma non è esattamente così.
La settimana scorsa eravamo alla CIUTI Conference 2026 all’Università IULM di Milano — una delle conferenze accademiche più importanti al mondo su traduzione, interpretariato e industria linguistica, con oltre 70 relatori da 17 Paesi. Davide Maestroni di Landoor, insieme alla dottoranda Antonella Bove dell’Università Ca’ Foscari di Venezia e a Paola Di Cataldo, ha presentato i risultati di uno studio condotto nell’ambito del progetto di dottorato PNRR che Landoor porta avanti con Ca’ Foscari.
La domanda di partenza era semplice: se cambi il modo in cui chiedi a un’AI di tradurre — il cosiddetto prompt — cambia anche la qualità del risultato? E questa differenza vale allo stesso modo tra modelli di generazioni diverse?
Da dove nasce la ricerca
Il punto di partenza non è stato un laboratorio. È stato il lavoro quotidiano. Durante le riunioni mensili con i nostri traduttori, era emersa una percezione condivisa: le traduzioni prodotte con i modelli più recenti non sembravano migliori. In alcuni casi, sembravano peggiori. Non nei numeri grezzi, ma nella capacità di restituire lo stile, la sfumatura, l’intenzione comunicativa del testo originale.
Invece di archiviare questa percezione come soggettiva, abbiamo deciso di verificarla con metodo scientifico. È così che è nato lo studio presentato allo IULM.
Come è stato condotto lo studio
Il corpus comprendeva 8 testi pubblicitari — il dominio più esigente in traduzione, perché richiede precisione terminologica e resa creativa allo stesso tempo. Le combinazioni linguistiche testate sono state italiano-inglese, inglese-italiano, spagnolo-italiano e italiano-spagnolo.
Per ogni testo sono stati utilizzati 6 prompt progressivamente più dettagliati: dal più generico (“Traduci in italiano”) al più completo, arricchito con informazioni su dominio, argomento specifico, finalità , pubblico destinatario e stile desiderato. Questo approccio si ispira alla teoria funzionalista della traduzione di Reiss e Vermeer: le stesse informazioni che un traduttore umano riceverebbe in un brief professionale.
Per ogni combinazione testo-prompt sono state generate 5 traduzioni, per un totale di 240 testi analizzati. La valutazione è stata condotta sia con metriche quantitative (distanza di Levenshtein per misurare quanto il modello variava le proprie risposte), sia con analisi qualitativa umana secondo il framework MQM — lo standard internazionale per la valutazione della qualità traduttiva — con annotazione della ricercatrice e validazione da parte di traduttrici esperte.
I risultati: tre scoperte che contano
La prima riguarda il prompt. Arricchire le istruzioni con informazioni contestuali — esattamente come si farebbe con un brief per un traduttore professionista — migliora la qualità dell’output. Ma non in modo lineare, e non con tutti i modelli allo stesso modo. Con GPT-4o, i risultati migliori si distribuiscono tra diversi livelli di dettaglio del prompt. Con GPT-5.3, il prompt che include le informazioni sul pubblico destinatario (P5) produce i risultati migliori in 5 casi su 8.
La seconda riguarda il confronto tra generazioni. In termini di numero e gravità degli errori, GPT-4o e GPT-5.3 si equivalgono sostanzialmente. Ma c’è una differenza qualitativa importante: il modello più recente perde in capacità di variazione stilistica. Produce traduzioni più uniformi, meno capaci di restituire le sfumature creative del testo originale. Per un testo tecnico può non fare differenza. Per un testo pubblicitario — dove il tono, il ritmo, la scelta lessicale sono tutto — è un problema serio.
La terza riguarda gli errori. La maggior parte degli errori gravi si ripete indipendentemente dal prompt utilizzato. Questo significa che il prompt da solo non risolve le criticità strutturali dei modelli: errori di accuratezza (termini culinari italiani lasciati non tradotti o tradotti in modo errato), incoerenze di registro (passaggi dal “tu” al “voi” nello stesso testo), mancata conversione delle unità di misura per il mercato di destinazione.
Perché questo ci riguarda tutti
Chi si occupa di comunicazione internazionale in azienda si trova oggi di fronte a una scelta: affidarsi interamente all’automazione, o lavorare con partner che sappiano governarla.
Questa ricerca dimostra che la traduzione assistita da AI non è un processo automatico. È un processo che richiede competenza linguistica a monte — nella progettazione del prompt — e a valle — nella revisione e validazione dell’output. Il modello più recente non è necessariamente il modello migliore per ogni tipo di testo. E la qualità finale dipende dalla capacità di chi guida il processo, non dalla potenza del motore.
È per questo che investiamo nella ricerca. Non come esercizio accademico, ma come fondamento del servizio che offriamo ogni giorno ai nostri clienti. Perché la nostra missione — abbattere le barriere linguistiche per le aziende che operano sui mercati globali — richiede strumenti potenti e la competenza per usarli.
L’AI accelera. Noi garantiamo.




