Grazie al suo ruolo centrale nell'infrastruttura di localizzazione, Smartling è ben posizionata per eseguire analisi a livello macro sui modelli di utilizzo e sulle tendenze generali nel mondo dei contenuti web.

E di recente, abbiamo trovato qualcosa di interessante in quei dati.

Abbiamo notato che i bot LLM scansionano i siti localizzati. Presumibilmente, questo è per estrarre loro contenuti per migliorare ulteriormente i loro modelli fondamentali.

È una tendenza trasversale, con un impatto di ogni tipo e dimensione di azienda. Senza entrare nel merito della legalità, dell'etica o della proprietà di tali contenuti, siamo immediatamente colpiti dal potenziale per la creazione di una camera d'eco su Internet a causa di queste scansioni.

Contaminazione e conseguenze dei dati di formazione

Con l'aumento delle aziende che utilizzano un approccio MT-first o MT-fallback per i loro contenuti web, oltre alla recente disponibilità di LLM come fornitori di traduzioni, gli LLM potrebbero presto trovarsi nella posizione di "mangiare il proprio cibo per cani" inconsapevolmente.

Qual è l'impatto sulla qualità e sull'efficacia degli LLM quando i loro set di dati di addestramento sono intrecciati con contenuti tradotti che provengono dagli LLM?

Gli LLM si basano sulla vasta gamma di contenuti digitali disponibili gratuitamente su Internet, che si tratti di articoli di giornale, riviste accademiche, post di blog o libri scansionati, per accumulare contenuti sufficienti ad aumentare le dimensioni e la complessità di un modello pre-addestrato e quindi fornire capacità generative simili a quelle umane. Tuttavia, se una parte significativa del contenuto che viene ingerito è stata creata esclusivamente da LLM senza alcun apprendimento per rinforzo dal feedback umano, inizieranno a deviare in termini di qualità e accuratezza del loro output? Il ciclo di feedback creerà una sorta di IA'ismo che alla fine diffonderà e modificherà la struttura e il tono del linguaggio in generale?

È difficile stimare l'impatto, ma essendo all'inizio di questa rivoluzione dell'IA generativa, vediamo le potenziali insidie nel processo di raccolta dei dati utilizzato dai fornitori di LLM.

Proprietà intellettuale e questioni di valore

Identificare tutto il traffico in entrata appartenente ai bot è impossibile perché dipendiamo dal loro uso corretto delle intestazioni User-Agent che ne dichiarano l'origine e lo scopo. Molti robot di scraping senza scrupoli non solo nascondono il loro scopo, ma cercheranno attivamente di mascherarsi e di mimetizzarsi nel flusso generale di traffico registrato da qualsiasi sito web pubblico.

Un possibile approccio futuro per filtrare questo effetto «camera d'eco» è che gli LLM collaborino con i fornitori di contenuti per sviluppare una sorta di filigrana che identifichi i contenuti generati da un LLM in modo che possano essere classificati in modo appropriato e trattati. Questo tipo di filigrana sarà probabilmente richiesto per mitigare gli effetti della disinformazione, del furto di proprietà intellettuale e di altri comportamenti antisociali che potrebbero mostrare i malintenzionati.

Inoltre, le aziende che non si preoccupano o sono interessate a far eseguire la scansione dei propri dati da parte degli LLM potrebbero un giorno scegliere di monetizzare i propri contenuti vendendo l'accesso ai crawler LLM. Questo potrebbe rivelarsi un business secondario redditizio che paga un valore negoziato per i contenuti generati dall'uomo. I produttori di contenuti hanno già intentato cause legali contro gli LLM nel tentativo di riprendere il controllo del loro materiale protetto da copyright.

Cosa possiamo fare al riguardo?

Lo scraping LLM dei siti Web per i contenuti non è un segreto. Tuttavia, molte aziende potrebbero essere sorprese di apprendere che sta accadendo a loro e potrebbero partecipare inconsapevolmente ad attività che portano loro pochi benefici generando un valore infinito per gli LLM.

Nel mondo della traduzione automatica, "usare l'intelligenza artificiale per aiutare l'intelligenza artificiale" non è un'idea nuova. Quando i dati specifici del client, del dominio o della lingua a coda lunga sono scarsi, non è raro ricorrere a tecniche di aumento dei dati come la scansione web di siti Web simili, la traduzione inversa o la produzione di dati creando varianti di lingua di origine e di destinazione leggermente diverse.

Tuttavia, è fondamentale che chiunque si affidi ai risultati del modello comprenda i pro e i contro di tali approcci. Nella maggior parte dei casi, tali tecniche possono solo migliorare in modo incrementale la qualità del modello. In definitiva, non sostituiscono il motto alla base dell'apprendimento automatico: la necessità di dati ben etichettati e pertinenti.

Perché aspettare per tradurre in modo più intelligente?

Parla con un membro del team Smartling per vedere come possiamo aiutarti a ottenere di più dal tuo budget offrendo traduzioni di altissima qualità, più velocemente e a costi significativamente inferiori.
Cta-Card-Side-Image