
Il fenomeno della “microscopia elettronica vegetativa” sta emergendo in un numero crescente di articoli scientifici, nonostante la sua mancanza di significato reale. Questa confusione è il risultato di una serie di errori casuali che si sono trasformati in un vero e proprio “fossile digitale”, intrappolato nei sistemi di intelligenza artificiale.
Le origini del fraintendimento
Le origini di questo fraintendimento risalgono agli anni ’50, quando due articoli furono digitalizzati in modo errato, combinando parole provenienti da colonne diverse. A complicare ulteriormente la situazione, un errore di traduzione dal farsi — dove le parole “vegetativo” e “scansione” si differenziano per un semplice puntino — ha confermato l’equivoco. Oggi, Google Scholar ha registrato almeno 22 pubblicazioni che utilizzano il termine, alimentando la diffusione dell’errore.
Modelli linguistici e inesattezze
Un’analisi recente ha dimostrato che modelli linguistici come GPT-3 e le sue versioni successive, inclusi GPT-4o e Claude 3.5, continuano a riprodurre questa inesattezza. Ciò suggerisce che l’errore si è radicato nei dataset di addestramento, probabilmente attraverso CommonCrawl, una vasta raccolta di pagine web.
Gravità della questione
La questione è di notevole gravità: la correzione di tali errori risulta quasi impossibile a causa delle enormi dimensioni dei dataset e della mancanza di trasparenza sui dati impiegati. Alcuni editori, come Elsevier, hanno addirittura difeso l’uso del termine prima di riconoscere l’errore.
Integrità della conoscenza
Questo caso solleva una questione cruciale: come possiamo garantire l’integrità della conoscenza? Questo interrogativo è particolarmente rilevante considerando che l’intelligenza artificiale ha esaurito i dati per l’addestramento. Ci troviamo di fronte a un problema più complesso di quanto si potesse inizialmente immaginare?