Spam, clickbait, fake news. I motori di ricerca online alla prova dell’IA

L’Intelligenza Artificiale sta inquinando i risultati di Google e altri? Eccome, secondo un nuovo studio a lungo termine. Quantità massicce di contenuti generati possono compromettere l’affidabilità dei motori di ricerca, aprendo la porta a frodi online e disinformazione

23/02/2024

Se vi sembra che ultimamente i risultati dei motori di ricerca siano meno azzeccati, potrebbe essere colpa dell’oceano di contenuti sintetici generati dall’intelligenza artificiale. Questi sono i risultati di un esperimento iniziato poco dopo l’avvento di ChatGPT a fine 2022. Un team di ricercatori tedeschi ha passato un anno ad analizzare i link restituiti da Google, Bing e DuckDuckGo, per poi concludere che sì, i principali risultati di alcuni tipi di ricerca sono di qualità nettamente inferiori – e i segnali fanno pensare a testo generato dall’IA.

A che pro inondare la rete di contenuti di bassa qualità? Il team, formato da ricercatori dall’Università di Lipsia, dalla Bauhaus-University Weimar e dal Center for Scalable Data Analytics and Artificial Intelligence (ScaDS.AI), si è concentrato su una delle direttrici più ovvie: le recensioni dei prodotti. E ha trovato che sebbene le ricerche con domande brevi e risposte concrete continuino a fornire risultati accurati, le pagine con un posizionamento più alto mostravano spesso segni di spam Seo.

Per i non addetti ai lavori, la sigla indica l’ottimizzazione dei contenuti a scopo di ottenere un miglior posizionamento nei risultati dei motori di ricerca. È un campo sempre più sofisticato per via della complessità crescente degli algoritmi di ricerca, anche per via dei filtri antispam con cui le aziende come Google migliorano i propri prodotti. La ricerca sottolinea come il gigante della ricerca sia molto migliorato nel corso dell’anno per rispondere alla nuova sfida dell’IA, ma non ha potuto fare a meno di notare un vero e proprio diluvio di contenuti a bassa qualità – semplificati, ripetitivi e potenzialmente sintetici.

La tecnica non è nulla di nuovo, ma lo sono quantità e qualità dei contenuti. L’IA generativa, di fatto, può agire come moltiplicatore d’effetto per le operazioni di frode. E se abbastanza contenuti sintetici inondano la rete, i risultati iniziano a cambiare. Nel migliore dei casi si tratta di clickbait, o annunci mirati ingannevoli e siti web di bassa qualità, costruiti apposta per apparire in cima alla pagina dei risultati e raggranellare proventi dagli spazi pubblicitari. Nel peggiore, si parla di siti farlocchi pensati per sottrarre all’utente informazioni personali o dati finanziari, come il numero della carta di credito.

Nicole Nguyen del Wall Street Journal ha smascherato una di queste operazioni. “Quando ho voluto cambiare l’account Google che uso per Gmail, ho cercato ‘come cambiare account Google predefinito’. Il primo risultato, con il testo evidenziato in grassetto, portava a un articolo pubblicato su LinkedIn. L’autore era Morgan Mitchell, content manager di Adobe. Mitchell ha firmato 150 articoli, tutti scritti in un formato Q&A adatto alla ricerca. Molti di questi articoli includono numeri di telefono del servizio clienti, la soluzione ideale per i problemi più complessi e per gli utenti meno esperti di tecnologia. Il problema è che Mitchell non esiste. E il numero di telefono riportato nell’articolo non appartiene né a Google né ad Adobe. Probabilmente Mitchell è solo frutto dell’immaginazione di qualche IA, e il numero è un modo per truffare gli utenti ignari”.

Il problema è bifronte. Da una parte la possibilità di inondare i motori di ricerca con quantità massicce di contenuti – testi, immagini, voci e persino video ultra-realistici interamente generati da un’IA – apre a una serie di scenari preoccupanti, che vanno dalla sicurezza personale alla perdita di redditività per chi genera contenuti di mestiere. Senza dimenticare il processo di degradazione delle informazioni che circolano nell’infosfera, con ovvi pericoli per la democrazia, specie in periodo elettorale; si può ben immaginare come le autocrazie possano amplificare la diffusione di disinformazione.

Dall’altra, l’IA sta già impattando il modo in cui i motori di ricerca fanno risaltare le informazioni (basti pensare al “box” che compare sotto alcune ricerche su Google e affini). E sempre più persone usano e useranno gli stessi chatbot per condurre le ricerche che prima facevano attraverso i motori. Ma i modelli linguistici alla base dei risultati raffinati dall’IA potrebbero finire per “informarsi” su contenuti sintetici a loro volta; un circolo vizioso che può amplificare la degradazione dei risultati.

Naturalmente, le aziende dietro ai motori di ricerca sono ben consapevoli di questo problema (anche perché le stesse Google e Microsoft offrono gratuitamente due dei chatbot più popolari del momento). “I nostri sistemi di lotta allo spam aiutano a mantenere la ricerca al 99% priva di spam”, ha dichiarato un portavoce di Google al WSJ, specificando che l’azienda aggiorna l’algoritmo di ricerca migliaia di volte all’anno. In parallelo le Big Tech si stanno muovendo per diminuire il rischio disinformazione, e tra gli addetti ai lavori c’è chi parla di progresso nella creazione di strumenti per identificare il contenuto generato. Ma il miglioramento dell’IA generativa continua ad assottigliare la differenza tra contenuti genuini e sintetici.

Spam, clickbait, fake news. I motori di ricerca online alla prova dell’IA

LE NOSTRE RIVISTE

SEGUICI SUI SOCIAL