Vai al contenuto principaleVai al footer
Milano, Meet Digital Cultural Center.  Proiezione con scritta Artificial Dreams

IA generative multimodali e accessibilità

Applicazioni dell'IA a supporto della comunicazione

Tag
Nome autore
Data
31 ottobre 2025

di Gino Roncaglia

In termini molto generali, per accessibilità si intende la capacità di un ambiente, di un dispositivo, di un servizio, di un contenuto o una risorsa, di risultare utilizzabile nel modo più facile, più efficace e più completo possibile da un insieme il più possibile ampio di utenti, indipendentemente dalle loro caratteristiche e capacità individuali e collettive, inclusa la provenienza etnica, le condizioni socioeconomiche, gli stili cognitivi, le eventuali disabilità o diverse abilità, la tipologia degli strumenti di accesso utilizzati [1].

L’accessibilità in ambito informatico (inclusa l’accessibilità di contenuti, risorse e servizi di rete) rappresenta dunque solo un sottoinsieme di un campo più ampio, e va tenuto presente che strumenti informatici possono essere utilizzati anche per garantire l’accesso ad ambienti, servizi o risorse fisiche: così, ad esempio, una app destinata a utenti non vedenti, che utilizzi la fotocamera di uno smartphone per raccogliere informazioni visive sull’ambiente circostante e trasformarle in informazione sonora, può essere utilizzata in una varietà di situazioni della vita quotidiana, inclusa l’interazione con ambienti fisici (attraversare una strada, visitare un museo…). 

Una componente particolarmente significativa (anche se non certo l’unica) del lavoro svolto nel campo dell’accessibilità riguarda proprio la compensazione di difficoltà relative alla percezione o interpretazione di un codice co­municativo, attraverso il ricorso a informazioni basate su altri codici comunicativi. Così, per fare solo alcuni fra i molti esempi possibili, una descrizione sonora potrà aiutare nella fruizione di contenuti visivi da parte di persone non vedenti, una trascrizione testuale potrà aiutare nella fruizione di contenuti sonori da parte di persone non udenti, una traduzione, una riformulazione più semplice o una descrizione visiva potranno aiutare a comprendere informazioni testuali complesse da parte di persone con competenze linguistiche insufficienti rispetto alla lingua di partenza, e così via. La disponibilità di strumenti che consentano il passaggio di un contenuto informativo da una modalità espressiva all’altra, e lo facciano in modo automatico, veloce e qualitativamente efficace, rappresenta dunque un’innovazione di enorme portata.

Va aggiunto che l’accessibilità ha molto spesso un carattere contestuale, che gli strumenti compensativi tradizionali non sempre riescono a gestire adeguatamente. Pensiamo ad esempio alla descrizione testuale di un reperto museale. Questa descrizione ha un primo compito di livello abbastanza generale: presentare e rendere 'interpretabile' il reperto da parte di un visitatore non specialista. In alcuni casi (ma difficilmente in tutti) un museo può anche offrire una o più descrizioni ulteriori: ad esempio, una descrizione in Braille destinata a persone non vedenti, e/o una descrizione 'facile' per bambine e bambini, e/o una descrizione più approfondita, ad esempio attraverso una guida o un’audioguida. Ciascuno di questi livelli descrittivi ha le proprie caratteristiche e si rivolge – per riprendete un termine largamente indagato in ambito semiotico – a un proprio 'lettore ideale'. Ma i visitatori reali offrono uno spettro di situazioni e necessità di fruizione assai più ampio. Possono esserci visitatori di varie età, con provenienze e interessi diversi, con curiosità specifiche, con diversi livelli di conoscenze e competenze pregresse. Chiaramente, nessun museo al mondo potrebbe personalizzare i propri strumenti informativi a un livello di differenziazione e di dettaglio tale da rispondere a queste molteplici situazioni e necessità. Un sistema di intelligenza artificiale, invece, potrebbe trasformarsi in una sorta di 'guida' personalizzabile, capace di interagire con il visitatore per determinare il codice comunicativo, la tipologia e il livello di descrizione di volta in volta più opportuni e di generare poi il proprio output sulla base di un contesto specifico. 

Per farci un’idea delle possibilità in quest’ambito, ho fornito a ChatGPT 4V (la V indica la presenza del modello visivo) un file con l’immagine del quadro La notte stellata di Vincent van Gogh, senza specificare nel prompt la natura dell’immagine ma chiedendogli unicamente di fornirmene una descrizione. ChatGPT ha immediatamente riconosciuto il quadro e ha restituito la seguente descrizione:

L’immagine che hai caricato è una riproduzione del famoso dipinto La notte stellata di Vincent van Gogh. Questo capolavoro è stato creato nel 1889 e rappresenta una vista dalla finestra dell’ospedale psichiatrico di Saint-Rémy-de-Provence, dove van Gogh si trovava ricoverato. Il dipinto è noto per il suo cielo turbolento e onirico, ricco di vortici di stelle scintillanti e una luna crescente luminosa. Le pennellate sono spesse e dinamiche, creando un movimento che sembra animare il cielo notturno. Il cielo è dominato da tonalità di blu e giallo, con tocchi di bianco per le stelle e la luna.
Nella parte inferiore del quadro, il paesaggio è più calmo e ordinato. Ci sono colline ondulate, una chiesa con un campanile alto e sottile che si staglia contro il cielo, e case basse con finestre che sembrano piccoli quadri di luce nella notte. Un cipresso alto e sinuoso, tipico del paesaggio meridionale francese, si erge in primo piano, fungendo da ponte tra la terra e il cielo.
I colori della terra sono più muti rispetto al cielo, con varie tonalità di verde, blu e marrone che danno un senso di quiete in contrasto con il tumulto sopra. La composizione del dipinto guida l’occhio a muoversi attraverso la scena, dal cipresso al cielo dinamico e poi verso il paese addormentato.
[2]

 Chiedendo al sistema di fornire una descrizione del quadro per bambine o bambini di otto-nove anni di età, il risultato è invece il seguente:

Questo quadro sembra una festa nel cielo ed è stato dipinto molto tempo fa da un pittore che si chiamava Vincent van Gogh, che amava usare molti colori e fare le pennellate tutte curve e mosse.
Il quadro si chiama
La notte stellata e se lo guardi, puoi vedere un sacco di stelline che girano e si rincorrono nel cielo. Il cielo sembra dipinto con onde di colore blu e giallo, e se ti concentri, puoi quasi sentire la musica delle stelle.
Sotto questo cielo che sembra muoversi, c’è un villaggetto che dorme sotto un grande piumone scuro. Le casette hanno le lucine spente perché è notte e tutti stanno sognando. C’è anche una chiesetta con un campanile che sembra toccare il cielo, quasi come se volesse raggiungere la luna.
E poi c’è un albero grandissimo, che assomiglia a una gigantesca piuma verde, e sembra come se stesse facendo il solletico alle stelle. Van Gogh ha dipinto questo albero per collegare la terra con il cielo, facendoci capire che tutto è connesso.
Quando guardi questo quadro, puoi immaginare di essere parte di questo mondo magico che van Gogh ha creato. E anche se siamo in un museo, se chiudi gli occhi, puoi sognare di essere lì, in mezzo a quella festa nel cielo.
[3]

 Ecco invece la risposta alla richiesta di descrivere il quadro dal punto di vista più strettamente pittorico:

Dal punto di vista pittorico, La notte stellata di Vincent van Gogh è un capolavoro della tecnica espressionista, dove l’uso del colore e delle pennellate è tanto emotivo quanto innovativo. Van Gogh utilizza la tecnica a impasto, applicando il colore in strati densi e spessi, che aggiunge una ricca tridimensionalità alla tela.
Le pennellate sono vigorose e visibili, creando un ritmo pulsante su tutta la superficie. L’artista esegue mosse circolari per rappresentare il cielo, creando vortici che catturano l’occhio e lo guidano attraverso la composizione. Queste pennellate non solo definiscono la forma e il movimento del cielo, ma anche la luminosità delle stelle e della luna.
Van Gogh sceglie una palette di colori che è allo stesso tempo realistica e fantastica. Usa tonalità di blu e ciano per il cielo notturno, intervallate da tocchi di giallo, bianco e arancio per rappresentare la luminosità delle stelle e della luna. Il contrasto tra il caldo giallo delle stelle e il freddo blu del cielo crea un vibrante effetto di luce che sembra emanare dall’interno del quadro.
Il paesaggio sotto è più terreno e rassicurante, con i blu e i verdi a creare un senso di calma stabilità, in netto contrasto con il tumulto del cielo. Il cipresso, che si staglia in primo piano, è reso con pennellate verticali e sinuose, enfatizzando la sua natura di collegamento tra terra e cielo. In questo dipinto, van Gogh non si preoccupa della precisione fotografica, ma piuttosto esprime la sua esperienza emotiva del paesaggio, usando la pittura come mezzo per trasmettere la sua tumultuosa ricerca interiore. La tecnica pittorica diventa un’estensione della sua psiche, facendo di
La notte stellata un’opera profondamente personale e universale allo stesso tempo. [4]

 Quelli forniti sono ovviamente solo esempi, e – attraverso la mediazione del prompt o di un contesto adeguato (per 'contesto' in questo caso si intende un insieme di informazioni fornite al sistema dopo il suo addestramento, con la funzione di indirizzare l’output nel senso più adeguato rispetto agli obiettivi specifici che si vogliono raggiungere) – il sistema può migliorare e personalizzare ulteriormente la descrizione in base alle necessità.

Il quadro di van Gogh è molto noto, probabilmente fa parte del corpus di addestramento sulla cui base è stato costruito il VLM di ChatGPT 4V, e il sistema lo sa identificare; ma, ricordiamo, il corpus di addestramento non è usato come un database: gli output prodotti da ChatGPT non sono 'copiati' dalle informazioni su cui è stato addestrato ma prodotti generativamente, un token alla volta, su base statistico-probabilistica. Lo possiamo verificare constatando che i risultati sono qualitativamente ottimi – e per certi versi ancor più impressionanti – se usiamo immagini meno note o del tutto sconosciute. Fabio Ciotti ha discusso questo tema in un thread assai interessante su Facebook, mostrando come il sistema descriva – cogliendone correttamente anche le sfumature emotive – un quadro dipinto da sua figlia e sicuramente non presente in rete. [5]

La possibilità di generare descrizioni multimodali dettagliate e personalizzabili rappresenta una vera e propria rivoluzione nel campo dell’accessibilità: alcuni casi sono già abbastanza noti [6], molti altri vengono esplorati proprio in questi mesi. Fra gli effetti di questa rivoluzione, vi sarà probabilmente anche il ripensamento di alcune scelte che parevano consolidate. Ad esempio, nel campo della web accessibility e dell’editoria digitale un elemento essenziale è rappresentato dalle descrizioni testuali alternative fornite attraverso l’attributo 'ALT' del marcatore 'IMG'. Tuttavia, questo attributo ha (almeno) due funzioni diverse: da un lato, le descrizioni testuali alternative aiutano nell’interpretazione delle immagini da parte di persone con disabilità visive; dall’altro, però, sono anche uno strumento utile ai motori di ricerca, sia per migliorare l’indicizzazione del testo sia per permettere di ricercare e ritrovare più efficacemente le immagini che vi compaiono. In altri i termini, il testo fornito attraverso l’attributo 'ALT' è sia uno strumento di accessibilità, sia uno strumento per la search engine optimization (SEO). È facile capire che queste due differenti funzioni potrebbero suggerire l’uso di testi descrittivi almeno in parte diversi. D’altro canto, l’uso delle descrizioni testuali alternative non è affatto tanto diffuso quanto sarebbe auspicabile: nel maggio 2022, in occasione del Global Accessibility Awareness Day, Twitter (oggi X) ha fornito al riguardo un dato impressionante: solo lo 0,6% delle immagini usate nei Tweet è accompagnato da un 'alt text' [7]. Questo significa che oltre il 99% dei tweet con immagini non è di fatto accessibile a una persona non vedente. La generazione di 'alt text' usando sistemi di IA generativa, eventualmente anche a integrazione di contenuti già prodotti, può aiutare a capovolgere la situazione e rende anche possibile pensare all’uso di più descrizioni testuali, in funzione di scopi diversi. Il lavoro in questa direzione è appena iniziato, e nei primi sistemi image-to-speech doveva fare i conti con la difficoltà di far cogliere ai sistemi di IA generativa i contesti delle immagini da descrivere: la descrizione “uomo in camice bianco tiene fermo un gatto arancione su un tavolo bianco” è più dettagliata ma probabilmente meno informativa della più semplice “veterinario che visita un gatto” [8]; i sistemi nativamente multimodali dovrebbero permettere in questo campo risultati decisamente migliori.

Il contributo è estratto dall'articolo: L’intelligenza artificiale generativa multimodale in ambito umanistico. Alcune considerazioni introduttive, 2024, DIGITCULT, 8 (2), 127-137.


[1] Ho cercato qui di riassumere in forma sintetica i principali tratti comuni ad alcune fra le molte e diverse definizioni del concetto di accessibilità proposte in letteratura; per una rassegna abbastanza recente che include alcuni fra i più importanti lavori di riferimento in materia, in particolare nel campo dell’interazione uomo-computer, si veda Mack et al., 2021.
[2] La risposta è stata data da ChatGPT 4 V in data 28 dicembre 2023. Prompt: “Forniscimi una descrizione dettagliata di questa immagine”.
[3] La risposta è stata data da ChatGPT 4 in data 28 dicembre 2023. Prompt: “Forniscimi ora una descrizione dell’immagine, adatta a bambine e bambini di 8-9 anni”.
[4] La risposta è stata data da ChatGPT 4 in data 28 dicembre 2023. Prompt: “Forniscimi una descrizione dell’immagine dal punto di vista della tecnica pittorica utilizzata”.
[5] Fabio Ciotti, post su Facebook del 14 ottobre 2023, raggiungibile qui. Per la descrizione del quadro di Klee a cui il post fa riferimento, si legga qui
[6] Per fare solo un esempio, la app Be My Eyes, che usa la fotocamera dello smartphone per fornire a un utente non vedente la descrizione dell’ambiente circostante, sta passando dall’uso di volontari umani (dal 2015, più di 6 milioni di volontari avevano collaborato nel fornire descrizioni vocali di quanto inquadrato dallo smartphone delle persone che usavano la app) all’uso di ChatGPT 4, con notevoli vantaggi sia nella rapidità della descrizione, sia rispetto alla privacy della persona non vedente: si legga qui.
[7] https://twitter.com/XA11y/status/1527287962479869952.
[8] L’esempio è nel post Be Careful When Using A.I. for Alternative Text del blog del Bureau of Internet Accessibility, 26 ottobre 2023.