Il widget seguente, basato sulla
proiezione degli embedding di TensorFlow, unisce 10.000 vettori statici
word2vec
in uno spazio 3D. La compressione delle dimensioni può essere
fuorviante, perché i punti più vicini tra loro nello spazio ad alta dimensionalità
originale potrebbero apparire più distanti nella proiezione 3D. I
punti n più vicini sono evidenziati in viola, con n scelto dall'utente in
punti __ isolati. La barra laterale a destra identifica quei punti
più vicini.
In questi esperimenti, userai gli embedding word2vec
nel widget
sopra.
Attività 1
Prova a trovare i 20 punti più vicini per quanto segue e scopri dove i gruppi si trovano nel cloud.
iii
,third
ethree
tao
eway
orange
,yellow
ejuice
Cosa noti in merito a questi risultati?
Fai clic qui per la nostra risposta
Anche se iii
, third
e three
sono semanticamente simili, compaiono in contesti diversi nel testo e
non sembrano essere vicini in questo spazio di embedding. In
word2vec
, iii
è più vicino a iv
che a
third
.
In modo simile, mentre way
è una traduzione diretta di tao
,
queste parole compaiono più frequentemente con gruppi di parole completamente diversi
nel set di dati utilizzato, pertanto i due vettori sono molto distanti.
I primi punti più vicini a orange
sono colori, ma
juice
e peel
, correlati al significato di
orange
come frutto, vengono mostrati come 14°
e 18° punti più vicini. prince
, intanto, come nel
principe d'Orange, è il 17°. Nella proiezione, le parole più vicine a
orange
sono yellow
e altri
colori, mentre le parole più vicine a juice
non includono
orange
.
Attività 2
Prova a immaginare alcune caratteristiche dei dati di addestramento. Per esempio, prova a trovare i 100 punti più vicini per quanto segue e scopri dove si trovano i gruppi nel cloud:
boston
,paris
,tokyo
,delhi
,moscow
eseoul
(è una domanda a trabocchetto)jane
,sarah
,john
,peter
,rosa
ejuan
Fai clic qui per la nostra risposta
Molti dei punti più vicini a boston
sono altre città negli
Stati Uniti. Molti dei punti più vicini a paris
sono altre città
in Europa. Sembra che tokyo
e delhi
non abbiano
risultati simili: uno è associato alle città di tutto il mondo e sono
snodi di viaggio, mentre l'altro è associato a india
e a parole
correlate. seoul
non compare affatto in questo insieme ridotto di
vettori di parole.
Sembra che questo set di dati includa molti documenti correlati all'area geografica nazionale degli Stati Uniti, alcuni documenti correlati all'area geografica regionale europea e non molta copertura dettagliata di altri paesi o regioni.
In modo simile, questo set di dati sembra includere molti nomi inglesi maschili, alcuni nomi inglesi femminili e decisamente meno nomi di altre lingue. Tieni presente che Don Rosa ha scritto e illustrato il fumetto di Paperon de' Paperoni, Scrooge McDuck, per la Disney, il che probabilmente è il motivo per cui "scrooge" e "mcduck" sono tra i punti più vicini a "rosa".
I vettori di parole preaddestrati offerti da word2vec
sono stati appunto
addestrati in base agli
articoli di Google News fino al 2013.
Attività 3
Gli embedding non si limitano alle parole. Anche immagini, audio e altri dati possono essere incorporati. Per questa attività:
- Apri la proiezione degli embedding di TensorFlow.
- Nella barra laterale a sinistra, intitolata Dati, scegli Mnist con immagini. Viene visualizzata una proiezione degli embedding del database MNIST di cifre scritte a mano libera.
- Fai clic per interrompere la rotazione e scegli una singola immagine. Aumenta e diminuisci lo zoom secondo necessità.
- Cerca i punti più vicini nella barra laterale a destra. Ci sono delle sorprese?
- Perché alcuni
7
hanno1
come punti più vicini? Perché alcuni8
hanno9
come punto più vicino? - C'è qualcosa sulle immagini alle estremità dello spazio di proiezione che sembra diverso dalle immagini al centro?
Ricorda che il modello che ha creato questi embedding sta ricevendo dati di immagini, vale a dire pixel, e sta scegliendo una rappresentazione numerica di vettori per ogni immagine. Il modello non fa un'associazione mentale automatica tra l'immagine del numero scritto a mano libera e la cifra numerica stessa.
Fai clic qui per la nostra risposta
A causa di similitudini nella forma, le rappresentazioni vettoriali di alcuni dei
7
più sottili e ravvicinati sono posizionati più vicino ai vettori per
i 1
scritti a mano libera. Lo stesso accade per alcuni 8
e 9
e persino alcuni 5
e 3
.
I numeri scritti a mano al di fuori dello spazio di proiezione sembrano molto più definibili come uno dei nove numeri e fortemente differenziati da altri numeri possibili.