Embedding: esercizi interattivi

Il widget seguente, basato sulla proiezione degli embedding di TensorFlow, unisce 10.000 vettori statici word2vec in uno spazio 3D. La compressione delle dimensioni può essere fuorviante, perché i punti più vicini tra loro nello spazio ad alta dimensionalità originale potrebbero apparire più distanti nella proiezione 3D. I punti n più vicini sono evidenziati in viola, con n scelto dall'utente in punti __ isolati. La barra laterale a destra identifica quei punti più vicini.

In questi esperimenti, userai gli embedding word2vec nel widget sopra.

Attività 1

Prova a trovare i 20 punti più vicini per quanto segue e scopri dove i gruppi si trovano nel cloud.

  • iii, third e three
  • tao e way
  • orange, yellow e juice

Cosa noti in merito a questi risultati?

Fai clic qui per la nostra risposta

Anche se iii, third e three sono semanticamente simili, compaiono in contesti diversi nel testo e non sembrano essere vicini in questo spazio di embedding. In word2vec, iii è più vicino a iv che a third.

In modo simile, mentre way è una traduzione diretta di tao, queste parole compaiono più frequentemente con gruppi di parole completamente diversi nel set di dati utilizzato, pertanto i due vettori sono molto distanti.

I primi punti più vicini a orange sono colori, ma juice e peel, correlati al significato di orange come frutto, vengono mostrati come 14° e 18° punti più vicini. prince, intanto, come nel principe d'Orange, è il 17°. Nella proiezione, le parole più vicine a orange sono yellow e altri colori, mentre le parole più vicine a juice non includono orange.

Attività 2

Prova a immaginare alcune caratteristiche dei dati di addestramento. Per esempio, prova a trovare i 100 punti più vicini per quanto segue e scopri dove si trovano i gruppi nel cloud:

  • boston, paris, tokyo, delhi, moscow e seoul (è una domanda a trabocchetto)
  • jane, sarah, john, peter, rosa e juan

Fai clic qui per la nostra risposta

Molti dei punti più vicini a boston sono altre città negli Stati Uniti. Molti dei punti più vicini a paris sono altre città in Europa. Sembra che tokyo e delhi non abbiano risultati simili: uno è associato alle città di tutto il mondo e sono snodi di viaggio, mentre l'altro è associato a india e a parole correlate. seoul non compare affatto in questo insieme ridotto di vettori di parole.

Sembra che questo set di dati includa molti documenti correlati all'area geografica nazionale degli Stati Uniti, alcuni documenti correlati all'area geografica regionale europea e non molta copertura dettagliata di altri paesi o regioni.

In modo simile, questo set di dati sembra includere molti nomi inglesi maschili, alcuni nomi inglesi femminili e decisamente meno nomi di altre lingue. Tieni presente che Don Rosa ha scritto e illustrato il fumetto di Paperon de' Paperoni, Scrooge McDuck, per la Disney, il che probabilmente è il motivo per cui "scrooge" e "mcduck" sono tra i punti più vicini a "rosa".

I vettori di parole preaddestrati offerti da word2vec sono stati appunto addestrati in base agli articoli di Google News fino al 2013.

Attività 3

Gli embedding non si limitano alle parole. Anche immagini, audio e altri dati possono essere incorporati. Per questa attività:

  1. Apri la proiezione degli embedding di TensorFlow.
  2. Nella barra laterale a sinistra, intitolata Dati, scegli Mnist con immagini. Viene visualizzata una proiezione degli embedding del database MNIST di cifre scritte a mano libera.
  3. Fai clic per interrompere la rotazione e scegli una singola immagine. Aumenta e diminuisci lo zoom secondo necessità.
  4. Cerca i punti più vicini nella barra laterale a destra. Ci sono delle sorprese?
  • Perché alcuni 7 hanno 1 come punti più vicini? Perché alcuni 8 hanno 9 come punto più vicino?
  • C'è qualcosa sulle immagini alle estremità dello spazio di proiezione che sembra diverso dalle immagini al centro?

Ricorda che il modello che ha creato questi embedding sta ricevendo dati di immagini, vale a dire pixel, e sta scegliendo una rappresentazione numerica di vettori per ogni immagine. Il modello non fa un'associazione mentale automatica tra l'immagine del numero scritto a mano libera e la cifra numerica stessa.

Fai clic qui per la nostra risposta

A causa di similitudini nella forma, le rappresentazioni vettoriali di alcuni dei 7 più sottili e ravvicinati sono posizionati più vicino ai vettori per i 1 scritti a mano libera. Lo stesso accade per alcuni 8 e 9 e persino alcuni 5 e 3.

I numeri scritti a mano al di fuori dello spazio di proiezione sembrano molto più definibili come uno dei nove numeri e fortemente differenziati da altri numeri possibili.