Apprendimento non supervisionato o unsupervised learning

Continuiamo il nostro approfondimento dedicato al Machine Learning parlando in questo articolo di apprendimento non supervisionato chiamato anche unsupervised learning all’interno della data science.

L’apprendimento automatico, in primis, utilizza algoritmi di auto-apprendimento per migliorare le prestazioni di un’attività con esperienza nel tempo nell’analisi dei dati. Può essere utilizzato per rivelare approfondimenti e fornire feedback quasi in tempo reale. 

In questo contesto, si inserisce l’apprendimento non supervisionato o unsupervised learning: un tipo di apprendimento automatico nel quale la macchina che analizza i dati dovrà trovare in autonomia corrispondenze e schemi dentro i dati che analizza, per restituire dei pattern, delle somiglianze e delle correlazioni.

In questo caso, l’intervento umano avviene a posteriori rispetto allo studio della macchina, per verificare che l’analisi sia corretta.

Apprendimento non supervisionato

Machine learning non supervisionato: di cosa si tratta?

Nell’apprendimento non supervisionato alla macchina non vengono forniti esempi etichettati o modelli precedenti su cui basare l’analisi dei dati immessi. La macchina deve scoprire schemi e trarre inferenze da sola, senza avere le risposte corrette in anticipo. 

In questo tipo di apprendimento automatico, dunque, la macchina classificherà o raggrupperà i dati scoprendo da solo la somiglianza delle funzionalità. 

Esempio di apprendimento non supervisionato

Utilizzando l’apprendimento non supervisionato alla macchina verrebbero sottoposte milioni di immagini di cani, senza etichettarli come “cani” ed utilizzerebbe il testo nella copia web o le didascalie associate alle immagini per decifrare gli indizi.

In particolare notando che la parola “cane” spesso compare nei vari testi, imparerebbe ad etichettare le foto come “cani”, appunto.

Apprendimento supervisionato e non supervisionato: quali differenze?

A differenza dell’apprendimento non supervisionato, che non richiede un’etichettatura preventiva da parte dei data analyst, l’apprendimento supervisionato si concentra sull’“istruzione” dell’uomo alla macchina nell’eseguire raggruppamenti o cluster di dati corretti in base alle somiglianze o differenze apprese.

Unsupervised learning: come funziona?

Esistono diversi metodi e modelli di algoritmo che si basano sull’apprendimento non supervisionato. Eccone alcuni tra i più utilizzati nel mondo del Machine Learning e che sono ricorrenti anche nei corsi per imparare le migliori tecniche di apprendimento non supervisionato.

Clustering 

Il clustering è l’algoritmo più utilizzato all’interno dell’apprendimento non supervisionato. Consiste nel raggruppare dati eterogenei in gruppi di dati con caratteristiche omogenee. Come indicato in precedenza, il clustering è ampiamente utilizzato per segmentare i clienti con caratteristiche e comportamenti comuni. Esistono diversi tipi di algoritmi di clustering. 

  • il metodo K-medie: tra i più popolari. Un modello di apprendimento non supervisionato che applica il partizionamento dei dati in modo non gerarchico. Sulla base di un insieme di dati, li classifica in più cluster, rispettando il principio dell’appartenenza esclusiva: la stessa osservazione e un dato possono appartenere solo a un singolo cluster, e non a due cluster alla volta;
  • il clustering gerarchico: noto anche come analisi cluster gerarchica, è un algoritmo che raggruppa oggetti simili in gruppi chiamati cluster. L’endpoint è un insieme di cluster, in cui ogni cluster è distinto dall’altro e gli oggetti all’interno di ciascun cluster sono sostanzialmente simili tra loro;
  • la scomposizione del valore singolare (SVD): la scomposizione del valore singolare si presta a due tecniche di raggruppamento convenienti ed efficaci: una che utilizza i segni dei vettori singolari e l’altra che utilizza lacune nei vettori singolari. Possiamo misurare e confrontare la qualità dei nostri cluster risultanti utilizzando una misura di entropia;
  • l’analisi delle componenti principali (PCA): è una tecnica popolare per derivare un insieme di caratteristiche a bassa dimensione da un insieme più ampio di variabili. Tuttavia, un’altra popolare applicazione di PCA è la visualizzazione di dati dimensionali superiori.

Associazione 

Se il clustering è il processo di raggruppamento dei punti dati in base alle loro somiglianze, l’associazione è il processo di scoperta delle relazioni tra gli attributi di quei punti dati. I metodi di apprendimento non supervisionato per associazione sono molto numerosi: 

  • Algoritmo a priori: utilizza set di dati frequenti per generare regole di associazione. È progettato per funzionare sui database che contengono transazioni. Viene utilizzato principalmente per l’analisi del paniere di mercato e aiuta a comprendere i prodotti che possono essere acquistati insieme. Può essere utilizzato anche in campo sanitario per trovare reazioni ai farmaci per i pazienti;
  • Algoritmo Eclat: sta per Equivalence Class Transformation. Questo algoritmo utilizza una tecnica di ricerca approfondita per trovare set di elementi frequenti in un database di transazioni. Esegue un’esecuzione più veloce rispetto all’algoritmo Apriori;
  • Algoritmo di crescita FP: FP sta per Frequent Pattern. È la versione migliorata dell’algoritmo Apriori. Rappresenta il database sotto forma di una struttura ad albero nota come modello o albero frequente. Lo scopo di questo albero frequente è estrarre i modelli più frequenti tra le associazioni di dati.

Riduzione della dimensionalità

Sono algoritmi che, lavorando su un numero elevato di input di dati inseriti, consentono di trarre le caratteristiche peculiari dei dati di partenza e di ricombinarli in nuovi dati separati.

Dove viene applicato l’apprendimento non supervisionato? 

Come abbiamo visto, l’apprendimento non supervisionato rileva dati o individui con caratteristiche o modelli comuni.

Ecco perché, dunque, questa tipologia di apprendimento automatico può essere utilizzato per sviluppare un sistema di raccomandazione del prodotto al cliente di un’azienda, progettato per offrirgli prodotti basati su appetiti e necessità specifiche, che abbiano le stesse caratteristiche. In questo modo, il cliente riconosce una dimensione “amorevole” all’interno dell’azienda stessa, che si prende cura delle sue necessità e, addirittura, è capace di offrigli una serie di opzioni simili in linea con le sue esigenze specifiche del momento. Di conseguenza, lato azienda si può procedere alla segmentazione della clientela in maniera più precisa e efficace.

Un altro esempio è la rilevazione di duplicati di porzione di testi e parole, che permette di trovare corrispondenze anche se le stesse parole vengono rimescolate e non inserite con un banale copia e incolla. Questa applicazione funziona sia per clienti singoli ma anche per ottimizzare le risposte dei motori di ricerca, che riescono con tale sistema a non restituire all’utente pagine duplicate dello stesso contenuto.

Tra gli altri utilizzi, molto interessante è la diagnostica per immagini in campo medico che consente di individuare situazioni critiche per la salute nelle immagini analizzate, che spesso sfuggono anche al professionista più esperto. 

Vantaggi e svantaggi dell’apprendimento non supervisionato

Un vantaggio principale dell’apprendimento non supervisionato nell’IA è che in questo caso non si ha bisogno di una persona per etichettare gli esempi o gli schemi e quindi i data analyst non sono coinvolti nella formazione. Questo può anche essere un rischio, poiché non c’è interazione umana per addestrare la macchina e inizialmente non si può prevedere se le classificazioni che fa sono giuste o sbagliate. 

Tra gli svantaggi, dunque, c’è quello per cui inizialmente potrebbero esserci risultati errati in maggioranza, almeno fino a quando la macchina non impara a trovare i risultati corrispondenti tra i dati analizzati. 

I modelli e i cluster scoperti, inoltre, possono essere inattesi per l’analista, il che può rappresentare un pro ma anche un contro: potrebbe ritrovarsi a scoprire tendenze che non stava cercando, ma anche non ottenere i risultati che desiderava. 

Apprendimento automatico: le altre tipologie

Quali sono gli altri tipi di apprendimento automatico? Scopriamoli insieme. 

Apprendimento supervisionato

Nell’apprendimento supervisionato vengono forniti sia l’input che l’output desiderato e la macchina deve imparare a mappare il primo sul secondo. A tal fine, la macchina viene addestrata su un insieme statisticamente rappresentativo di input di esempio e output corrispondenti.

Un esempio potrebbe essere insegnare a una macchina a riconoscere l’immagine di un cane.  Quando si imbatte nell’immagine di un cane, lo riconoscerebbe come un cane in base ai dati su cui era stato addestrato in base alle caratteristiche specifiche dell’immagine di input e confrontandole con le caratteristiche di immagini o oggetti etichettati.

Apprendimento per rinforzo

L’apprendimento per rinforzo differisce dall’apprendimento supervisionato e non supervisionato in quanto migliora continuamente il suo modello basato sul feedback delle esperienze. Impara per tentativi ed errori, dalle conseguenze della sua azione e da nuove scelte. Un esempio concettuale di questo potrebbe essere un’auto a guida autonoma per la quale spostarsi da un luogo all’altro senza schiantarsi riceverebbe un punteggio positivo.

FAQ

Condividi il Post

Risposte

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Articoli Correlati

Iscriviti alla Newsletter Utile del Digitale – Notizie, Offerte di Lavoro e tanto altro!