Machine learning overfitting: quando è troppo, è troppo.

 

Ma se l’identificazione del modello venisse alterata da un rumore che deriva dall’eccesso di correlazioni ricavate dai training data? In questo caso si parla di overfitting ovvero . . . quando è troppo è troppo.

Quando si va in overfitting?
Se l’algoritmo “memorizza” i dati invece di analizzarli per trovare la funzione che generalizza l’andamento dei training data.  Questo significa che la radice di questo problema non è da ricercare nella quantità/qualità dei training data ma nel modo in cui l’algoritmo è chiamato a studiarli.

Cosa succede quando si va in overfitting?
La macchina non impara ad analizzare correttamente gli input, è poco efficiente e in caso di modelli complessi gli output risultanti possono allontanarsi molto dalla realtà.

Come risolvere il problema?
Esistono diverse tecniche per generalizzare i risultati dell’elaborazione dell’algoritmo evitando così l’overfitting. Alcuni esempi sono la distribuzione di probabilità a priori, la probabilità bayesiana applicata ai parametri, o la convalida incrociata. Ne riparleremo.