Titolo: “Classificazione di Issue Reports tramite Few Shot Learning e Domain Adaptation”

Introduzione:

La classificazione degli Issue Reports è una sfida importante nel campo dell’ingegneria del software. Gli Issue Reports sono spesso utilizzati come strumento per registrare i problemi e le richieste dei clienti in merito ai prodotti software. Tuttavia, gestire grandi quantità di Issue Reports può essere dispendioso per le aziende e gli sviluppatori. Pertanto, la classificazione automatica degli Issue Reports può aiutare a migliorare l’efficienza e la produttività nello sviluppo di software.
In particolare, in questa tesi ci concentreremo sulla classificazione degli Issue Reports provenienti da GitHub, una delle più grandi piattaforme di hosting per lo sviluppo collaborativo di software. Gli Issue Reports su GitHub coprono una vasta gamma di problemi, come bug, richieste di funzionalità, errori di documentazione e altro ancora. Il nostro obiettivo è quello di utilizzare tecniche di apprendimento automatico avanzate, come Few Shot Learning e Domain Adaptation, per migliorare la classificazione degli Issue Reports su GitHub.

Obiettivi:

– Incrementare il dataset di Issue Reports annotati manualmente per migliorare la rappresentatività e la qualità del dataset.
– Adattare modelli Transformer, come BERT e RoBERTa, specificamente alla classificazione degli Issue Reports di GitHub attraverso Domain Adaptation e Fine-tuning.
– Esplorare l’efficacia del Few Shot Learning su dati annotati manualmente e confrontarlo con Domain Adaptation e Semantic Similarity Search.
– Valutare eventuali combinazioni di questi metodi.
======================================================================================================

Titolo: “Analisi di drift nei dati di Issue Report di GitHub”

Introduzione:

Il machine learning è diventato uno strumento fondamentale per l’elaborazione dei dati in molti settori. Tuttavia, i modelli di machine learning possono essere influenzati dal fenomeno di drift, ovvero dalla variazione dei dati in un sistema nel tempo. Il drift può essere causato da molti fattori, tra cui la variazione della distribuzione dei dati in ingresso, l’evoluzione dei comportamenti degli utenti o dei contesti in cui il sistema viene utilizzato. In questo contesto, è fondamentale sviluppare modelli di machine learning in grado di gestire il drift, per mantenere un alto livello di accuratezza e affidabilità nel tempo.
Il lavoro sarà svolto in un contesto in cui i dati arrivano in ordine cronologico, simulando il deployment di un modello addestrato sui dati di NLBSE22, mentre i dati di NLBSE23 simulano dati reali.

Obiettivi:

– Analizzare il fenomeno di drift nei dati di Issue Report di GitHub:
– Utilizzare tecniche di embedding del testo per analizzare la distanza tra i corpus dei dati disponibili NLBSE22 e NLBSE23 e tra finestre temporali adiacenti. (Feature/Data Drift)
– Individuare la presenza di nuove label nei dati, in modo da capire quando è necessario ri-addestrare il modello tenendo conto della nuova classe rilevata. (New Label)
– Monitorare la performance del classificatore, al fine di ri-addestrare il modello quando le performance non sono più accettabili. Confrontare modello addestrato su tutti i dati storici, con modelli addestrati su finestre temporali adiacenti.
Il contributo principale di questa tesi sarà l’analisi e la comprensione dei differenti tipi di drift presenti nei dati di Issue Report di GitHub, che potranno essere utilizzati per migliorare la progettazione di modelli di machine learning che tengano conto di questo fenomeno. In particolare, questa ricerca potrebbe contribuire allo sviluppo di modelli di machine learning in grado di adattarsi ai cambiamenti dei dati nel tempo, aumentando la loro robustezza e affidabilità.questa tesi sarà l’analisi e la comprensione dei differenti tipi di drift presenti nei dati di Issue Report di GitHub, che potranno essere utilizzati per migliorare la progettazione di modelli di machine learning che tengano conto di questo fenomeno.