O zestawach treningowych, walidacyjnych i testowych w uczeniu maszynowym
On 17 października, 2021 by adminTen artykuł ma być krótkim wstępem dla każdego, kto potrzebuje poznać różnicę pomiędzy różnymi podziałami zbioru danych podczas szkolenia modeli uczenia maszynowego.
Dla tego artykułu, zacytowałbym podstawowe definicje z doskonałego artykułu Jasona Brownlee na ten sam temat, jest on dość obszerny, sprawdź go, aby uzyskać więcej szczegółów.
Training Dataset: Próbka danych używanych do dopasowania modelu.
Faktyczny zbiór danych, którego używamy do trenowania modelu (wagi i uprzedzenia w przypadku sieci neuronowej). Model widzi i uczy się na podstawie tych danych.
Zbiór danych walidacyjnych
Zbiór danych walidacyjnych: Próbka danych używana w celu zapewnienia bezstronnej oceny dopasowania modelu do zbioru danych treningowych podczas dostrajania hiperparametrów modelu. Ocena staje się bardziej stronnicza, gdy umiejętności na zbiorze danych walidacyjnych są włączane do konfiguracji modelu.
Zbiór walidacyjny jest używany do oceny danego modelu, ale jest to do częstej oceny. My, jako inżynierowie uczenia maszynowego, używamy tych danych do dostrajania hiperparametrów modelu. Dlatego model od czasu do czasu widzi te dane, ale nigdy się z nich nie „uczy”. Używamy wyników zbioru walidacyjnego i aktualizujemy hiperparametry wyższego poziomu. Tak więc zbiór walidacyjny wpływa na model, ale tylko pośrednio. Zbiór walidacyjny jest również znany jako zbiór Dev lub zbiór Development. Ma to sens, ponieważ ten zbiór danych pomaga podczas etapu „rozwoju” modelu.
Zbiór testowy
Zbiór testowy: Próbka danych używana w celu zapewnienia bezstronnej oceny ostatecznego dopasowania modelu na zbiorze danych treningowych.
Zbiór danych testowych zapewnia złoty standard używany do oceny modelu. Jest on używany tylko wtedy, gdy model został całkowicie wytrenowany (przy użyciu zbiorów trenujących i walidacyjnych). Zestaw testowy jest generalnie tym, co jest używane do oceny konkurencyjnych modeli (na przykład w wielu konkursach Kaggle, zestaw walidacyjny jest początkowo udostępniany wraz z zestawem treningowym, a rzeczywisty zestaw testowy jest udostępniany tylko wtedy, gdy konkurs jest bliski zamknięcia, i to wynik modelu na zestawie testowym decyduje o zwycięzcy). Wiele razy zbiór walidacyjny jest używany jako zbiór testowy, ale nie jest to dobra praktyka. Zbiór testowy jest zazwyczaj dobrze opracowany. Zawiera starannie wyselekcjonowane dane, które obejmują różne klasy, z którymi model mógłby się zmierzyć, gdy jest używany w prawdziwym świecie.
O współczynniku podziału zbioru danych
Teraz, gdy już wiesz, co robią te zbiory danych, możesz szukać zaleceń, jak podzielić swój zbiór danych na zbiory Trening, Walidacja i Test.
Zależy to głównie od 2 rzeczy. Po pierwsze, całkowita liczba próbek w danych, a po drugie, rzeczywisty model, który trenujesz.
Niektóre modele wymagają dużej ilości danych do trenowania, więc w tym przypadku optymalizowałbyś dla większych zbiorów treningowych. Modele z bardzo małą ilością hiperparametrów będą łatwe do walidacji i dostrojenia, więc prawdopodobnie możesz zmniejszyć rozmiar swojego zestawu walidacyjnego, ale jeśli twój model ma wiele hiperparametrów, chciałbyś mieć również duży zestaw walidacyjny (chociaż powinieneś również rozważyć walidację krzyżową). Również, jeśli masz model bez hiperparametrów lub taki, który nie może być łatwo dostrojony, prawdopodobnie nie potrzebujesz zestawu walidacyjnego!
Podsumowując, jak wiele innych rzeczy w uczeniu maszynowym, stosunek podziału trening-test-walidacja jest również dość specyficzny dla twojego przypadku użycia i łatwiej jest dokonać oceny, gdy trenujesz i budujesz coraz więcej modeli.
Uwaga na walidację krzyżową: Wiele razy, ludzie najpierw dzielą swoje zbiory danych na dwa – Trening i Test. Następnie, odkładają na bok zbiór testowy i losowo wybierają X% zbioru treningowego jako rzeczywisty zbiór treningowy i pozostałe (100-X)% jako zbiór walidacyjny, gdzie X jest stałą liczbą (powiedzmy 80%), model jest następnie iteracyjnie trenowany i walidowany na tych różnych zbiorach. Istnieje wiele sposobów, aby to zrobić i jest to powszechnie znane jako walidacja krzyżowa. Zasadniczo używa się zbioru treningowego do wygenerowania wielu podziałów zbiorów treningowego i walidacyjnego. Walidacja krzyżowa unika nadmiernego dopasowania i staje się coraz bardziej popularna, z K-krotną walidacją krzyżową jako najbardziej popularną metodą walidacji krzyżowej. Sprawdź to, aby dowiedzieć się więcej.
Dodaj komentarz