capítulos anteriores
40. Problemas de generalização: da amostra de treinamento à validação
Suponha que você aplique ML em condições em que a distribuição de amostras de treinamento e validação seja diferente. Por exemplo, uma amostra de treinamento contém imagens da Internet + imagens de um aplicativo móvel e amostras de teste e validação apenas de um aplicativo móvel. No entanto, o algoritmo não funciona muito bem: há um erro muito maior nas amostras de validação e teste do que gostaríamos. Aqui estão alguns motivos possíveis:
- O algoritmo apresenta um desempenho ruim na amostra de teste e isso se deve ao problema de alto viés (evitável) na distribuição da amostra de treinamento
- O algoritmo é de alta qualidade no conjunto de treinamento, mas não pode generalizar seu trabalho para dados com uma distribuição semelhante ao conjunto de treinamento, que ele nunca havia visto antes. Este é um caso de alta dispersão.
- O algoritmo generaliza seu trabalho bem para novos dados da mesma distribuição que a amostra de treinamento, mas não pode lidar (generalizar) com a distribuição de validação e amostras de teste obtidas de outra distribuição. Isso indica inconsistência nos dados devido à diferença na distribuição da amostra de treinamento das distribuições de validação e amostras de teste
Por exemplo, suponha que o nível humano de reconhecimento de gatos seja quase ideal. Seu algoritmo mostra:
- 1% de erro na amostra de treinamento
- Erro de 1,5% para dados obtidos da mesma distribuição da amostra de treinamento, mas que não foram mostrados no algoritmo durante o treinamento
- Erro de 10% nas amostras de validação e teste
. , . , .
, , , . , , : , , « », .
:
- . , ( + ). , ( ).
- : , ( + ). , ; , .
- : , , , . (, )
- : . ( )
, :
5-7 « ».
41. ,
( ≈0%) , , , 0%.
, :
? , . , , .
, :
, . .. . .
. , , , .
:
. , .
, , :

, . Y : , , , , . , .
. ( , ), , . , ( B) , . . , ( A B).
Depois de determinar com que tipos de erros o algoritmo está enfrentando mais dificuldades, é possível decidir com mais razoabilidade se deve se concentrar na redução do viés, na dispersão ou se você precisa se intrometer na luta contra a inconsistência dos dados.
continuação