Tradução do livro de Andrew Un, Passion for Machine Learning, capítulos 42 e 43

capítulos anteriores


42. Mais sobre incompatibilidade de dados


Suponha que você tenha desenvolvido um sistema de reconhecimento de fala que funcione muito bem em uma amostra de treinamento e em uma "amostra para validação de treinamento". No entanto, a qualidade da amostra é de baixa qualidade: obviamente, você está lidando com o problema de inconsistência dos dados. O que pode ser feito neste caso?


Eu recomendaria o seguinte: (i) Tente entender como as distribuições de dados das amostras de treinamento e validação diferem. (ii) Encontre o maior número possível de exemplos de treinamento que correspondam aos exemplos de amostra de validação e nos quais o algoritmo está errado.


Por exemplo, para a análise manual de erros de um dispositivo de reconhecimento de fala, por exemplo, você analisa 100 exemplos, tentando entender em qual deles o algoritmo comete erros. E, como resultado, você descobre que o sistema não funciona bem, porque a maioria dos clipes de som da amostra de validação é gravada na máquina, enquanto quase todos os exemplos da amostra de treinamento não têm sons estranhos. O som do motor e o ruído da estrada degradam significativamente a qualidade do reconhecimento de fala. Nesse caso, você pode tentar adicionar mais exemplos de treinamento gravados no carro. O objetivo da análise de erro do algoritmo é procurar quais são as discrepâncias entre as amostras de treinamento e teste, levando à inconsistência dos dados nessas amostras.


« » , , . , , « », , , , . , , . , .


, . , , , , , .


43.


, , . , , .


, / . . , , . «» / , , , , . , «» , , .


, , , .


. , - , , . , .


, : , , . , , 1000 1 . 1 , 1000 , , . , , , — . . , , , .


, 1000 , 10 . «» 10 , , , . , , , .


imagem


. , . , . , . , ( ), , .


~ 20 . 3D- ; , , , , . .. . — , , , — 20 . , 100 000 , 20 , , «» 20 , , .


, , . , , , , 20 , 1 . .


Enquanto trabalhava na síntese de dados, minhas equipes às vezes passavam semanas antes que pudéssemos reproduzir detalhes que nos permitissem chegar perto o suficiente da distribuição real de exemplos, para que os dados sintetizados pudessem ter um efeito significativo. Porém, se você puder reproduzir corretamente objetos detalhados que são próximos daqueles nos quais o algoritmo deve mostrar alta qualidade, você terá a chance de obter acesso a um volume muito maior da amostra de treinamento do que antes.


continuação


All Articles