capítulos anteriores
42. Mais sobre incompatibilidade de dados
Suponha que você tenha desenvolvido um sistema de reconhecimento de fala que funcione muito bem em uma amostra de treinamento e em uma "amostra para validação de treinamento". No entanto, a qualidade da amostra é de baixa qualidade: obviamente, você está lidando com o problema de inconsistência dos dados. O que pode ser feito neste caso?
Eu recomendaria o seguinte: (i) Tente entender como as distribuições de dados das amostras de treinamento e validação diferem. (ii) Encontre o maior número possível de exemplos de treinamento que correspondam aos exemplos de amostra de validação e nos quais o algoritmo está errado.
Por exemplo, para a análise manual de erros de um dispositivo de reconhecimento de fala, por exemplo, você analisa 100 exemplos, tentando entender em qual deles o algoritmo comete erros. E, como resultado, você descobre que o sistema não funciona bem, porque a maioria dos clipes de som da amostra de validação é gravada na máquina, enquanto quase todos os exemplos da amostra de treinamento não têm sons estranhos. O som do motor e o ruído da estrada degradam significativamente a qualidade do reconhecimento de fala. Nesse caso, você pode tentar adicionar mais exemplos de treinamento gravados no carro. O objetivo da análise de erro do algoritmo é procurar quais são as discrepâncias entre as amostras de treinamento e teste, levando à inconsistência dos dados nessas amostras.
« » , , . , , « », , , , . , , . , .
, . , , , , , .
43.
, , . , , .
, / . . , , . «» / , , , , . , «» , , .
, , , .
. , - , , . , .
, : , , . , , 1000 1 . 1 , 1000 , , . , , , — . . , , , .
, 1000 , 10 . «» 10 , , , . , , , .

. , . , . , . , ( ), , .
~ 20 . 3D- ; , , , , . .. . — , , , — 20 . , 100 000 , 20 , , «» 20 , , .
, , . , , , , 20 , 1 . .
Enquanto trabalhava na síntese de dados, minhas equipes às vezes passavam semanas antes que pudéssemos reproduzir detalhes que nos permitissem chegar perto o suficiente da distribuição real de exemplos, para que os dados sintetizados pudessem ter um efeito significativo. Porém, se você puder reproduzir corretamente objetos detalhados que são próximos daqueles nos quais o algoritmo deve mostrar alta qualidade, você terá a chance de obter acesso a um volume muito maior da amostra de treinamento do que antes.
continuação