Tradução do livro de Andrew Un, Passion for Machine Learning, Capítulos 38 e 39

capítulos anteriores


38. Como determinar se deseja adicionar dados com uma distribuição diferente


Suponha que queremos aprender como prever os preços das casas em Nova York. Com base no tamanho da casa (sinal de entrada x ), é necessário prever seu preço (valor-alvo y ).


Os preços da habitação em Nova York são muito altos. Suponha que você tenha um segundo conjunto de dados de preços de imóveis em Detroit, Michigan, onde os imóveis são muito mais baratos. Esses dados devem ser incluídos no conjunto de treinamento?


Com o mesmo tamanho x, o preço de uma casa y é muito diferente dependendo se é em Nova York ou em Detroit. Se for necessário prever os preços da habitação em Nova York, a combinação dos dois conjuntos de dados piorará os resultados. Nesse caso, é melhor não adicionar dados de propriedade de Detroit ao conjunto de treinamento.


* Nota do autor Uma maneira de resolver o problema da incompatibilidade dos dados de Detroit com os dados de Nova York é adicionar um parâmetro adicional a cada amostra de dados que indica a cidade. Dado o parâmetro x indicando a cidade, o valor alvo de y se torna único. No entanto, essa abordagem é rara na prática. *


Como esse caso com dados sobre preços de imóveis em Nova York e Detroit difere do caso com imagens de gatos obtidas de um aplicativo móvel e da Internet?


, , , ( ). . f(x), x ( y), . , «» () . , ( ), .


, - , , (). , , .


39.


, 200 000 5000 . 40:1. , 205 000 , , -, .


, 40 "-", , 40 ( ) , 5000 .


, .


, ( , ). , :


imagem


5000 , 200 000. β:


imagem


β = 1/40, 5000 200 000 -. β , , .


Ao reduzir o peso dos erros nas imagens obtidas da Internet, a necessidade de uma rede neural maciça, necessária para o algoritmo lidar com ambas as distribuições de dados, desaparece. Essa abordagem de redistribuição dos pesos da função de erro é necessária apenas se houver suspeita de que os dados adicionais (imagens da Internet) tenham uma distribuição muito diferente das amostras de validação e teste ou se a quantidade de dados adicionais exceder em muito a quantidade de dados da distribuição que corresponde à validação. e amostras de teste (imagens de um aplicativo móvel).


continuação


All Articles