POET: gerando infinitamente ambientes de aprendizagem cada vez mais complexos e diversificados

Estamos interessados no open-endedness na Uber AI Labs porque ela oferece o potencial para gerar um currículo diversificado e em constante expansão para aprendizado de máquina inteiramente por conta própria.

Ter grandes quantidades de dados geralmente alimenta o sucesso no aprendizado de máquina e, portanto, estamos trabalhando para criar algoritmos que geram seus próprios dados de treinamento em quantidades ilimitadas.

Na prática normal de aprendizado de máquina, o pesquisador identifica um problema específico (por exemplo, um problema de classificação como o ImageNet ou um videogame como o Montezuma’s Revenge) e depois se concentra em encontrar ou projetar um algoritmo para alcançar o melhor desempenho.

Às vezes, porém, não queremos apenas resolver problemas conhecidos, porque problemas desconhecidos também são importantes.

Estes podem ser casos críticos (por exemplo, em aplicações de segurança) que são críticos para expor (e resolver), mas eles também podem ser degraus/trampolins essenciais cujas soluções podem ajudar a progredir em problemas ainda mais desafiadores.

Consequentemente, estamos explorando algoritmos que continuamente inventam tanto os problemas quanto as soluções de crescente complexidade e diversidade.

Uma das razões mais convincentes para gerar tanto problemas quanto soluções é que é a única abordagem realista para resolver uma série de desafios proibitivamente difíceis.

Para entender por que, considere o papel essencial do currículo na educação. A razão pela qual existe um currículo é que é muito difícil aprender habilidades avançadas ou conceitos sem antes dominar as habilidades fundamentais.

Este princípio aplica-se não apenas aos estudantes nas salas de aula, mas também aos algoritmos de aprendizagem: como os resultados neste projeto (revelado brevemente) mostrarão, tarefas difíceis ou impossíveis de aprender tornam-se diretamente tratáveis se forem, pelo contrário, o fim de uma sequência de tarefas degraus – na verdade, um currículo.

No entanto, embora um currículo possa ser essencial para algumas tarefas em princípio, na prática enfrentamos o problema de não sabermos o currículo certo para qualquer tarefa, e também não conhecemos toda a gama de tarefas que podem ser aprendidas se elas são atacadas no momento certo e na ordem correta.

Na verdade, como também será mostrado em breve, muitas vezes o melhor currículo é contra-intuitivo ou mesmo retrógrado (ou seja, aprender tarefas mais difíceis pode levar a melhores soluções para as mais simples).

Como resultado, embora os currículos sejam frequentemente elaborados explicitamente à mão, a gama completa do que é possível só pode ser revelada deixando o próprio currículo emergir ao mesmo tempo em que os alunos o seguem.

O caráter aberto oferece o benefício de currículos autogerados e muitos outros: no seu melhor, ele pode continuar a gerar novas tarefas em uma árvore irradiante de desafios indefinidamente, juntamente com agentes que podem resolver esse conjunto crescente de desafios cada vez mais diversificados e complexos.

Uma das inspirações originais para a pesquisa em finalidades abertas é a evolução natural, que inventa a complexidade astronômica por quase toda a eternidade.

A evolução é, na verdade, um processo de caráter aberto que, em uma única corrida, criou todas as formas de vida na Terra, e o processo ainda está em andamento.

Notavelmente, o único exemplo real em que a inteligência em nível humano foi produzida vem desse processo. Enquanto o campo da computação evolucionária é inspirado pelo caráter aberto, nenhum algoritmo evolucionário se aproxima da natureza nesse aspecto e, em vez disso, se assemelha mais aos algoritmos convencionais de aprendizado de máquina convergindo (na melhor das hipóteses) para o ótimo global, em vez de produzir uma árvore da vida que divirja no espaço de possíveis formas de vida (ou, mais abstratamente, um conjunto de desafios, como alcançar folhas no alto de árvore,s e sua solução, como girafas e lagartas).

Embora a pesquisa histórica sobre o caráter aberto se concentre principalmente na criação de mundos artificiais (que são frequentemente associados ao campo da vida artificial), por exemplo: Tierra, Avida, Evosphere e Chromaria, os recentes avanços na neuroevolução profunda tornaram o caráter aberto prático e relevante para o aprendizado de máquina.

Em contraste com os algoritmos evolucionários convencionais (como algoritmos genéticos e estratégias de evolução, etc.), que podem ser categorizados como otimização de caixa preta, os algoritmos modernos de neuroevolução inspirados pelo conceito de caráter aberto são mais focados em divergência e descoberta de degraus (por exemplo, pesquisa de novidades, busca de novidades com competição local, MAP-Elites, coevolução de critério mínimo, Mecanismos de Inovação e CMOEA).

Curiosamente, um recente avanço do nosso laboratório chamado Go-Explore que alcançou um desempenho recorde ao jogar Montezuma’s Revenge e Pitfall, também é inspirado por essas ideias.

O algoritmo de coevolução de critério mínimo (MCC), em particular, é notável por destacar o potencial de geração de novos ambientes em uma dinâmica coevolutiva, embora não tome a medida de otimizar soluções explicitamente em seus ambientes.

Além disso, o Mecanismo de Inovação introduziu a ideia de mudança de objetivos entre diferentes tarefas, transferindo agentes de um ambiente para outro se eles são melhores, o que catalisa o progresso aproveitando um conjunto crescente de degraus para promover a inovação.

Apresentando o POET

Lançado hoje, o POET (Paired Open-Ended Trailblazer) combina essas ideias para impulsionar essa linha de pesquisa explicitamente para gerar novas tarefas, otimizar soluções para elas e transferir agentes entre tarefas para permitir avanços que de outra forma seriam inatingíveis.

Para demonstrar a abordagem, aplicamos POET para criar e resolver ambientes de caminhada bípede (adaptado a partir dos ambientes BipedalWalker em OpenAI Gym, que são popularizados em uma série de postagens de sites e artigos por David Ha), em que cada ambiente Ei está emparelhado com um agente controlado por rede neural Ai que tenta aprender a navegar por esse ambiente. A figura 1, abaixo, descreve um exemplo de ambiente e agente:

Figura 1: Um exemplo de ambiente de caminhada bipedal.

Como ilustrado na Figura 2, abaixo, o POET começa com um ambiente trivial E0 emparelhado com um agente inicializado aleatoriamente A0, e então cresce e mantém uma população de agentes e ambientes pareados um-para-um.

Ao longo do curso do processo, o POET visa alcançar dois objetivos: (1) evoluir a população de ambientes em direção à diversidade e complexidade; e (2) otimizar agentes para resolver seus ambientes emparelhados.

Durante uma única execução, o POET gera uma ampla variedade de ambientes complexos e desafiadores, bem como suas soluções. Abaixo demonstramos alguns ambientes e soluções interessantes que a POET encontrou:

As figuras A e B acima são uma amostra de ambientes e soluções interessantes encontrados pelo POET.

Para evoluir a população de ambientes, o POET primeiro decide quais ambientes na população atual são elegíveis para reproduzir através de um limite de pontuação que o agente emparelhado deve satisfazer. Esse requisito evita o gasto de recursos computacionais em problemas que atualmente são muito difíceis.

Em seguida, os ambientes elegíveis são modificados (são copiados e levemente alterados) para gerar ambientes filhos candidatos, cujos agentes emparelhados são inicializados para serem iguais aos do ambiente pai.

Finalmente, o POET avalia os ambientes filho candidatos, filtra os candidatos por um critério mínimo, classifica-os por novidade e admite os principais candidatos para a população.

Neste trabalho, o critério mínimo é um limite inferior e superior para o escore de aptidão do agente emparelhado que filtra ambientes que são muito simples ou muito complicados para a atual população de agentes.

A novidade fornece uma pressão para produzir ambientes mais diversos (desafios) – é uma medida quantitativa de como o ambiente candidato é diferente de ambientes aceitos anteriormente. Dado que os recursos computacionais são limitados, uma vez atingido o limite do número de ambientes, antes de admitir novos ambientes, o POET remove os ambientes mais antigos.

Nesses experimentos, os agentes são otimizados para maximizar a recompensa em ambientes com uma variante recente de estratégias de evolução (ES), mas qualquer algoritmo de aprendizado por reforço ou otimização de caixa preta poderia funcionar em seu lugar. Na maioria das vezes, os agentes são otimizados para melhorar dentro do ambiente em que estão emparelhados.

Importante, POET também realiza periodicamente experimentos de transferência para explorar se um agente otimizado em um ambiente pode servir como um degrau para um melhor desempenho em um ambiente diferente.

Dessa forma, testando as transferências para outros ambientes ativos, o POET aproveita a diversidade de seus múltiplos pares de agentes-ambiente em todo o seu potencial, ou seja, sem perder nenhuma oportunidade de obter vantagem com os degraus existentes.

Existem dois tipos de tentativas de transferência (Figura 4): transferência direta, em que os agentes do ambiente de origem são avaliados diretamente no ambiente de destino e transferência de proposta, onde os agentes realizam uma etapa de otimização de ES no ambiente de destino (no caso de ser necessário um pouco de otimização para adaptar habilidades úteis de um ambiente de origem para o ambiente de destino). Agentes emparelhados existentes nos ambientes de destino são substituídos se uma transferência for melhor.

Figura 4: O POET possui dois tipos de transferência: direta e de proposta. Essas transferências (representadas por linhas pontilhadas) ocorrem apenas se a transferência tiver um desempenho melhor no ambiente de destino do que seu agente emparelhado atual.

Observando a descoberta de caráter aberto

A transferência pode produzir histórias surpreendentes de degraus improváveis que produzem avanços evolutivos importantes. Em um exemplo, o ambiente original é simplesmente plano e seu agente emparelhado aprende a avançar sem ficar totalmente em pé (Figura 5, gráfico superior esquerdo).

Essa marcha representa um ótimo local, porque marchas mais eficientes são possíveis se o agente se levantar. Na iteração 400, esse ambiente gera um ambiente filho com alguns troncos.

O agente filho inicial herda a marcha da caminhada do joelho baixo de seu ambiente pai de tal forma que ele pode avançar no ambiente de troncos, mas muitas vezes tropeça por causa dos troncos que não havia encontrado antes (Figura 5, gráfico superior direito).

Eventualmente, o agente no ambiente filho aprende a se levantar e pular sobre os troncos (Figura 5, gráfico do meio à direita).

Em seguida, em uma demonstração do potencial aleatório/acidental de transferência, essa habilidade é transferida de volta para o ambiente pai (Figura 5, gráfico do meio esquerdo) na iteração 1.175. Agora, o agente no ambiente plano original é aquele que se mantém em pé e, desse modo, o processo de busca escapou do ótimo local de joelho baixo.

Essa nova política vertical se especializa em seu ambiente novo e plano para produzir uma marcha ainda mais rápida. Executando a otimização por um longo tempo na marcha original de joelho baixo no ambiente plano sem permitir transferências, nós confirmamos que essa marcha vertical/de pé muito mais eficiente nunca teria sido encontrada sem transferência (isto é, a busca estava realmente presa em um ótimo local).

Exemplos do benefício da transferência na inovação:

Parent Environment, Iteration 400. Score: 298

Child Environment, Iteration 400. Score: 207

Parent Environment, Iteration 2300. Score: 349

Child Environment, Iteration 1175. Score: 304

Parent Environment, Iteration 2300. When transfers are not allowed: Score: 309

Ao criar novos ambientes através da mutação de ambientes antigos, o POET está, na verdade, construindo vários currículos sobrepostos. O critério mínimo de que os ambientes podem ser razoavelmente solucionáveis a partir dos degraus atuais significa que os currículos são construídos gradualmente, e a pressão da novidade incentiva um conjunto diversificado de desafios, todos os quais acontecem na mesma corrida/execução.

A capacidade de gerar tais soluções continuamente em uma única corrida é interessante por si só, mas sua importância é ampliada se a hipótese estiver correta de que as habilidades assim obtidas não poderiam ser aprendidas diretamente do zero.

Talvez ainda mais interessante seja a percepção de que o próprio currículo adequado para encontrar essas habilidades avançadas não poderia ser facilmente concebido por humanos com antecedência. Em outras palavras, e se não pudermos alcançar as habilidades aprendidas pelo POET orientando um aluno de forma incremental através de uma série de tarefas cada vez mais difíceis projetadas por humanos e voltadas para o ambiente de destino final? Esta hipótese significa que POET ou algo parecido é necessário para encontrar as soluções e os currículos que levam a eles.

Nós validamos essa hipótese coletando ambientes difíceis gerados e resolvidos pelo POET e, em seguida, planejando currículos incrementais simples voltados a alcançar os mesmos endpoints a partir do zero.

ada currículo simples reflete uma visão intuitiva de como um bom currículo deve ser construído – aumentando gradualmente a dificuldade – mas não funciona!

De fato, nenhuma das tentativas de recriar comportamentos encontrados nos ambientes mais desafiadores encontrados pelo POET dessa maneira sequer chega perto, como mostra a Figura 6.

Cada gráfico de rosa na Figura 6 é um conjunto de experimentos em que o pentágono vermelho indica um ambiente que o POET criou e resolveu. Os cinco vértices de cada pentágono indicam rugosidade e os limites inferior e superior para o intervalo das larguras lacuna e tronco.

Com o pentágono vermelho como alvo, os cinco pentágonos azuis indicam os ambientes mais próximos ao destino que cinco execuções independentes do algoritmo de controle baseado em currículo de caminho direto (que usa o mesmo algoritmo de otimização ES) podem resolver.

O currículo começa no ambiente simples e plano e sempre que o problema é suficientemente resolvido (de acordo com os mesmos critérios do POET), o ambiente é ligeiramente modificado para se aproximar mais do ambiente de destino (com a quantidade de mudança ambiental igual à do POET).

Claramente, não apenas o algoritmo de controle falha em resolver muitos dos ambientes que o POET criou e resolveu, mas também os intervalos de ambientes que o algoritmo de controle pode resolver são muito mais estreitos do que aqueles resolvidos pelo POET (significando que agentes POET podem lidar com uma diversidade mais ampla de desafios dentro de um ambiente), ambos demonstrando a vantagem do POET sobre a construção de currículo simples.

Figura 6: O aprendizado baseado em currículo (em azul) não consegue reproduzir o desempenho do POET (em vermelho) em um conjunto diversificado de ambientes desafiadores inventados pelo POET. Observe que os pentágonos azuis, cada um dos quais é uma execução do controle baseado em currículo de caminho direto, falham consistentemente em atingir o nível do alvo vermelho.

Conclusões e trabalho futuro

Graças à sua divergência e foco na coleta e alavancagem de degraus, o POET alcança uma amplitude de comportamentos qualificados que podem ser inacessíveis de qualquer maneira convencional. Além disso, o POET inventa seus próprios desafios em vez de exigir que os humanos os criem.

Além disso, muitos desafios e os conjuntos de habilidades para resolvê-los são descobertos em uma única execução, em vez de depender de inicializações aleatórias e idiossincrasias de diferentes execuções para produzir diversidade interessante.

Em princípio, com uma codificação mais sofisticada para o espaço do ambiente, o POET poderia continuar inventando novos desafios e suas soluções por longos períodos de tempo, ou mesmo indefinidamente.

O caráter aberto é fascinante não apenas por seus benefícios práticos em termos de produzir soluções para problemas difíceis e o conjunto de habilidades necessárias para resolvê-los, mas também por sua propensão à criatividade e sua capacidade de nos surpreender.

Devido a essa tendência de surpreender, observar a saída do POET é geralmente divertido, como esperamos que alguns dos vídeos deste artigo demonstrem. O POET também não depende do algoritmo de aprendizado usado para otimização, portanto ele pode ser combinado com qualquer abordagem de RL (ou outra) que seja preferida.

Em última análise, nós imaginamos ir além dos cursos de obstáculo 2D nesta prova inicial de conceito para a descoberta de caráter aberto em uma variedade de domínios interessantes.

Por exemplo, enquanto o parkour foi explorado em 3D em cursos de obstáculos desenhados por humanos, o POET poderia inventar novos cursos e soluções radicais para eles ao mesmo tempo.

POET poderia similarmente produzir novos tipos fascinantes de robôs leves para desafios únicos que inventa que só robôs soft podem resolver.

Em um nível mais prático, ele poderia gerar cursos de teste simulados para direção autônoma que expõem casos de borda exclusivos e demonstram soluções para eles.

Aplicações ainda mais exóticas são concebíveis, como inventar novas proteínas ou processos químicos que executam novas funções que resolvem problemas em uma variedade de áreas de aplicação.

Dado qualquer espaço de problema com o potencial para diversas variações, POET pode abrir caminho através dele.

Esperamos que outros se juntem a nós para explorar o potencial da exploração baseada em POET. Para isso, fornecemos um artigo de pesquisa com detalhes técnicos e lançaremos o código fonte em breve.

***

Este artigo é do Uber Engineering. Ele foi escrito por Rui Wang, Joel Lehman, Jeff Clune e Kenneth O. Stanley. A tradução foi feita pela Redação iMasters com autorização. Você pode conferir o original em: https://eng.uber.com/poet-open-ended-deep-learning/

De 0 a 10, o quanto você recomendaria este artigo para um amigo?