Aprendizado por Reforço Profundo: Combinando Técnicas para Aperfeiçoar o Algoritmo FQF.
Aprendizado por Reforço, Aprendizado de Máquina, Aprendizado Profundo.
Os algoritmos de aprendizado por reforço permitem que os agentes aprendam com a experiência, sem a necessidade de conhecimento prévio. Por essa razão, eles têm sido amplamente pesquisados e o uso de jogos digitais de baixa e média complexidade como ambientes de benchmark tornou-se uma prática comum. Em 2013, um novo algoritmo, chamado DQN (Deep Q Network), causou grande impacto no meio acadêmico ao obter resultados a nível de humanos em diversos jogos do Atari 2600, utilizando para isso redes neurais artificiais. Consequentemente, novas linhas de pesquisa surgiram e novos algoritmos derivados foram propostos. Dentre esses, destaca-se o FQF (Fully Parameterized Quantile Function), um algoritmo que se tornou o estado da arte entre os algoritmos não distributivos no domínio do Atari 2600. No entanto, o FQF ainda não alcançou os resultados obtidos por um especialista humano em todos os jogos avaliados. Considerando a habilidade da inteligência artificial em detectar padrões imperceptíveis por humanos, isso nos levou a acreditar que resultados melhores do que os atuais ainda poderiam ser obtidos. Portanto, neste trabalho foi realizada uma pesquisa por trabalhos relacionados e foram escolhidas três melhorias que trouxeram sucesso em algoritmos propostos antes do FQF para serem combinadas e avaliadas juntamente com o FQF, buscando assim melhorar o algoritmo. As melhorias aplicadas ao FQF são: a utilização de três passos na diferença temporal, a aplicação da abordagem de Munchausen e o uso da experiência por repetição priorizada. A combinação das três melhorias possibilitou a análise de oito algoritmos, os quais foram avaliados em cinco jogos do Mini Atari. De acordo com as métricas analisadas, a versão do FQF que faz o uso das três melhorias foi melhor que o FQF original em todos os experimentos realizados, disponibilizando portanto uma versão mais promissora do algoritmo para a comunidade científica.