Banca de DEFESA: JÚLIO CÉSAR MENDES DE RESENDE

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : JÚLIO CÉSAR MENDES DE RESENDE
DATA : 26/10/2022
HORA: 14:00
LOCAL: Videoconferência
TÍTULO:

Aprendizado por Reforço Profundo: Combinando Técnicas para Aperfeiçoar o Algoritmo FQF.


PALAVRAS-CHAVES:

Aprendizado por Reforço, Aprendizado de Máquina, Aprendizado Profundo.


PÁGINAS: 92
RESUMO:

Os algoritmos de aprendizado por reforço permitem que os agentes aprendam com a experiência, sem a necessidade de conhecimento prévio. Por essa razão, eles têm sido amplamente pesquisados e o uso de jogos digitais de baixa e média complexidade como ambientes de benchmark tornou-se uma prática comum. Em 2013, um novo algoritmo, chamado DQN (Deep Q Network), causou grande impacto no meio acadêmico ao obter resultados a nível de humanos em diversos jogos do Atari 2600, utilizando para isso redes neurais artificiais. Consequentemente, novas linhas de pesquisa surgiram e novos algoritmos derivados foram propostos. Dentre esses, destaca-se o FQF (Fully Parameterized Quantile Function), um algoritmo que se tornou o estado da arte entre os algoritmos não distributivos no domínio do Atari 2600. No entanto, o FQF ainda não alcançou os resultados obtidos por um especialista humano em todos os jogos avaliados. Considerando a habilidade da inteligência artificial em detectar padrões imperceptíveis por humanos, isso nos levou a acreditar que resultados melhores do que os atuais ainda poderiam ser obtidos.     Portanto, neste trabalho foi realizada uma pesquisa por trabalhos relacionados e foram escolhidas três melhorias que trouxeram sucesso em algoritmos propostos antes do FQF para serem combinadas e avaliadas juntamente com o FQF, buscando assim melhorar o algoritmo. As melhorias aplicadas ao FQF são: a utilização de três passos na diferença temporal, a aplicação da abordagem de Munchausen e o uso da experiência por repetição priorizada. A combinação das três melhorias possibilitou a análise de oito algoritmos, os quais foram avaliados em cinco jogos do Mini Atari. De acordo com as métricas analisadas, a versão do FQF que faz o uso das três melhorias foi melhor que o FQF original em todos os experimentos realizados, disponibilizando portanto uma versão mais promissora do algoritmo para a comunidade científica.


MEMBROS DA BANCA:
Interna - 1777390 - CAROLINA RIBEIRO XAVIER
Externo à Instituição - DENIS FERNANDO WOLF - USP
Presidente - 1985872 - EDIMILSON BATISTA DOS SANTOS
Externo ao Programa - 1652537 - MARCOS ANTONIO DE MATOS LAIA
Notícia cadastrada em: 05/10/2022 13:50
SIGAA | NTInf - Núcleo de Tecnologia da Informação - | Copyright © 2006-2024 - UFSJ - sigaa05.ufsj.edu.br.sigaa05