Previsão de Resultados de Jogos de Futebol

  • por

Os alunos Thiago, Suanny e Juan desenvolveram uma solução a partir de métodos de aprendizagem de máquina para auxiliar na decisão de apostas em partidas de futebol, especificamente na Premier League, usando modelos para prever estatísticas como número de gols, escanteios e cartões amarelos, para cada equipe, como também quem sairá vitorioso na partida, ou se acontecerá um empate.

Foram utilizados modelos de regressão e classificação para atingir o resultado, reunindo dados detalhados de partidas anteriores. Os principais dados foram coletados no site Football Data, em que se disponibiliza aos usuários detalhes de partidas de alguns campeonatos de futebol, como também a cotação de várias casas de aposta.

Os arquivos ficam separados por temporadas e, para o projeto em questão, foram coletados 10 arquivos de dados da Premier League da temporada 2009/2010 até a temporada atual (2018). Os dados contidos nesses arquivos eram: time de fora, time de casa, árbitro, data da partida (posteriormente separada em temporadas), total de gols no primeiro tempo por cada equipe, quem ganhou no primeiro tempo, total de gols no tempo total por cada equipe, quem ganhou no tempo total, quantidade de escanteios por equipe na partida, quantidade de chutes por equipe na partida, quantidade de chutes no alvo por equipe na partida, quantidade de cartões amarelos e vermelhos por equipe. na partida, quantidade de faltas por equipe na partida e cotas de diversas plataformas de apostas, indicando empates, ou vitória de times (B365H, B365A, B365D, para a plataforma 365 Bet, indicando cota de vitória do time de casa, vitória do time de casa e empate, respectivamente).

Outros dados foram coletados do site oficial da Premier League, guardados e manipulados. Esses dados foram acrescentados à base de dados depois de um tratamento, onde foi calculada a média de cada time das estatísticas referentes. Outros atributos, portanto, foram adicionados à base: Gols de cada time por temporada, Gols sofridos de cada time por temporada, Escanteios de cada time por temporada, Cartões amarelos de cada time por temporada e Chutes de cada time por temporada.

Foi adotada uma estratégia para validar o projeto apresentado, sendo feitas apostas na plataforma 188 Bet utilizando saídas dos modelos treinados (LassoCV, BayesianRidge e RidgeCV – para regressão e Decision Tree Classifier, XGB Model e Rede Neural – para classificação). Para cada entrada padrão testada, fornecendo informações de times, temporada, árbitro, resultado e gols no primeiro tempo, média de gols na temporada e etc, eram retornados três saídas diferentes, de três modelos distintos usados para problemas de classificação ou regressão. Se para essa mesma entrada, a saída dos três modelos fossem similares, era considerada como uma aposta segura, de baixo risco. Caso contrário, a aposta era dada como de alto risco, sendo inviável fazer a aposta.

Foram feitas 19 apostas em 9 jogos diferentes, utilizando quatro tipo de apostas diferentes: números de gols na partida, número de escanteios na partida, se ambas as equipes marcaram na partida, e o resultado final (vitória mandante, empate, vitória do visitante). Não foram feitas apostas relacionadas a cartões amarelos, pois a plataforma não continha tal tipo de aposta. O número de apostas realizadas em cada tipo foi variado, pois o nível de confiança da resposta deles eram diferentes, e dessa maneira, foram feitas mais apostas na resposta de maior confiança.

Como resultado, todas as apostas tiveram 1 erro, porém tiveram números de acertos diferentes. Número de gols e vitória tiveram o maior número de acertos, ambas com 5, confirmando-se as apostas mais seguras. As apostas foram iniciadas com o valor em caixa de R$50,00, e o total contabilizado após as apostas foi de R$59,00, obtendo R$9,00 de lucro. Deve-se levar em consideração que foram feitas apostas na cotação mínima de R$2,00, e foi utilizado apenas uma parte do valor contido na plataforma.

O trabalho foi enviado ao WIML 2019 (https://wimlworkshop.org/sh_events/wiml-workshop-2019/) e será apresenta por Suanny em dezembro!