Aplicando mineração de dados na inferência do motivo de viagem do passageiro em dados de bilhetagem eletrônica
Projeto de Mestrado em Modelagem Matemática e Computacional
Planejar um sistema de transporte de qualidade começa com a coleta de dados sobre a demanda. Formas tradicionais de coletar estes dados são caras e pouco precisas. Por outro lado, dados secundários recolhidos passivamente, por longos e contínuos períodos e a um baixo custo surgem como uma nova oportunidade, apesar de também serem limitados e perderem informações importantes, como o propósito da viagem. Nesse contexto, o processo de Knowledge Discovered in Databases pode ser utilizado para extrair conhecimento destes dados secundários, melhorando sua aplicabilidade em modelos de demanda de viagem. Sob essa perspectiva, meu projeto de dissertação de mestrado no programa de Modelagem Matemática e Computacional do CEFET-MG contribui com o enriquecimento dos dados de Smart cards do sistema de transporte público da Região Metropolitana de Belo Horizonte ao inferir o motivo de viagem dos passageiros utilizando técnicas de mineração de dados. Para isso, o algoritmo Random Forest foi aplicado à uma base de dados históricos composta por duas variáveis preditoras: o horário de início da viagem e a duração da atividade do passageiro e uma variável target: o motivo de viagem. Como resultado, observou-se que as variáveis temporais consideradas pelo algoritmo são boas preditoras dos motivos de viagem primários pois o modelo apresentou boas métricas de Precision, Recall, F1-Score e acurácia. No entanto, utilizando apenas estas variáveis, o modelo não conseguiu prever de forma satisfatória motivos de viagem secundários, o que indica que outros dados devem ser considerados para prever tais atividades.