2  Metodologia

A metodologia da análise foi conduzida utilizando o software R e as bibliotecas necessárias para o carregamento e manipulação dos dados, modelagem estatística e visualização dos resultados. Foram utilizadas as seguintes bibliotecas: dplyr, psych, car, MASS, DescTools, QuantPsyc, ggplot2, onsvplot e roadtrafficdeaths(base de dados de mortalidade no trânsito do Ministério da Saúde).

Inicialmente foram selecionadas as variáveis a serem analisadas (contidas na biblioteca roadtrafficdeaths), levando em consideração o objetivo do estudo de identificar o perfil das vítimas fatais ocupantes de motocicletas no Brasil e a disponibilidade de dados de cada variável. As variáveis consideradas foram:

Em relação ao modo de transporte da vítima, foram excluídas as mortes de “pedestres”, “bicicletas” e “outros”, que resultou em uma base com 442.411 observações. No caso dos pedestres e ciclistas, a exclusão justifica-se por serem modos mais vulneráveis que os motociclistas. Já a exclusão da categoria outros está relacionada à imprecisão desses registros. A análise considerou os óbitos em sinistros de trânsito ocorridos desde 1996.

Na sequência, as faixas etárias foram recodificadas em grupos maiores, a fim de obter um maior nível de agregação e facilitar a interpretação dos resultados. O Quadro 1 a seguir apresenta o comparativo entre as categorias originais da base de dados e as categorias modificadas para a variável faixa etária da vítima.

Quadro 1: Categorias modificadas

Variável Categorias Originais Categorias Modificas
faixa_etaria_vitima 0 a 4 anos, 5 a 9 anos, 10 a 14 anos, 15 a 19 anos, 20 a 24 anos, 25 a 29 anos, 30 a 34 anos, 35 a 39 anos, 40 a 44 anos, 45 a 49 anos, 50 a 54 anos, 55 a 59 anos, 60 a 64 anos, 65 a 69 anos, 70 a 74 anos, 75 a 79 anos, Mais de 80 anos 0-9, 10-19, 20-29, 30-39, 40-49, 50-59, 60 ou mais

Além disso, para a definição da variável resposta, foi criada uma variável binária denominada “ocupante_motocicleta” para indicar se a vítima era ocupante de uma motocicleta ou não com base na variável que especifica o modo de transporte da vítima. As demais variáveis foram consideradas como variáveis explicativas.

As variáveis explicativas, todas categóricas, passaram por um processo de transformação em fatores, com as categorias de referência ajustadas para facilitar a interpretação dos resultados. A categoria de referência para cada variável pode ser visualizada no Quadro 2 a seguir.

Quadro 2: Categorias de referência para cada variável explicativa

Variável Categoria de Referência
faixa_etaria_vitima 30-39
escolaridade_vitima 12 anos ou mais
raca_vitima Branca
nome_regiao_res Sul
sexo_vitima Feminino
estado_civil_vitima casado
ocupante_motocicleta nao_ocupante

A modelagem estatística consistiu na obtenção de um modelo de Regressão Logística Binária capaz de fornecer a probabilidade de ocorrência da variável resposta (óbito de ocupante de motocicleta) a partir das variáveis explicativas consideradas: faixa_etaria_vitima, sexo_vitima, escolaridade_vitima, raca_vitima, nome_regiao_res e estado_civil_vitima. Para tal, utilizou-se a função glm do software R. Para avaliar a confiabilidade estatística das estimativas, foram obtidos os intervalos de confiança para cada um dos coeficientes do modelo, considerando um nível de confiança de 95%.

Dos resultados do modelo foram obtidas as razões de chances (Odds Ratios - OR) e os p-valores correspondentes para cada uma das variáveis explicativas. Um OR acima de 1 indica um aumento na probabilidade de a vítima ser ocupante de motocicleta na presença da respectiva categoria (mantidas inalteradas as demais variáveis explicativas), enquanto um OR inferior a 1 indica uma diminuição dessa probabilidade (mantidas inalteradas as demais variáveis explicativas). Os p-valores menores que 0,05 indicam que a categoria da variável explicativa foi estatisticamente significativa para o modelo.