State of Data Brazil 2021

Um análise sobre os dados demográficos e a carreira

Rafael Rocha
6 min readJun 10, 2022
Foto por Samantha Hurley no Burt.

Introdução

Este blog-post apresenta uma análise de dados realizada sobre os dados da pesquisa State of Data Brazil 2021, que apresenta um panorama sobre o mercado de trabalho brasileiro na área de dados. A pesquisa é encabeçada pelo Data Hackers, a maior comunidade de Data Science do Brasil.

Analise feita aqui utiliza os dados demográficos e sobre a carreira. Duas principais bibliotecas do Python são utilizadas: Pandas, utilizada para manipulação e processamento dos dados e Altair para a visualização dos dados. Os atributos utilizados na análise são compostos por dados demográficos e dados sobre a carreira.

Antes de iniciar a análise, aconselho fortemente a utilizar meu notebook no Kaggle para entender a análise dos dados realizada aqui e interagir com as visualizações criadas para esta análise. Ah, e se você gostar, deixe seu upvote no meu notebook.

Os dados

Apenas 12 atributos são trabalhados na análise de dados, a saber: idade, gênero, estado, UF, região, nível de ensino, área de formação, cargo atual, nível, faixa salarial, tempo de experiência, forma de trabalho.

Os atributos são inicialmente renomeados para se obter uma maior simplicidade destes. Além disso, alguns valores das colunas são ajustados também por motivos de simplicidade e compatibilidade com os dados externos utilizados em algumas visualizações, como, por exemplo Cientista de Dados/Data Scientist e São Paulo (SP) são transformados para Cientista de Dados e São Paulo, respectivamente.

Perguntas sobre os dados

Três perguntas sobre os dados são feitas e estas guiarão a análise de dados a ser realizada. As perguntas têm como intuito envolver mais de dois atributos, evitando que as respostas sejam dadas por uma única visualização ou uma consulta simples aos dados. Desse modo, as respostas das perguntas são dadas por meio de mais de uma visualização, onde estas terão interação e seleção para deixarem as visualizações mais dinâmicas.

As perguntas que definirão a análise de dados realizada aqui são:

  • Pergunta 1: Qual a idade média dos profissionais de ciência de dados, que ganham entre R$ 2.001,00 e R$ 8.000,00, do estado que possui a maior quantidade de profissionais de dados?
  • Pergunta 2: Quanto tempo de experiência tem os profissionais do sexo feminino que ganham entre R$ 12.000,00 e R$ 20.000,00 e trabalham na região centro-oeste do Brasil?
  • Pergunta 3: Qual o cargo dos profissionais de dados júnior que estão atualmente trabalhando no modelo 100% presencial, formados em computação com qualquer nível de ensino?

A primeira pergunta possui quatro atributos a serem explorados, que são: estado, cargo atual, faixa salarial e idade. A segunda pergunta por sua vez é composta por quatro atributos: faixa salarial, gênero, tempo de experiência e região. Por fim, a terceira pergunta possui os forma de trabalho, nível, nível de ensino, área de formação e cargo.

Pergunta 1

A pergunta 1 é respondida através de três visualizações, que são: um mapa coroplético dos estados do Brasil pela quantidade de resultados da pesquisa referente a estes, o qual é possível selecionar o estado; um mapa de calor do cargo pela faixa salarial com a cor sendo a quantidade de resultados dado pela combinação de ambos, que permite a seleção de intervalos cargos por faixas salariais; e um gráfico de pontos da faixa salarial pela idade média dos profissionais de dados em conjunto com uma linha pontilhada representando a média das Idades médias das faixas salariais.

Ao analisar a idade média pela faixa salarial de maneira geral, nota-se um crescimento da idade média conforme a faixa salarial aumenta, como mostra a figura abaixo. Além disso, a nota-se a idade média ficando entre 27 e 30 anos para a faixa salarial entre R$ 2.001,00 e R$ 8.000,00.

Gráfico de pontos da Idade média por faixa salarial

Ao selecionar o estado São Paulo (com maior número de profissionais) no mapa e a faixa salarial R$ 2.001,00 e R$ 8.000,00 para o cargo de cientista de dados no mapa de calor, observa-se a tendência de crescimento da idade média conforme a faixa salarial aumenta permanece, mas agora a idade média varia 22 e 30 anos para a faixa entre R$ 2.001,00 e R$ 8.000,00.

Mapa do Brasil e mapa de calor

Pergunta 2

Duas visualizações são utilizadas para responder à pergunta 2: um gráfico de barras horizontais da quantidade de respostas referentes à faixa salarial pela faixa salarial, o qual é possível selecionar intervalos de faixas salariais; e um mapa de calor do tempo de experiência pela região. Além disso, há um botão que seleciona o gênero analisado (masculino, feminino e outro), além da opção todos, que utiliza todos os dados, sem filtrar pelo gênero.

Gráfico de barras horizontais e mapa de calor

Ao inspecionar o gráfico de barras, nota-se que de modo geral, o maior número de profissionais ganha entre R$ 4.001,00 e R$ 12.000,00 e a maioria deste é da região sudeste, independentemente do tempo de experiência. Selecionando a opção feminino no botão e filtrando os intervalos para responder à pergunta (entre R$ 12.001,00 e R$ 20.000,00), observa-se que a maioria dos profissionais do sexo feminino da região centro-oeste tem mais de 10 anos de experiência.

Pergunta 3

Para responder à pergunta 3, três visualizações são criadas, que são: um gráfico de barras verticais empilhadas da forma de trabalho atual pela quantidade de respostas destas, onde a cor descreve o nível do profissional e é possível selecionar a forma de trabalho pelo nível; um gráfico de dispersão agrupado do nível de ensino pela área de formação, onde a cor representa a quantidade de respostas relacionadas a ambos e é possível selecionar o nível de ensino pela área de formação; por um gráfico de barras horizontais da quantidade de resultados atrelados ao cargo.

Gráfico de barras horizontais

A maioria dos profissionais que realizam a pesquisa são (em ordem decrescente) dos cargos Cientista de Dados, Analista de BI, Analista de Dados e Engenheiro de Dados, como mostra o gráfico de barras horizontais.

Gráfico de barras verticais empilhadas e gráfico de dispersão agrupado

Ao selecionar os profissionais de nível júnior que estão atualmente trabalhando no modelo 100% presencial no gráfico de barras empilhadas e a área de formação é computação e afins (qualquer nível de ensino) no gráfico de dispersão, observa-se que os analistas de BI e dados são o maior número neste caso.

Conclusão

Em relação à pergunta 1, observa-se uma tendência de crescimento da faixa salarial (selecionada) com a idade média, onde a idade média do cientista de dados que ganham entre R$ 6.001,00 e R$ 8.000,00 é aproximadamente 30 anos.

Dá pergunta 2, é possível notar que a maioria dos profissionais do sexo feminino que ganham entre R$ 12.001,00 e R$ 20.000,00, da região centro-oeste, possui mais de 10 anos de experiência, enquanto que os profissionais da região sudeste tem entre 2 e 5 anos de experiência e ganham a mesma faixa salarial do centro-oeste.

Por fim, dá pergunta 3 é possível observar que a maioria dos profissionais de dados júnior, que trabalham no modelo 100% presencial e são da área de computação, são analistas de BI e analistas de dados, apesar de que em um panorama geral, a maior parte dos profissionais que realizaram a pesquisa serem cientistas de dados.

O código completo está disponível no Kaggle e no GitHub. Siga o blog se o post foi útil para você. Se possível, deixe seu upvote no meu notebook no Kaggle, irá me ajudar bastante.

--

--