Ciência de dados - freeCodeCamp.org

Como processar dados textuais usando o TF-IDF em Python

Daniel Rosa — Sun, 16 Jul 2023 21:00:00 +0000

Artigo original: How to process textual data using TF-IDF in Python

Escrito por: Mayank Tripathi

Computadores são bons com números, mas não tanto com dados textuais. Uma das técnicas mais utilizadas para processar dados textuais é o TF-IDF. Neste artigo, vamos aprender como ele funciona e quais são suas características.

Pela nossa intuição, pensamos que as palavras que aparecem com mais frequência deveriam ter um peso maior na análise de dados textuais, mas nem sempre é assim. Palavras como "o", "vai" e "você" – chamadas de stopwords – aparecem mais em um corpus (conjunto) de texto(s), mas têm muito pouco significado. Em vez disso, as palavras que são raras são as que realmente ajudam na distinção entre os dados e têm mais peso.

Uma introdução ao TF-IDF

TF-IDF é a sigla para "Term Frequency — Inverse Data Frequency" (em português, "frequência do termo – inverso da frequência nos dados"). Primeiro, aprenderemos o que esse termo significa matematicamente.

Frequência do termo (tf): nos dá a frequência da palavra em cada documento do corpus. É a razão entre o número de vezes que a palavra aparece em um documento em comparação com o número total de palavras nesse documento. Ela aumenta à medida que o número de ocorrências dessa palavra dentro do documento aumenta. Cada documento tem seu próprio tf.

Inverso da frequência dos dados (idf): usado para calcular o peso de palavras raras em todos os documentos do corpus. As palavras que ocorrem raramente no corpus têm um alto escore de IDF. É dado pela equação abaixo.

Combinando essas duas fórmulas, chegamos ao escore TF-IDF (w) para uma palavra em um documento no corpus. É o produto de tf e idf:

Onde:

tf_i,j = número de ocorrências de i em j
df_i = número de documentos contendo i
N = número total de ocorrências

Nota da tradução: o "w", em questão, na fórmula vem de word, palavra em inglês que significa "palavra" ou "termo".

Vamos pegar um exemplo para dar um entendimento mais claro.

Frase 1 : The car is driven on the road. (O carro é conduzido na estrada.)

Frase 2: The truck is driven on the highway. (O caminhão é conduzido na rodovia.)

Neste exemplo, cada frase está em um documento separado.

Agora, calcularemos o TF-IDF para os dois documentos acima, os quais representam nosso corpus.

A partir da tabela acima, podemos ver que o TF-IDF de palavras comuns foi zero, o que mostra que elas não são significativas. Por outro lado, o TF-IDF de "car", "truck", "road" e "highway" é diferente de zero. Essas palavras têm mais significado.

Usando o Python para calcular o TF-IDF

Agora, vamos programar o TF-IDF em Python a partir do zero. Depois disso, veremos como podemos usar o sklearn para automatizar o processo.

A função computeTF calcula a pontuação de TF para cada palavra no corpus, por documento.

A função computeIDF calcula a pontuação de IDF para cada palavra no corpus.

A função computeTFIDF abaixo calcula a pontuação de TF-IDF para cada palavra, multiplicando as pontuações de TF e de IDF.

O resultado produzido pelo código acima para o conjunto de documentos D1 e D2 é o mesmo que calculamos manualmente anteriormente na tabela.

Consulte este link para ver a implementação completa.

sklearn

Agora, veremos como podemos implementar isso usando o sklearn em Python.

Primeiro, vamos importar TfidfVectorizer de sklearn.feature_extraction.text:

Depois, inicializamos vectorizer e chamamos fit e transform para calcular a pontuação de TF-IDF para o texto.

Internamente, sklearn fit_transform executa as funções fit e transform que vemos abaixo. Elas podem ser encontradas na biblioteca oficial do sklearn no GitHub.


    def fit(self, X, y=None):
        """Learn the idf vector (global term weights)
        Parameters
        ----------
        X : sparse matrix, [n_samples, n_features]
            a matrix of term/token counts
        """
        if not sp.issparse(X):
            X = sp.csc_matrix(X)
        if self.use_idf:
            n_samples, n_features = X.shape
            df = _document_frequency(X)

            # perform idf smoothing if required
            df += int(self.smooth_idf)
            n_samples += int(self.smooth_idf)

            # log+1 instead of log makes sure terms with zero idf don't get
            # suppressed entirely.
            idf = np.log(float(n_samples) / df) + 1.0
            self._idf_diag = sp.spdiags(idf, diags=0, m=n_features,
                                        n=n_features, format='csr')

        return self

    def transform(self, X, copy=True):
        """Transform a count matrix to a tf or tf-idf representation
        Parameters
        ----------
        X : sparse matrix, [n_samples, n_features]
            a matrix of term/token counts
        copy : boolean, default True
            Whether to copy X and operate on the copy or perform in-place
            operations.
        Returns
        -------
        vectors : sparse matrix, [n_samples, n_features]
        """
        if hasattr(X, 'dtype') and np.issubdtype(X.dtype, np.floating):
            # preserve float family dtype
            X = sp.csr_matrix(X, copy=copy)
        else:
            # convert counts or binary occurrences to floats
            X = sp.csr_matrix(X, dtype=np.float64, copy=copy)

        n_samples, n_features = X.shape

        if self.sublinear_tf:
            np.log(X.data, X.data)
            X.data += 1

        if self.use_idf:
            check_is_fitted(self, '_idf_diag', 'idf vector is not fitted')

            expected_n_features = self._idf_diag.shape[0]
            if n_features != expected_n_features:
                raise ValueError("Input has n_features=%d while the model"
                                 " has been trained with n_features=%d" % (
                                     n_features, expected_n_features))
            # *= doesn't work
            X = X * self._idf_diag

        if self.norm:
            X = normalize(X, norm=self.norm, copy=False)

        return X

Uma coisa a se observar no código acima é que, em vez de apenas o log de n_samples, foi adicionado 1 a n_samples para se calcular a pontuação IDF. Isso garante que as palavras com uma pontuação IDF de zero não sejam totalmente suprimidas.

O resultado obtido é na forma de uma matriz com viés, que é normalizada para obter o seguinte resultado.

Assim, vimos como podemos facilmente programar o TF-IDF em apenas 4 linhas usando o sklearn. Agora, entendemos como o TF-IDF é poderoso como uma ferramenta para processar dados textuais a partir de um corpus. Para saber mais sobre o sklearn TF-IDF, você pode usar este link.

Uma ótima programação para você!

Agradecemos pela leitura deste artigo. Não se esqueça de compartilhá-lo se achou o artigo útil.

Para saber mais sobre programação, você pode seguir o autor para ser notificado de artigos novos escritos por ele.

Você também pode se conectar com o autor pelo Twitter, Linkedin, Github e Facebook.

Como ler uma tabela de regressão

Isabel Cristina Nunes de Sousa — Wed, 10 May 2023 21:00:00 +0000

Artigo original: How to read a Regression Table

Escrito por: Sharad Vijalapuram

O que é regressão?

Regressão é um dos processos de análise de dados mais importantes e comumente usados. Simplificando, é um método estatístico que explica a força da relação entre uma variável dependente e uma ou mais variáveis independentes.

Uma variável dependente pode ser uma variável ou um campo que você esteja tentando prever ou compreender. Uma variável independente pode ser os campos ou pontos de dados que você acha que podem ter um impacto na variável dependente.

Ao fazer isso, ela responde algumas questões importantes:

Quais variáveis importam?
Até que ponto essas variáveis importam?
Qual o nível de nossa confiança sobre essas variáveis?

Vamos ver um exemplo…

Para explicar melhor os números na tabela de regressão, pensei que seria útil usar um conjuntos de dados como amostra e percorrer os números e sua importância.

Estou usando um pequeno conjunto dados que contém as pontuações no GRE (um teste que os alunos fazem para serem considerados para admissão em universidades nos EUA) de 500 alunos e suas chances de admissão em uma universidade.

Como chance de admissão (em inglês, chance of admittance) depende da pontuação no GRE (em inglês, GRE scores), chance de admissão é a variável dependente e pontuação no GRE é a variável independente.

Gráfico de dispersão de pontuações no GRE e chance de admissão

Linha de regressão

Desenhar uma linha reta que melhor descreva a relação entre as pontuações no GRE de alunos e suas chances de admissão nos fornece a linha de regressão linear. Esta é conhecida como linha de tendência em várias ferramentas de Business Intelligence (BI). A ideia básica por trás do desenho dessa linha é minimizar a distância entre os pontos de dados em uma determinada coordenada x e a coordenada y pela qual a linha de regressão passa.

Gráfico de dispersão com uma linha de regressão.

A linha de regressão facilita a representação da relação. Ela se baseia em uma equação matemática que associa o coeficiente x e o ponto de interceptação do eixo y.

y é o ponto no qual a linha intercepta o eixo y quando x = 0. Também é o valor que o modelo assumiria ou preveria quando x fosse 0.

Coeficientes fornecem o impacto ou o peso de uma variável em relação a todo o modelo. Em outras palavras, fornecem a quantidade de mudança necessária na variável dependente para que ocorra uma mudança de unidade na variável independente.

Calculando a equação da linha de regressão

Para descobrir o ponto de interceptação de y do modelo, estendemos a linha de regressão o suficiente para que ela intersecte o eixo y em x = 0. Esse é o nosso ponto de interceptação de y, que está em torno de -2,5. O número pode não fazer sentido para o conjunto de dados em questão, mas a intenção é mostrar apenas o cálculo desse ponto.

Calculando o ponto de interceptação de y

O coeficiente para este modelo será apenas a inclinação da linha de regressão, e pode ser calculado obtendo a mudança na chance de admissão de acordo com a mudança nas pontuações no GRE.

Calculando a inclinação

No exemplo acima, o coeficiente seria apenas

m = (y2-y1) / (x2-x1)

Neste caso, seria próximo de 0,01.

A fórmula y = m*x + b nos ajuda a calcular a equação matemática de nossa linha de regressão. Substituindo os valores do ponto de interceptação de y e da inclinação que obtivemos ao estender a linha de regressão, podemos formular a equação abaixo:

y = 0,01x — 2,48

-2,48 é um valor de ponto de interceptação de y mais preciso que obtive da tabela de regressão, conforme mostrado posteriormente neste artigo.

Essa equação nos permite predizer a chance de admissão de um(a) aluno(a) quando sua pontuação no GRE é conhecida.

Agora que temos o básico, vamos partir para a leitura e a interpretação de uma tabela de regressão.

Lendo uma tabela de regressão

A tabela de regressão pode ser dividida em basicamente três componentes:

análise de variância (ANOVA): fornece a análise da variância no modelo, como o próprio nome sugere.
estatísticas de regressão: fornecem informações numéricas sobre a variação e sobre a exatidão da explicação do modelo para a variação dos dados/observações fornecidos.
saída residual: fornece o valor previsto pelo modelo e a diferença entre o valor real observado da variável dependente e seu respectivo valor previsto pelo modelo de regressão para cada ponto dos dados.

Análise de variância (ANOVA)

Tabela ANOVA

Graus de liberdade (gl)

Os gl da regressão (em inglês, regression degrees of freedom ou regression df) são o número de variáveis independentes no nosso modelo de regressão. Como consideramos apenas as pontuações no GRE nesse exemplo, seu valor é 1.

O gl residual (em inglês, residual degrees of freedom ou residual df) é o número total de observações (linhas) do conjunto de dados subtraído pelo número de variáveis que estão sendo estimadas. Neste exemplo, tanto o coeficiente de pontuação GRE quanto a constante são estimados.

gl residual = 500 — 2 = 498

gl total — é a soma da regressão e dos graus de liberdade residuais, que equivale ao tamanho do conjunto de dados menos 1.

Soma dos quadrados (SQ)

Linha de regressão com a média do conjunto de dados em vermelho.

SQ da regressão (em inglês, regression sum of squares ou regression SS) é a variação total da variável dependente que é explicada pelo modelo de regressão. É a soma do quadrado da diferença entre o valor previsto e a média do valor de todos os pontos de dados.

∑ (ŷ — ӯ)²

Na tabela ANOVA, a SQ da regressão é 6,5 e a SQ total é 9,9, o que significa que o modelo de regressão explica cerca de 6,5/9,9 (aproximadamente 65%) de toda a variabilidade no conjunto de dados.

SQ residual (em inglês, residual sum of squares ou residual SS) é a variação total na variável dependente que não é explicada pelo modelo de regressão. Ela também é chamada de soma dos quadrados do erro, sendo a soma do quadrado da diferença entre valores reais e previstos de todos os pontos de dados.

∑ (y — ŷ)²

Na tabela ANOVA, a SQ residual é de cerca de 3,4. Em geral, quanto menor o erro, melhor o modelo de regressão explica a variação no conjunto de dados e, portanto, geralmente queremos minimizar esse erro.

A SQ Total é a soma de ambas, SQ da regressão e residual, ou por quanto a chance de admissão variaria se as pontuações no GRE NÃO fossem levadas em consideração.

Erros quadráticos médios (EQM) — são a média da soma dos quadrados ou a soma dos quadrados dividida pelos graus de liberdade de ambos os casos, regressão e resíduos.

EQM da regressão = ∑ (ŷ — ӯ)²/Reg. gl

EQM residual = ∑ (y — ŷ)²/Res. gl

F — é usado para testar a hipótese de que a inclinação da variável independente é zero. Matematicamente também pode ser calculado como

F = EQM da regressão/EQM residual

Caso contrário, é calculada comparando a estatística F com uma distribuição F com gl de regressão em graus no numerador e gl residual em graus no denominador.

Significância F — nada mais é do que o valor-p para a hipótese nula de que o coeficiente da variável independente é zero e, como acontece com qualquer valor-p, um baixo valor-p indica que existe uma relação significativa entre as variáveis dependentes e independentes.

Erro padrão — fornece o desvio padrão estimado da distribuição dos coeficientes. É a quantidade pela qual o coeficiente varia em diferentes casos. Um coeficiente muito maior que seu erro padrão implica uma probabilidade de que o coeficiente não seja 0.

t-Stat é a estatística t ou o valor t do teste, e seu valor é igual ao coeficiente dividido pelo erro padrão.

t-Stat = coeficientes/erro padrão

Novamente, quanto maior o coeficiente em relação ao erro padrão, maior é o t-Stat e maior a probabilidade de que o coeficiente esteja longe de 0.

valor-p — A estatística t é comparada com a distribuição t para determinar o valor-p. Geralmente, consideramos apenas o valor-p da variável independente, que fornece a probabilidade de obter uma amostra tão próxima daquela usada para derivar a equação de regressão, para verificar se a inclinação da linha de regressão é realmente zero ou se o coeficiente é próximo do coeficiente obtido.

Um valor-p abaixo de 0,05 indica 95% de confiança de que a inclinação da linha de regressão não é zero e, portanto, existe uma relação linear significativa entre as variáveis dependentes e independentes.

Um valor-p maior do que 0,05 indica que a inclinação da linha de regressão pode ser zero e que não há evidência suficiente, ao nível de confiança de 95%, da existência de uma relação linear significativa entre as variáveis dependentes e independentes.

Uma vez que o valor-p da variável independente pontuação no GRE está muito próximo de 0, podemos estar extremamente confiantes da existência de uma relação linear significativa entre as pontuações no GRE e a chance de admissão.

95% inferiores e superiores — Como usamos principalmente uma amostra de dados para estimar a linha de regressão e seus coeficientes, eles são geralmente uma aproximação dos verdadeiros coeficientes e, por conseguinte, da verdadeira linha de regressão. Os limites inferior e superior de 95% fornecem o 95º intervalo de confiança dos limites inferior e superior para cada coeficiente.

Como o intervalo de confiança de 95% para as pontuações no GRE é 0,009 e 0,01, os limites não contêm zero e, portanto, podemos ter 95% de confiança de que existe uma relação linear significativa entre as pontuações GRE e a chance de admissão.

Observe que um nível de confiança de 95% é amplamente utilizado, mas um nível diferente de 95% é possível e pode ser configurado durante a análise de regressão.

Estatísticas de regressão

Tabela de estatísticas de regressão

R² (R quadrado) — representa o poder de um modelo. Ele mostra a quantidade de variação na variável dependente que é explicada pela variável independente, e sempre fica entre os valores 0 e 1. À medida que o R² aumenta, mais a variação nos dados é explicada pelo modelo e melhor o modelo obtém a previsão. Um R² baixo indicaria que o modelo não se ajusta bem aos dados, e que uma variável independente não explica bem a variação na variável dependente.

R² = soma dos quadrados da regressão/soma total dos quadrados

No entanto, o R quadrado não pode determinar se as estimativas e previsões do coeficiente são tendenciosas. É por isso que você deve analisar os gráficos de resíduos, que são discutidos posteriormente neste artigo.

O R quadrado também não indica se um modelo de regressão é adequado. Você pode ter um valor R quadrado baixo para um bom modelo, ou um valor R quadrado alto para um modelo que não se ajusta aos dados.

O R², neste caso, é 65%, o que implica que as pontuações no GRE podem explicar 65% da variação na chance de admissão.

R² ajustado — é o R² multiplicado por um fator de ajuste. Isso é usando ao comparar diferentes modelos de regressão com diferentes variáveis independentes. Esse número é útil ao decidir sobre as variáveis independentes corretas em modelos de regressão múltipla.

R múltiplo — é a raiz quadrada positiva de R²

Erro padrão — é diferente do erro padrão dos coeficientes. Este é o desvio padrão estimado do erro da equação de regressão, e é uma boa medida da acurácia da linha de regressão. É a raiz quadrada dos erros quadráticos médios residuais.

Erro padrão = √(Res.MS)

Saída residual

Resíduos são a diferença entre o valor real e o valor previsto do modelo de regressão. A saída residual é o valor da variável dependente previsto pelo modelo de regressão e o resíduo para cada ponto de dados.

Como o nome sugere, um gráfico residual é um gráfico de dispersão entre o resíduo e a variável independente, que, neste caso, é a pontuação GRE de cada aluno.

Um gráfico residual é importante para detectar coisas como heterocedasticidade, não linearidade e valores atípicos (em inglês, outliers). O processo para detectá-los não está sendo discutido neste artigo, mas o fato de que o gráfico de resíduos para o nosso exemplo possui dados aleatoriamente dispersos nos ajuda a estabelecer o fato de que a relação entre as variáveis neste modelo é linear.

Gráfico residual

Intenção

A intenção deste artigo não é construir um modelo de regressão funcional, mas fornecer um passo a passo de todas as variáveis de regressão e sua importância quando necessário, com a amostra de um conjunto de dados em uma tabela de regressão.

Embora este artigo forneça uma explicação com uma regressão linear com apenas uma variável como exemplo, esteja ciente de que algumas dessas variáveis podem ter mais importância nos casos de multivariáveis ou outras situações.

Referências (em inglês)

Classifiquei cada curso de Introdução à Ciência de Dados na Internet, com base em milhares de avaliações

Dairenkon Majime Rezende de Souza — Mon, 07 Nov 2022 21:00:00 +0000

Artigo original: I ranked every Intro to Data Science course on the internet, based on thousands of data points

Escrito por: David Venturi

Nota do tradutor: para os interessados em ciência de dados, este artigo possui uma lista bastante grande de sugestões de cursos para aprender sobre o assunto. Como ele é uma tradução, no entanto, o leitor verá que todos os cursos tratados nas diversas plataformas citadas estão em inglês. Assim sendo, o conhecimento do idioma é fundamental para a realização desses cursos.

Há um ano, eu larguei um dos melhores programas de ciência da computação do Canadá. Comecei a construir meu próprio programa de mestrado em ciência de dados utilizando recursos disponíveis on-line. Percebi que poderia aprender tudo o que eu precisava através da edX, da Coursera e da Udacity. Também vi que eu poderia aprender mais rápido, de maneira mais eficiente e por um custo bem mais baixo.

Agora, estou quase terminando. Fiz muitos cursos relacionados à ciência de dados, e analisei muitos outros também. Conheço as opções que existem por aí e quais habilidades são necessárias para estudantes que estão se preparando para cargos de analistas ou cientistas de dados. Há alguns meses, comecei a criar um guia baseado nas avaliações de usuários que recomenda os melhores cursos para cada tema em ciência de dados.

Para o primeiro guia da série, eu recomendei alguns cursos de programação para o iniciante em ciência de dados. Depois, alguns cursos sobre probabilidade e estatística (os dois guias ainda estão em inglês).

Introdução à Ciência de Dados

(Não se preocupe se você não souber de que trata um curso introdutório em ciência de dados. Eu explicarei daqui a pouco)

Eu passei mais de 10 horas tentando identificar os cursos on-line de introdução à ciência de dados oferecidos a partir de janeiro de 2017 para esse guia, extraindo informações importantes de suas ementas e compilando suas avaliações. Para realizar essa tarefa, eu recorri a ninguém menos que a comunidade de código aberto do Class Central e ao seu banco de dados com milhares de avaliações e classificações de cursos.

Desde 2011, o fundador da Class Central, Dhawal Shah, tem se atentado aos cursos disponíveis on-line, mais do que qualquer outra pessoa no mundo. Ele me ajudou pessoalmente a montar essa lista.

Como selecionamos os cursos para avaliar

Cada curso deve atender a três critérios:

Deve ensinar o processo de ciência de dados. Mais sobre isso em breve.
Deve ser sob demanda ou oferecido várias vezes ao ano.
Deve ser um curso on-line interativo, ou seja, sem livros ou tutoriais apenas para leitura. Apesar de haver várias formas de aprender, esse guia foca em cursos.

Acreditamos que conseguimos cobrir todos os cursos de qualidade que atendem aos critérios acima. Uma vez que existem, aparentemente, centenas de cursos na Udemy, consideramos somente os mais comentados e bem avaliados. Sempre há, porém, a possibilidade de termos deixado passar algum. Nesse caso, se deixamos algum curso de fora deste guia, informe-nos.

Como avaliamos os cursos

Compilamos a média de avaliação e de número de comentários do Class Central e de outros sites de avaliação para calcular a média ponderada da nota de cada curso. Lemos os comentários e usamos este feedback para complementar as avaliações numéricas.

Tomamos algumas decisões subjetivas com relação às ementas com base em dois fatores:

Cobertura do processo de ciência de dados. O curso apenas pincela ou simplesmente não aborda certos temas? Ele cobre determinados assuntos em detalhes demais? Veja a próxima seção para saber como foi esse processo .
Uso de ferramentas comuns em ciência de dados. O curso utiliza linguagens de programação populares, como Python e/ou R? Elas não são necessárias, mas são úteis em muitos casos. Então, demos uma pequena preferência para esses cursos.

Python e R são as duas linguagens de programação mais populares utilizadas na ciência dos dados.

O que é o processo de ciência de dados?

O que é ciência de dados? O que faz um cientista de dados? Essas são perguntas que cursos introdutórios em ciência de dados precisam responder. O infográfico abaixo, dos professores Joe Blitzstein e Hanspeter Pfister, de Harvard, resume um típico processo de ciência de dados que nos ajudará a responder a essas perguntas.

Visualização da Opera Solutions

Nosso objetivo com essa introdução ao curso de ciência de dados é nos familiarizar com esse processo. Não queremos cobrir aspectos muito específicos dele, visto que o título inclui a palavra "introdução".

Para cada aspecto, o curso ideal explica os conceitos-chave dentro da estrutura do processo, apresenta as ferramentas mais utilizadas e disponibiliza alguns exemplos (preferencialmente práticos).

Estamos buscando por uma introdução. Portanto, esse guia não inclui especializações completas ou programas como o Data Science Specialization, da Johns Hopkins University, no Coursera, nem o Data Analyst Nanodegree, da Udacity. Estas compilações de cursos escapam do propósito dessa coleção: encontrar os melhores cursos individuais para cada tema de modo a compor um estudo em ciência de dados. Os três últimos guias desta série de artigos abordarão em detalhes cada aspecto do processo de ciência de dados.

Experiência prévia obrigatória em programação básica, estatística e probabilidade

Muitos cursos listados abaixo requerem conhecimentos em programação básica, estatística e probabilidade. Essas exigências são compreensíveis, dado que o conteúdo é razoavelmente avançado, além desses temas possuírem, frequentemente, vários cursos dedicados a eles.

Esses conhecimentos podem ser adquiridos através das nossas recomendações nos primeiros dois artigos (sobre programação e estatística, ambos em inglês) deste guia de carreiras em Ciência de Dados.

Nosso curso selecionado para melhor introduzir a ciência de dados é...

Ciência de dados de A a Z™: incluindo exercícios de ciência de dados da vida real (Kirill Eremenko/Udemy)

O curso de Kirill Eremenko na Udemy é claramente o vencedor em termos de abrangência e profundidade na cobertura do processo de ciência de dados entre os mais de 20 cursos classificados. Possui uma média ponderada de classificações de 4,5 e 3,071 avaliações, colocando-o entre os cursos mais bem classificados e avaliados dentre aqueles que foram considerados.

Esse curso resume o processo completo e utiliza exemplos reais, além de possuir uma boa duração, com 21 horas de conteúdo. Ele conquista os corações de quem avaliou seu conteúdo com a sua entrega e organização de conteúdos. O preço varia com descontos da Udemy, que são frequentes. Então, é possível adquirir o curso por 20-60 reais.

Apesar de não atender ao requisito de "ferramentas comuns em ciência de dados", as ferramentas alternativas ao Python/R (gretl, Tableau, Excel) são utilizadas com efetividade nesse contexto. Embora a explicação se aplique à todas as ferramentas que ele utiliza (ênfase minha), Eremenko menciona o seguinte ao explicar sua escolha pelo gretl (um pacote de software estatístico):

Conseguiremos realizar a mesma modelagem em R e Python utilizando o gretl, sem precisar utilizar código algum. Esse é o principal ponto aqui. Alguns de vocês podem conhecer muito bem R, mas outros podem não saber muito bem. Meu objetivo é mostrar como construir um modelo robusto e dar a você uma estrutura para aplicar em qualquer ferramenta que você quiser. O gretl nos ajudará a evitar de ficarmos presos no nosso código.

Um avaliador de destaque observou o seguinte:

Kirill é o melhor professor que eu já encontrei on-line. Ele utiliza de exemplos da vida real e explica problemas recorrentes para que você tenha um entendimento aprofundado do curso. Ele também fornece vários insights sobre o que significa ser um cientista de dados, desde lidar com dados insuficientes até apresentar seus resultados para o time de negócios. Eu recomendo fortemente esse curso para iniciantes e analistas de dados intermediários.

Uma boa introdução focada em Python

Introdução à Análise de Dados (Udacity)

O curso de Introdução à Análise de Dados da Udacity é uma oferta recente que faz parte do popular Data Analyst Nanodegree. Esse curso cobre o processo de ciência de dados de maneira clara e coesa utilizando Python, apesar de pecar um pouco no aspecto de modelagem. O tempo estimado para finalização do curso é de 36 horas (seis horas por semana, ao longo de seis semanas), muito embora seja menor, com base na minha experiência. Possui uma média ponderada de 5 estrelas baseada em duas avaliações. É gratuito.

Os vídeos são bem produzidos e a instrutora (Caroline Buckey) é clara e afável. Vários questionários sobre programação reforçam os conceitos aprendidos nos vídeos. Os estudantes sairão do curso confiantes nas suas novas habilidades e/ou em suas habilidades aprimoradas em Numpy e Pandas (bibliotecas populares do Python). O projeto final – que é classificado e avaliado no Nanodegree, mas não no curso individual gratuito – pode ser uma boa inclusão a um portfólio.

Uma oferta impressionante, mas sem dados de avaliação

Fundamentos em Ciência de Dados (Big Data University)

O curso de fundamentos de ciências de dados é uma série de quatro cursos, oferecida pela Universidade Big Data, da IBM. Essa oferta inclui cursos como Introdução à Ciência de Dados, Metodologia de Ciência de Dados, Prática em Ciência de Dados com ferramentas de código aberto e Introdução ao R.

Esses cursos cobre o processo completo de ciência de dados introduz ferramentas de código aberto, como Python, R e muitas outras. Possui um valor produtivo enorme. É estimado que se dedique 13 a 18 horas a ele, dependendo de você cursar ou não a Introdução ao R no final, o que não é necessário para os propósitos desse guia. Infelizmente, não existem avaliações disponíveis nos principais sites de avaliação que utilizamos nesse guia. Portanto, ainda não podemos recomendá-lo como substituto de algum dos cursos acima mencionados. É gratuito.

A concorrência

Nossa primeira escolha possui uma média ponderada de 4,5 de 5 estrelas, levando em conta 3.068 avaliações. Vamos ver as outras alternativas, por ordem decrescente de classificação. Você encontrará vários cursos focados em R abaixo, se você tiver conhecimentos introdutórios dessa linguagem.

Bootcamp de Python para ciência de dados e Machine Learning (Jose Portilla/Udemy): todo o processo coberto com um foco pesado em ferramentas (Python). Menos dirigido ao processo e mais voltado a uma introdução detalhada de Python. É um curso incrível, apesar de não ser o ideal para o escopo desse guia. Assim como o curso criado por Jose Portilla que vemos abaixo, serve tanto como introdução à ciência de dados, como às linguagens Python e R, que servem de ferramentas para a área. 21,5 horas de conteúdo. Média ponderada de 4,7 estrelas, levando em conta 1.644 avaliações. O custo varia, dependendo dos descontos da Udemy, que são frequentes.
Bootcamp de R para ciência de dados e Machine Learning (Jose Portilla/Udemy): todo o processo coberto com um foco pesado em ferramentas (R). Menos dirigido ao processo e mais voltado a uma introdução detalhada de R. Incrível curso, apesar de não ser ideal para o escopo desse guia. Assim como o curso criado por Jose Portilla que vemos acima, serve tanto como introdução à ciência de dados, como às linguagens Python e R, que servem de ferramentas para a área. 18 horas de conteúdo. Média ponderada de 4,6 estrelas levando em conta 847 avaliações. O custo varia, dependendo dos descontos da Udemy, que são frequentes.

Jose Portilla tem dois bootcamps de ciência de dados na Udemy: um em Python e um em R.

Ciência de dados e Machine Learning com Python - Mão na Massa! (Frank Kane/Udemy): cobertura parcial do processo. Foca em estatística e em Machine Learning. Duração decente (9 horas de conteúdo). Utiliza Python. Possui uma média ponderada de 4,5 estrelas, levando em conta 3.104 avaliações. Custo varia, dependendo da Udemy.
Introdução à ciência de dados (Data Hawk Tech/Udemy): cobertura completa do processo, apesar de ter uma profundidade limitada. Bem curto (três horas de conteúdo). Cobre brevemente R e Python. Possui uma média ponderada de 4,4 estrelas, levando em conta 62 avaliações. Preço varia dependendo dos descontos da Udemy.
Ciência de dados aplicada: uma introdução (Syracuse University/Open Education by Blackboard): cobertura completa do processo, apesar de não ser muito coerente. Foco intensivo em estatística básica e em R. Muito aplicado e sem foco o suficiente no processo para o propósito desse guia. A experiência on-line parece desarticulada. Média ponderada de 4,33 estrelas levando em conta 6 avaliações. Gratuito.
Introdução à ciência de dados (Nina Zumel & John Mount/Udemy): uma cobertura apenas parcial do processo, apesar de ter uma boa profundidade na preparação dos dados e aspectos da modelagem. Duração boa (seis horas de conteúdo). Utiliza R. Possui uma média ponderada de 4,3 estrelas, levando em conta 101 avaliações. Custo varia dependendo dos descontos da Udemy.
Ciência de dados aplicada com Python (V2 Maestros/Udemy): cobertura completa do processo, com um detalhamento profundo de cada aspecto. Duração decente (oito horas e meia de conteúdo). Utiliza Python. Possui uma média ponderada de 4,3 estrelas, levando em conta 92 avaliações. Custo varia dependendo dos descontos da Udemy.

A V2 Maestros tem duas versões de seu curso de "Ciência de dados aplicada": uma para o Python e outra para o R.

Quer se tornar um cientista de dados? (V2 Maestros/Udemy): cobertura completa do processo, apesar de ter uma profundidade limitada. Bem curto (três horas de conteúdo). Cobertura de ferramentas limitada. Possui uma média ponderada de 4,3 estrelas, levando em conta 790 avaliações. Custo varia dependendo dos descontos da Udemy.
Dos dados ao insight: uma introdução à análise de dados (University of Auckland/Future Learn): amplitude da cobertura não muito clara. Alega focar em exploração de dados, descobrimento e visualização. Não é oferecido por demanda. 24 horas de conteúdo (três horas por semana por oito semanas). Possui uma média ponderada de 4 levando em conta 2 avaliações. Gratuito, mas com certificado pago.
Orientação à ciência de dados (Microsoft/edX): cobertura parcial do processo (carece de aspectos de modelagem). Usa Excel, o que faz sentido, dado que é um curso da Microsoft. De 12 a 24 horas de conteúdo (de duas a quatro horas por semana durante seis semanas). Possui uma média ponderada de 3,95 estrelas levando em conta 40 avaliações. Gratuito, com certificado verificado disponível por 25 dólares.
Ciência de dados essencial (Microsoft/edX): cobertura completa do processo com uma boa profundidade em cada aspecto. Cobre R, Python e Azure ML (uma plataforma de Machine Learning da Microsoft). Muitas avaliações de 1 estrela citando a escolha da ferramenta (Azure ML) e a didática ruim do instrutor. De 18 a 24 horas de conteúdo (de 3 a 4 horas por semana durante seis semanas). Possui uma média ponderada de 3,81 estrelas, levando em conta 67 avaliações. Gratuito, mas com certificado verificado disponível por 49 dólares.

Os dois cursos acima são parte do programa profissional de certificação em ciência de dados da edX.

Ciência de dados aplicada com R (V2 Maestros/Udemy): o equivalente em R para o curso do mesmo criador mencionado acima. Cobertura completa do processo, com uma boa profundidade em cada aspecto do processo. Duração decente (11 horas de conteúdo). Utiliza R. Possui uma média ponderada de 3,8 estrelas, baseado em 212 avaliações. Custo varia dependendo dos descontos da Udemy.
Introdução à ciência de dados (Udacity): cobertura parcial do processo, apesar de ter uma boa profundidade nos tópicos abordados. Carece de aspectos de exploração, apesar de a Udacity ter um ótimo curso de análise exploratória de dados (AED). Alega ter 48 horas de duração (seis horas por semana durante oito semanas), mas é mais curto na minha experiência. Algumas avaliações acreditam que o curso peca na organização dos conteúdos avançados. Parece desorganizado. Utiliza Python. Possui uma média ponderada de 3,61 estrelas, com base em 18 avaliações. Gratuito.
Introdução à ciência de dados em Python (University of Michigan/Coursera): cobertura parcial do processo. Não trata de visualização ou modelagem, apesar do segundo e do terceiro cursos da especialização em ciência de dados aplicada com Python abordarem esses aspectos. Tratar dos três cursos daria uma profundidade que foge aos propósitos deste guia. Utiliza Python. Quatro semanas de duração. Possui uma média ponderada de 3,6 estrelas, com base em 15 avaliações. Opções gratuitas e pagas disponíveis.

A University do Michigan ensina a especialização em ciência de dados aplicada com Python na Coursera.

Tomadas de decisões baseadas em dados (PwC/Coursera): cobertura parcial do processo (carece de modelagem) com um foco em negócios. Introduz várias ferramentas, incluindo R, Python, Excel, SAS e Tableau. Quatro semanas de duração. Possui uma média ponderada de 3,5 estrelas baseada em 2 avaliações. Opções gratuitas e pagas disponíveis.
Um curso rápido em ciência de dados (John Hopkins University/Coursera): um resumo extremamente curto do processo completo. Curto demais para o propósito desse guia. Duas horas de duração. Possui uma média ponderada de 3,4 estrelas, com base em 19 avaliações. Opções gratuitas e pagas disponíveis.
A caixa de ferramentas do cientista de dados (John Hopkins University/Coursera): um resumo extremamente curto de todo o processo. Mais um curso preparatório para a especialização em ciência de dados da John Hopkins University. Alega ter de 4 a 16 horas de conteúdo (de 1 a 4 horas por semana durante 4 semanas), mas um dos avaliadores notou que poderia ser concluído em duas horas. Possui uma média ponderada de 3,22 estrelas, com base em 182 avaliações. Opções gratuitas e pagas disponíveis.
Gerenciamento de dados e visualização (Wesleyan University/Coursera): cobertura parcial do processo (carece de modelagem). Quatro semanas de duração. Bom valor produtivo. Utiliza python e SAS. Possui uma média ponderada de 2,67 estrelas baseado em 6 avaliações. Opções gratuitas e pagas disponíveis.

Os cursos a seguir não tiveram nenhuma avaliação em janeiro de 2017.

CS109 - Ciência de Dados (Harvard University): cobertura completa do processo em uma boa profundidade (talvez profundo demais para os propósitos deste guia). Um curso de graduação completo de 12 semanas. A navegação do curso é difícil, dado que ele não foi desenvolvido para consumo on-line. As aulas reais em Harvard foram gravadas. O infográfico do processo de ciência de dados abaixo surgiu desse curso. Utiliza Python. Nenhuma avaliação. Gratuito.

A visualização apresentada na página inicial do CS109 de Harvard

Introdução à análise de dados para negócios (University of Colorado Boulder/Cousera): cobertura parcial do processo (carece de aspectos de modelagem e visualização) com um foco em negócios. O processo de ciência de dados é chamado de "Cadeia de Valor Informação-Ação" em suas aulas. Quatro semanas de duração. Descreve várias ferramentas, apesar de somente SQL ser abordado com alguma profundidade. Nenhuma avaliação. Opções gratuitas e pagas disponíveis.
Introdução à ciência de dados (Lynda): cobertura completa do processo, apesar de ter profundidade limitada. Bem curto (três horas de conteúdo). Introduz R e Python. Nenhuma avaliação. O custo depende da assinatura da Lynda.

Resumindo

Esse é o terceiro de uma série de seis artigos que cobre os melhores cursos on-line para alavancar seu conhecimento no ramo de ciência de dados. Cobrimos programação no primeiro artigo e estatística e probabilidade no segundo. O resto dos artigos abordará outras competências essenciais em ciência de dados: visualização e Machine Learning.

Se quiser aprender ciência de dados, faça alguns desses cursos de estatística

O último artigo será um resumo dessa série, além dos melhores cursos on-line para outros tópicos-chave, como limpeza de dados, bancos de dados e, até, engenharia de software.

Se você estiver procurando por uma lista completa de cursos on-line em ciência de dados, você os encontrará na página do Class Central, no tema Ciência de dados e Big Data.

Se você gostou de ler este artigo, dê uma olhada em alguns outros trabalhos da Class Central (textos em inglês):

Caso você tenha sugestões de cursos que o autor não tenha citado aqui, indique-os!

Essa é uma versão condensada do artigo original do autor na Class Central, onde ele incluiu mais descrições de cursos, programas de estudo e várias análises.

Roteiro de aprendizagem de Ciência de Dados

Cayo Dias — Fri, 25 Feb 2022 18:28:06 +0000

Artigo original: Data Science Learning Roadmap

Embora nada realmente mude, exceto a data, um novo ano deixa todos nós com a esperança de começar de novo. Se você adicionar um pouco de planejamento, algumas metas bem planejadas e um roteiro de aprendizagem, terá uma ótima receita para um ano cheio de crescimento.

Esta postagem pretende fortalecer seu plano, fornecendo uma estrutura de aprendizagem, recursos e ideias de projetos para ajudá-lo a construir um portfólio sólido de trabalho apresentando experiência em ciência de dados.

Apenas uma observação: preparei este roteiro com base na minha experiência pessoal em ciência de dados. Este não é o plano de aprendizagem definitivo. Você pode adaptar este roteiro para melhor se adequar a qualquer domínio ou campo de estudo específico que lhe interesse. Além disso, ele foi criado com o Python em mente, pois eu pessoalmente prefiro essa linguagem.

O que é um roteiro de aprendizagem?

Um roteiro de aprendizagem é uma extensão de um programa de estudos. Ele traça um mapa de habilidades de vários níveis com detalhes sobre quais habilidades você deseja aprimorar, como você medirá o resultado em cada nível e técnicas para dominar ainda mais cada habilidade.

Meu roteiro atribui pesos a cada nível com base na complexidade e semelhança de sua aplicação no mundo real. Eu também adicionei um tempo estimado para um iniciante completar cada nível com exercícios e projetos.

Aqui está uma pirâmide que descreve as habilidades de alto nível em ordem de complexidade e aplicação no setor.

Atividades de Ciência de Dados em ordem de complexidade

Ela marcará a base de nossa estrutura. Agora teremos que nos aprofundar em cada um desses estratos para completar nossa estrutura com detalhes mais específicos e mensuráveis.

A especificidade vem do exame dos tópicos críticos em cada camada e dos recursos necessários para dominar esses tópicos.

Podemos medir o conhecimento adquirido, aplicando os tópicos aprendidos a vários projetos do mundo real. Adicionei algumas ideias de projetos, portais e plataformas que você pode usar para medir sua proficiência.

NOTA importante: viva um dia de cada vez, um vídeo/blog/capítulo por dia. É um amplo espectro para se cobrir. Não se sobrecarregue!

Vamos mergulhar profundamente em cada um desses estratos, começando pela base.

1. Como aprender sobre programação ou engenharia de software

(Tempo estimado: 2-3 meses)

Primeiro, certifique-se de ter boas habilidades de programação. Toda descrição de trabalho de ciência de dados exigirá experiência em programação em pelo menos uma linguagem.

Tópicos específicos de programação a serem conhecidos incluem:

Estruturas de dados comuns (tipos de dados, listas, dicionários, conjuntos, tuplas), funções, lógica, controle de fluxo, algoritmos de busca e ordenação, programação orientada a objetos e trabalho com bibliotecas externas
Scripts de SQL: consultas a bancos de dados usando JOIN, funções de agregação e subconsultas
Tranquilidade no uso do Terminal, controle de versão usando Git e GitHub

Recursos para aprender Python:

learnpython.org [gratuito]— um recurso gratuito para iniciantes. Abrange todos os tópicos básicos de programação desde o básico. Você dispõe de um shell interativo para praticar esses tópicos lado a lado.
Kaggle [gratuito]— um guia gratuito e interativo para aprender Python. É um tutorial curto que cobre todos os tópicos importantes para a ciência de dados.
Certificações de Python no freeCodeCamp [gratuito] – o freeCodeCamp oferece diversas certificações baseadas em Python, como computação científica, análise de dados e aprendizagem de máquina.
Curso de Python no canal do freeCodeCamp no YouTube [gratuito] — Este é um curso de 5 horas que você pode fazer para praticar os conceitos básicos.
Python intermediário [gratuito]— Outro curso gratuito apresentado no freecodecamp.org pelo Patrick.
Python for Everybody Specialization (Especialização em Python para todos) no Coursera [pago] — esta é uma especialização que abrange conceitos de nível iniciante, estruturas de dados em Python, coleta de dados da web e uso de bancos de dados com Python.

Recursos para aprender Git e GitHub

Guia para Git e GitHub [gratuito]: complete esses tutoriais e laboratórios para ter uma ideia sólida de controle de versão. Esses cursos o ajudarão a contribuir ainda mais para projetos de código aberto.
Aqui temos um curso intensivo sobre Git e GitHub no canal do freeCodeCamp no YouTube.

Recursos para aprender SQL

Aqui, temos um curso sobre SQL e bancos de dados no canal do freeCodeCamp no YouTube
Introdução ao SQL e SQL avançado no Kaggle.
Treehouse oferece um bom curso introdutório sobre SQL aqui.

Meça sua experiência resolvendo muitos problemas e construindo pelo menos 2 projetos:

Resolva muitos problemas em: HackerRank (recomendado para iniciantes) e LeetCode (resolva questões fáceis ou de nível médio)
Extração de dados de um site/endpoints de APIs — tente escrever scripts em Python para extrair dados de páginas da web que permitem scraping (raspagem da web) como o soundcloud.com. Armazene os dados extraídos em um arquivo CSV ou em um banco de dados SQL.
Jogos como pedra-papel-tesoura, girar o novelo, forca, simulador de rolagem de dados, jogo da velha e assim por diante.
Aplicativos web simples, como um programa para baixar vídeos do YouTube, bloqueador de sites, reprodutor de música, verificador de plágio e assim por diante.

Hospede esses projetos em páginas do GitHub Pages ou simplesmente mantenha os códigos no GitHub para que você aprenda a usar o Git.

2. Como aprender sobre coleta de dados e "data wrangling" (limpeza/manipulação)

(Tempo estimado: 2 meses)

Uma parte significativa do trabalho de ciência de dados está centrada em encontrar dados adequados que possam ajudá-lo a resolver seu problema. Você pode coletar dados de diferentes fontes legítimas — scraping (raspagem - se o site permitir), APIs, bancos de dados e repositórios disponíveis publicamente.

Uma vez que você tenha os dados em mãos, como um analista, frequentemente, você se encontrará limpando dataframes, trabalhando com arrays multidimensionais, usando cálculos descritivos/científicos e manipulando dataframes para agregar dados.

No mundo real, raramente, os dados são encontrados limpos, formatados e prontos para uso. Pandas e NumPy são as duas bibliotecas que estão à sua disposição para transformar dados brutos em dados prontos para análise.

À medida que você começar a se sentir confortável escrevendo programas em Python, sinta-se à vontade para começar a ter aulas sobre o uso de bibliotecas como pandas e numpy.

Recursos para aprender sobre coleta e limpeza de dados:

Curso sobre Numpy, Pandas, matplotlib e seaborn no freeCodeCamp [gratuito].
Tutorial prático da HackerEarth sobre manipulação de dados com NumPy e Pandas, usando o Python.
Tutorial sobre pandas da Kaggle [gratuito] — um tutorial prático curto e conciso que o guiará pelas habilidades mais comuns de manipulação de dados.
Curso de limpeza de dados da Kaggle.
Curso de Introdução à Ciência de Dados usando Python do Coursera — este é o primeiro curso da Especialização em Ciência de Dados com Python.

Ideias de projetos de coleta de dados:

Colete dados de um site/API (aberto para consumo público) de sua escolha e transforme os dados para armazená-los de diferentes fontes em um arquivo ou tabela agregada (DB). Exemplos de APIs incluem: TMDB, quandl, Twitter API, e assim por diante.
Escolha qualquer conjunto de dados disponível publicamente e defina um conjunto de perguntas que você gostaria de responder depois de analisar o conjunto de dados e o domínio. Manipule os dados para encontrar respostas para essas perguntas usando Pandas e NumPy.

3. Como aprender sobre análise exploratória de dados, Business Acumen, and Storytelling

(Tempo estimado: 2–3 meses)

A próxima etapa a ser dominada compreende a análise de dados e o storytelling (contar a história, em inglês). Extrair insights dos dados e, em seguida, comunicá-los aos gestores, fazendo uso de expressões simples e visualizações é a principal responsabilidade de um analista de dados.

A parte do storytelling exige que você seja proficiente em visualização de dados, além de possuir excelentes habilidades de comunicação.

Tópicos específicos de análise de dados exploratórios e storytelling para aprender incluem:

Análise de dados exploratória — definição de perguntas, tratamento de dados faltantes, pontos fora da curva (também conhecidos pela palavra em inglês, outliers), formatação, filtragem, análises univariada e multivariada.
Visualização de dados — construção de gráficos, usando bibliotecas como matplotlib, seaborn e plotly. Saber como escolher o gráfico certo para comunicar as conclusões obtidas a partir dos dados.
Desenvolvimento de dashboards — uma boa porcentagem de analistas usa apenas o Excel ou uma ferramenta especializada como Power BI e Tableau para criar dashboards que resumem/agregam dados para ajudar os gestores a tomar decisões.
Conhecimento de negócios: faça as perguntas certas e responda as que são realmente relacionadas às métricas de negócios. Pratique a redação de relatórios, blogs e apresentações claras e concisas.

Recursos para aprender mais sobre análise de dados:

Aprenda análise de dados com Python neste curso gratuito no canal do freeCodeCamp no YouTube.
Análise de dados com Python — da IBM no Coursera. O curso abrange data wrangling, análise exploratória e desenvolvimento de modelos simples usando Python.
Visualização de dados — Kaggle. Outro curso interativo que permite praticar a construção de gráficos comumente utilizados.
Desenvolva senso de produto e business acumen com estes livro: Measure what matters (Avalie o que importa), Decode and conquer (Decodificar e Conquistar), Cracking the PM interview.

Ideias de projetos de análise de dados

Análise exploratória de bancos de dados de filmes para encontrar a fórmula para criar filmes lucrativos (use como inspiração). Use conjuntos de dados de saúde, finanças, OMS, censos anteriores, comércio eletrônico e assim por diante.
Construa dashboards (jupyter notebooks, excel, tableau) usando os recursos fornecidos acima.

4. Como aprender sobre engenharia de dados

(Tempo estimado: 4–5 meses)

A engenharia de dados sustenta as equipes de Pesquisa e Desenvolvimento, tornando os dados limpos acessíveis a engenheiros de pesquisa e cientistas em empresas orientadas a big data. É um campo por si só, e você pode pular esta seção se quiser se concentrar apenas na parte dos algoritmos estatísticos.

As responsabilidades de um engenheiro de dados incluem construir uma arquitetura de dados eficiente, simplificar o processamento de dados e manter sistemas de dados em grande escala.

Engenheiros de dados usam o Shell (interface de linha de comando – CLI), SQL e Python/Scala para criar pipelines de extração, transformação e carga de dados (ETL, do inglês Extract, Transform and Load), automatizar tarefas do sistema de arquivos e otimizar as operações do banco de dados para torná-las de alto desempenho.

Outra habilidade essencial é implementar essas arquiteturas de dados que exigem proficiência em provedores de serviços em nuvem como AWS, Google Cloud Platform, Microsoft Azure e outros.

Recursos para aprender engenharia de dados:

Data Engineering Nanodegree da Udacity — no que diz respeito a uma lista compilada de recursos, não encontrei um curso mais bem estruturado sobre engenharia de dados que cubra todos os principais conceitos do zero.
Especialização em Engenharia de Dados, Big Data e Aprendizagem de Máquina na GCP — Você pode concluir esta especialização oferecida pelo Google no Coursera, que orienta você por todas as principais APIs e serviços oferecidos pela GCP (Google Cloud Platform) para criar uma solução de dados completa.

Ideias de projetos/preparação para certificações em engenharia de dados:

AWS Certified Machine Learning (US$ 300) — um exame supervisionado oferecido pela AWS adiciona algum peso ao seu perfil (embora não garanta nada), requer uma compreensão razoável dos serviços da AWS e ML.
Professional Data Engineer — este também é um exame supervisionado e avalia suas habilidades para projetar sistemas de processamento de dados, implantar modelos de aprendizagem de máquina em um ambiente de produção e garantir a qualidade e a automação das soluções.

5. Como aprender sobre Estatística Aplicada e Matemática

(Tempo estimado: 4–5 meses)

Os métodos estatísticos são uma parte central da ciência de dados. Quase todas as entrevistas de ciência de dados se concentram predominantemente em estatísticas descritivas e inferenciais.

As pessoas geralmente começam a programar algoritmos de aprendizagem de máquina sem uma compreensão clara dos métodos estatísticos e matemáticos subjacentes que explicam o funcionamento desses algoritmos. Esta, claro, não é a melhor maneira de fazer isso.

Tópicos em que você deve se concentrar em Estatística Aplicada e Matemática:

Estatística Descritiva — ser capaz de resumir os dados é uma habilidade poderosa, mas nem sempre. Aprenda sobre medidas de posição (média, mediana, moda, estatísticas ponderadas, estatísticas truncadas) e variabilidade para descrever os dados.
Estatística Inferencial — projetar testes de hipóteses, testes A/B, definir métricas de negócios, analisar os dados coletados e resultados de experimentos usando intervalo de confiança, valor p e valores alfa.
Álgebra Linear, Cálculo uni e multivariado para entender as funções de custo, gradiente e otimizadores em aprendizagem de máquina.

Recursos para aprender sobre Estatística e Matemática:

Aprenda Estatística de nível universitário neste curso gratuito de 8 horas no canal do freeCodeCamp no YouTube
[Livro] Estatística prática para cientistas de dados (altamente recomendado) — um guia completo sobre todos os métodos estatísticos importantes, juntamente com aplicações/exemplos claros e concisos.
[Livro] Naked Statistics — um guia não técnico, mas detalhado, para entender o impacto das estatísticas em nossos eventos de rotina, esportes, sistemas de recomendação e muitos outros casos.
Statistical thinking in Python — um curso básico para ajudá-lo a começar a pensar estatisticamente. Há uma segunda parte para este curso também.
Intro to Descriptive Statistics— oferecido pela Udacity. Consiste em aulas em vídeo, explicando medidas amplamente utilizadas de posição e variabilidade (desvio padrão, variância, desvio médio absoluto).
Inferential Statistics, Udacity — o curso consiste em aulas em vídeo que ensinam você a tirar conclusões a partir de dados que podem não ser imediatamente óbvios. Ele se concentra no desenvolvimento de hipóteses e usa testes comuns, como teste t, ANOVA e regressão.
E aqui está um guia de Estatística para Ciência de Dados para ajudá-lo a começar no caminho certo.

Ideias de projetos de Estatística:

Resolva os exercícios fornecidos nos cursos acima e tente passar por vários conjuntos de dados públicos onde você pode aplicar esses conceitos estatísticos. Faça perguntas como “Existem evidências suficientes para concluir que a idade média das mães que dão à luz em Boston é superior a 25 anos no nível de significância de 0,05”?
Tente projetar e executar pequenos experimentos com seus colegas/grupos/turmas, pedindo que eles interajam com um aplicativo ou respondam a uma pergunta. Execute métodos estatísticos nos dados coletados quando tiver uma boa quantidade de dados após um período de tempo. Isso pode ser muito difícil de conseguir, mas deve ser muito interessante.
Analise os preços das ações, criptomoedas e hipóteses de design em torno do retorno médio ou qualquer outra métrica. Determine se você pode rejeitar a hipótese nula ou deixar de fazê-lo usando valores críticos.

6. Como aprender sobre aprendizagem de máquina e IA

(Tempo estimado: 4–5 meses)

Depois de se questionar e passar por todos os principais conceitos mencionados acima, agora você deve estar pronto para começar com os sofisticados algoritmos de ML (Machine Learning - Aprendizagem de Máquina).

Há três tipos principais de aprendizagem:

Aprendizagem supervisionada — inclui problemas de regressão e classificação. Estude regressão linear simples, regressão múltipla, regressão polinomial, Naive Bayes, regressão logística, KNNs, árvores de classificação, modelos ensemble. Saiba mais sobre as métricas de avaliação.
Aprendizagem não supervisionada— agrupamento e redução de dimensionalidade são as duas aplicações amplamente utilizadas de aprendizagem não supervisionada. Mergulhe profundamente em PCA, agrupamento K-means, agrupamento hierárquico e misturas gaussianas.
Aprendizagem por reforço (não obrigatório*) — ajuda você a construir sistemas de autorrecompensa. Aprenda a otimizar recompensas, usando a biblioteca TF-Agents, criando Q-networks profundas e assim por diante.

A maioria dos projetos de ML precisa que você domine várias tarefas explicadas neste artigo.

Recursos para aprender sobre Aprendizagem de Máquina:

Aqui temos um curso completo de Aprendizagem de máquina usando Python e a biblioteca SciKitLearn no canal do freeCodeCamp no YouTube.
[Livro] Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition — um dos meus livros favoritos de todos os tempos sobre aprendizagem de máquina. Não cobre apenas as derivações matemáticas teóricas, mas também mostra a implementação de algoritmos através de exemplos. Você deve resolver os exercícios dados no final de cada capítulo.
Curso de Aprendizagem de Máquina por Andrew Ng — curso obrigatório para quem está tentando aprender machine learning. Definitivamente!
Introduction to Machine Learning — Curso interativo no Kaggle.
Intro to Game AI and Reinforcement Learning — outro curso interativo no Kaggle sobre aprendizagem por reforço.

Especialização em Deep Learning na deeplearning.ai

Para aqueles que estão interessados em mergulhar ainda mais em Deep Learning, você pode começar concluindo esta especialização oferecida pela deeplearning.ai e o livro Hands-On. Isso não é tão importante do ponto de vista da ciência de dados, a menos que você esteja planejando resolver um problema de visão computacional ou NLP (do inglês Natural Language Processing - processamento de linguagens naturais).

Deep Learning merece um roteiro dedicado. Vou criar um com todos os conceitos fundamentais em breve.

Acompanhe seu progresso de aprendizagem

Também criei uma página no Notion onde você poderá acompanhar sua aprendizagem. Você pode personalizá-la de acordo com suas necessidades e usá-la para acompanhar seu progresso, ter acesso fácil a todos os recursos e seus projetos.

Aqui está o link.

Além disso, aqui está a versão em vídeo deste artigo:

Ciência de dados com Harshit

Esta é apenas uma visão geral de alto nível do amplo espectro da ciência de dados. Você pode querer se aprofundar em cada um desses tópicos e criar um plano de menor rigor baseado em conceitos para cada uma das categorias.

Se este tutorial foi útil para você, confira os cursos do autor sobre Ciência de Dados e Aprendizagem de Máquina na Wiplane Academy. Eles são abrangentes, mas compactos, e ajudam você a construir uma base sólida de trabalho para mostrar.