Artigo original: I ranked every Intro to Data Science course on the internet, based on thousands of data points

Escrito por: David Venturi

Nota do tradutor: para os interessados em ciência de dados, este artigo possui uma lista bastante grande de sugestões de cursos para aprender sobre o assunto. Como ele é uma tradução, no entanto, o leitor verá que todos os cursos tratados nas diversas plataformas citadas estão em inglês. Assim sendo, o conhecimento do idioma é fundamental para a realização desses cursos.

Há um ano, eu larguei um dos melhores programas de ciência da computação do Canadá. Comecei a construir meu próprio programa de mestrado em ciência de dados utilizando recursos disponíveis on-line. Percebi que poderia aprender tudo o que eu precisava através da edX, da Coursera e da Udacity. Também vi que eu poderia aprender mais rápido, de maneira mais eficiente e por um custo bem mais baixo.

Agora, estou quase terminando. Fiz muitos cursos relacionados à ciência de dados, e analisei muitos outros também. Conheço as opções que existem por aí e quais habilidades são necessárias para estudantes que estão se preparando para cargos de analistas ou cientistas de dados. Há alguns meses, comecei a criar um guia baseado nas avaliações de usuários que recomenda os melhores cursos para cada tema em ciência de dados.

Para o primeiro guia da série, eu recomendei alguns cursos de programação para o iniciante em ciência de dados. Depois, alguns cursos sobre probabilidade e estatística (os dois guias ainda estão em inglês).

Introdução à Ciência de Dados

(Não se preocupe se você não souber de que trata um curso introdutório em ciência de dados. Eu explicarei daqui a pouco)

Eu passei mais de 10 horas tentando identificar os cursos on-line de introdução à ciência de dados oferecidos a partir de janeiro de 2017 para esse guia, extraindo informações importantes de suas ementas e compilando suas avaliações. Para realizar essa tarefa, eu recorri a ninguém menos que a comunidade de código aberto do Class Central e ao seu banco de dados com milhares de avaliações e classificações de cursos.

Desde 2011, o fundador da Class Central, Dhawal Shah, tem se atentado aos cursos disponíveis on-line, mais do que qualquer outra pessoa no mundo. Ele me ajudou pessoalmente a montar essa lista.

Como selecionamos os cursos para avaliar

Cada curso deve atender a três critérios:

  1. Deve ensinar o processo de ciência de dados. Mais sobre isso em breve.
  2. Deve ser sob demanda ou oferecido várias vezes ao ano.
  3. Deve ser um curso on-line interativo, ou seja, sem livros ou tutoriais apenas para leitura. Apesar de haver várias formas de aprender, esse guia foca em cursos.

Acreditamos que conseguimos cobrir todos os cursos de qualidade que atendem aos critérios acima. Uma vez que existem, aparentemente, centenas de cursos na Udemy, consideramos somente os mais comentados e bem avaliados. Sempre há, porém, a possibilidade de termos deixado passar algum. Nesse caso, se deixamos algum curso de fora deste guia, informe-nos.

Como avaliamos os cursos

Compilamos a média de avaliação e de número de comentários do Class Central e de outros sites de avaliação para calcular a média ponderada da nota de cada curso. Lemos os comentários e usamos este feedback para complementar as avaliações numéricas.

Tomamos algumas decisões subjetivas com relação às ementas com base em dois fatores:

  1. Cobertura do processo de ciência de dados. O curso apenas pincela ou simplesmente não aborda certos temas? Ele cobre determinados assuntos em detalhes demais? Veja a próxima seção para saber como foi esse processo .
  2. Uso de ferramentas comuns em ciência de dados. O curso utiliza linguagens de programação populares, como Python e/ou R? Elas não são necessárias, mas são úteis em muitos casos. Então, demos uma pequena preferência para esses cursos.
1_4NoJKhtSpxGrqFOjl89MeQ
Python e R são as duas linguagens de programação mais populares utilizadas na ciência dos dados.

O que é o processo de ciência de dados?

O que é ciência de dados? O que faz um cientista de dados? Essas são perguntas que cursos introdutórios em ciência de dados precisam responder. O infográfico abaixo, dos professores Joe Blitzstein e Hanspeter Pfister, de Harvard, resume um típico processo de ciência de dados que nos ajudará a responder a essas perguntas.

1_ius9T3uGkd743dljInNF8w
Visualização da Opera Solutions

Nosso objetivo com essa introdução ao curso de ciência de dados é nos familiarizar com esse processo. Não queremos cobrir aspectos muito específicos dele, visto que o título inclui a palavra "introdução".

Para cada aspecto, o curso ideal explica os conceitos-chave dentro da estrutura do processo, apresenta as ferramentas mais utilizadas e disponibiliza alguns exemplos (preferencialmente práticos).

Estamos buscando por uma introdução. Portanto, esse guia não inclui especializações completas ou programas como o Data Science Specialization, da Johns Hopkins University, no Coursera, nem o Data Analyst Nanodegree, da Udacity. Estas compilações de cursos escapam do propósito dessa coleção: encontrar os melhores cursos individuais para cada tema de modo a compor um estudo em ciência de dados. Os três últimos guias desta série de artigos abordarão em detalhes cada aspecto do processo de ciência de dados.

Experiência prévia obrigatória em programação básica, estatística e probabilidade

Muitos cursos listados abaixo requerem conhecimentos em programação básica, estatística e probabilidade. Essas exigências são compreensíveis, dado que o conteúdo é razoavelmente avançado, além desses temas possuírem, frequentemente, vários cursos dedicados a eles.

Esses conhecimentos podem ser adquiridos através das nossas recomendações nos primeiros dois artigos (sobre programação e estatística, ambos em inglês) deste guia de carreiras em Ciência de Dados.

Nosso curso selecionado para melhor introduzir a ciência de dados é...

O curso de Kirill Eremenko na Udemy é claramente o vencedor em termos de abrangência e profundidade na cobertura do processo de ciência de dados entre os mais de 20 cursos classificados. Possui uma média ponderada de classificações de 4,5 e 3,071 avaliações, colocando-o entre os cursos mais bem classificados e avaliados dentre aqueles que foram considerados.

Esse curso resume o processo completo e utiliza exemplos reais, além de possuir uma boa duração, com 21 horas de conteúdo. Ele conquista os corações de quem avaliou seu conteúdo com a sua entrega e organização de conteúdos. O preço varia com descontos da Udemy, que são frequentes. Então, é possível adquirir o curso por 20-60 reais.

Apesar de não atender ao requisito de "ferramentas comuns em ciência de dados", as ferramentas alternativas ao Python/R (gretl, Tableau, Excel) são utilizadas com efetividade nesse contexto. Embora a explicação se aplique à todas as ferramentas que ele utiliza (ênfase minha), Eremenko menciona o seguinte ao explicar sua escolha pelo gretl (um pacote de software estatístico):

Conseguiremos realizar a mesma modelagem em R e Python utilizando o gretl, sem precisar utilizar código algum. Esse é o principal ponto aqui. Alguns de vocês podem conhecer muito bem R, mas outros podem não saber muito bem. Meu objetivo é mostrar como construir um modelo robusto e dar a você uma estrutura para aplicar em qualquer ferramenta que você quiser. O gretl nos ajudará a evitar de ficarmos presos no nosso código.

Um avaliador de destaque observou o seguinte:

Kirill é o melhor professor que eu já encontrei on-line. Ele utiliza de exemplos da vida real e explica problemas recorrentes para que você tenha um entendimento aprofundado do curso. Ele também fornece vários insights sobre o que significa ser um cientista de dados, desde lidar com dados insuficientes até apresentar seus resultados para o time de negócios. Eu recomendo fortemente esse curso para iniciantes e analistas de dados intermediários.
1_gl_KL2hhIkodQpznSzu8ZA

Uma boa introdução focada em Python

O curso de Introdução à Análise de Dados da Udacity é uma oferta recente que faz parte do popular Data Analyst Nanodegree. Esse curso cobre o processo de ciência de dados de maneira clara e coesa utilizando Python, apesar de pecar um pouco no aspecto de modelagem. O tempo estimado para finalização do curso é de 36 horas (seis horas por semana, ao longo de seis semanas), muito embora seja menor, com base na minha experiência. Possui uma média ponderada de 5 estrelas baseada em duas avaliações. É gratuito.

Os vídeos são bem produzidos e a instrutora (Caroline Buckey) é clara e afável. Vários questionários sobre programação reforçam os conceitos aprendidos nos vídeos. Os estudantes sairão do curso confiantes nas suas novas habilidades e/ou em suas habilidades aprimoradas em Numpy e Pandas (bibliotecas populares do Python). O projeto final – que é classificado e avaliado no Nanodegree, mas não no curso individual gratuito – pode ser uma boa inclusão a um portfólio.

1_5IXXOHV9XjA_mcl9tiii8Q

Uma oferta impressionante, mas sem dados de avaliação

O curso de fundamentos de ciências de dados é uma série de quatro cursos, oferecida pela Universidade Big Data, da IBM. Essa oferta inclui cursos como Introdução à Ciência de Dados, Metodologia de Ciência de Dados, Prática em Ciência de Dados com ferramentas de código aberto e Introdução ao R.

Esses cursos cobre o processo completo de ciência de dados introduz ferramentas de código aberto, como Python, R e muitas outras. Possui um valor produtivo enorme. É estimado que se dedique 13 a 18 horas a ele, dependendo de você cursar ou não a Introdução ao R no final, o que não é necessário para os propósitos desse guia. Infelizmente, não existem avaliações disponíveis nos principais sites de avaliação que utilizamos nesse guia. Portanto, ainda não podemos recomendá-lo como substituto de algum dos cursos acima mencionados. É gratuito.

1_K0C--VIZ0DyImJexZyzFHg

A concorrência

Nossa primeira escolha possui uma média ponderada de 4,5 de 5 estrelas, levando em conta 3.068 avaliações. Vamos ver as outras alternativas, por ordem decrescente de classificação. Você encontrará vários cursos focados em R abaixo, se você tiver conhecimentos introdutórios dessa linguagem.

  • Bootcamp de Python para ciência de dados e Machine Learning (Jose Portilla/Udemy): todo o processo coberto com um foco pesado em ferramentas (Python). Menos dirigido ao processo e mais voltado a uma introdução detalhada de Python. É um curso incrível, apesar de não ser o ideal para o escopo desse guia. Assim como o curso criado por Jose Portilla que vemos abaixo, serve tanto como introdução à ciência de dados, como às linguagens Python e R, que servem de ferramentas para a área. 21,5 horas de conteúdo. Média ponderada de 4,7 estrelas, levando em conta 1.644 avaliações. O custo varia, dependendo dos descontos da Udemy, que são frequentes.
  • Bootcamp de R para ciência de dados e Machine Learning (Jose Portilla/Udemy): todo o processo coberto com um foco pesado em ferramentas (R). Menos dirigido ao processo e mais voltado a uma introdução detalhada de R. Incrível curso, apesar de não ser ideal para o escopo desse guia. Assim como o curso criado por Jose Portilla que vemos acima, serve tanto como introdução à ciência de dados, como às linguagens Python e R, que servem de ferramentas para a área. 18 horas de conteúdo. Média ponderada de 4,6 estrelas levando em conta 847 avaliações. O custo varia, dependendo dos descontos da Udemy, que são frequentes.
1_31ne7XmQ_fvDRA6FiGrFFA
1_E8aXOussUt-BCJ8awVjgpg
Jose Portilla tem dois bootcamps de ciência de dados na Udemy: um em Python e um em R.
  • Ciência de dados e Machine Learning com Python - Mão na Massa! (Frank Kane/Udemy): cobertura parcial do processo. Foca em estatística e em Machine Learning. Duração decente (9 horas de conteúdo). Utiliza Python. Possui uma média ponderada de 4,5 estrelas, levando em conta 3.104 avaliações. Custo varia, dependendo da Udemy.
  • Introdução à ciência de dados (Data Hawk Tech/Udemy): cobertura completa do processo, apesar de ter uma profundidade limitada. Bem curto (três horas de conteúdo). Cobre brevemente R e Python. Possui uma média ponderada de 4,4 estrelas, levando em conta 62 avaliações. Preço varia dependendo dos descontos da Udemy.
  • Ciência de dados aplicada: uma introdução (Syracuse University/Open Education by Blackboard): cobertura completa do processo, apesar de não ser muito coerente. Foco intensivo em estatística básica e em R. Muito aplicado e sem foco o suficiente no processo para o propósito desse guia. A experiência on-line parece desarticulada. Média ponderada de 4,33 estrelas levando em conta 6 avaliações. Gratuito.
  • Introdução à ciência de dados (Nina Zumel & John Mount/Udemy): uma cobertura apenas parcial do processo, apesar de ter uma boa profundidade na preparação dos dados e aspectos da modelagem. Duração boa (seis horas de conteúdo). Utiliza R. Possui uma média ponderada de 4,3 estrelas, levando em conta 101 avaliações. Custo varia dependendo dos descontos da Udemy.
  • Ciência de dados aplicada com Python (V2 Maestros/Udemy): cobertura completa do processo, com um detalhamento profundo de cada aspecto. Duração decente (oito horas e meia de conteúdo). Utiliza Python. Possui uma média ponderada de 4,3 estrelas, levando em conta 92 avaliações. Custo varia dependendo dos descontos da Udemy.
1_5s_UKt1N7jx5Plq_GNVv-Q
A V2 Maestros tem duas versões de seu curso de "Ciência de dados aplicada": uma para o Python e outra para o R.
  • Quer se tornar um cientista de dados? (V2 Maestros/Udemy): cobertura completa do processo, apesar de ter uma profundidade limitada. Bem curto (três horas de conteúdo). Cobertura de ferramentas limitada. Possui uma média ponderada de 4,3 estrelas, levando em conta 790 avaliações. Custo varia dependendo dos descontos da Udemy.
  • Dos dados ao insight: uma introdução à análise de dados (University of Auckland/Future Learn): amplitude da cobertura não muito clara. Alega focar em exploração de dados, descobrimento e visualização. Não é oferecido por demanda. 24 horas de conteúdo (três horas por semana por oito semanas). Possui uma média ponderada de 4 levando em conta 2 avaliações. Gratuito, mas com certificado pago.
  • Orientação à ciência de dados (Microsoft/edX): cobertura parcial do processo (carece de aspectos de modelagem). Usa Excel, o que faz sentido, dado que é um curso da Microsoft. De 12 a 24 horas de conteúdo (de duas a quatro horas por semana durante seis semanas). Possui uma média ponderada de 3,95 estrelas levando em conta 40 avaliações. Gratuito, com certificado verificado disponível por 25 dólares.
  • Ciência de dados essencial (Microsoft/edX): cobertura completa do processo com uma boa profundidade em cada aspecto. Cobre R, Python e Azure ML (uma plataforma de Machine Learning da Microsoft). Muitas avaliações de 1 estrela citando a escolha da ferramenta (Azure ML) e a didática ruim do instrutor. De 18 a 24 horas de conteúdo (de 3 a 4 horas por semana durante seis semanas).  Possui uma média ponderada de 3,81 estrelas, levando em conta 67 avaliações. Gratuito, mas com certificado verificado disponível por 49 dólares.
1_s_kLWZG31jVM_neaLZhXZg
Os dois cursos acima são parte do programa profissional de certificação em ciência de dados da edX.
  • Ciência de dados aplicada com R (V2 Maestros/Udemy): o equivalente em R para o curso do mesmo criador mencionado acima. Cobertura completa do processo, com uma boa profundidade em cada aspecto do processo. Duração decente (11 horas de conteúdo). Utiliza R. Possui uma média ponderada de 3,8 estrelas, baseado em 212 avaliações. Custo varia dependendo dos descontos da Udemy.
  • Introdução à ciência de dados (Udacity): cobertura parcial do processo, apesar de ter uma boa profundidade nos tópicos abordados. Carece de aspectos de exploração, apesar de a Udacity ter um ótimo curso de análise exploratória de dados (AED). Alega ter 48 horas de duração (seis horas por semana durante oito semanas), mas é mais curto na minha experiência. Algumas avaliações acreditam que o curso peca na organização dos conteúdos avançados. Parece desorganizado. Utiliza Python. Possui uma média ponderada de 3,61 estrelas, com base em 18 avaliações. Gratuito.
  • Introdução à ciência de dados em Python (University of Michigan/Coursera): cobertura parcial do processo. Não trata de visualização ou modelagem, apesar do segundo e do terceiro cursos da especialização em ciência de dados aplicada com Python abordarem esses aspectos. Tratar dos três cursos daria uma profundidade que foge aos propósitos deste guia. Utiliza Python. Quatro semanas de duração. Possui uma média ponderada de 3,6 estrelas, com base em 15 avaliações.  Opções gratuitas e pagas disponíveis.
1_iOuqB7POLAuBFsORues5cQ
A University do Michigan ensina a especialização em ciência de dados aplicada com Python na Coursera.
  • Tomadas de decisões baseadas em dados (PwC/Coursera): cobertura parcial do processo (carece de modelagem) com um foco em negócios. Introduz várias ferramentas, incluindo R, Python, Excel, SAS e Tableau. Quatro semanas de duração. Possui uma média ponderada de 3,5 estrelas baseada em 2 avaliações. Opções gratuitas e pagas disponíveis.
  • Um curso rápido em ciência de dados (John Hopkins University/Coursera): um resumo extremamente curto do processo completo. Curto demais para o propósito desse guia. Duas horas de duração. Possui uma média ponderada de 3,4 estrelas, com base em 19 avaliações. Opções gratuitas e pagas disponíveis.
  • A caixa de ferramentas do cientista de dados (John Hopkins University/Coursera): um resumo extremamente curto de todo o processo. Mais um curso preparatório para a especialização em ciência de dados da John Hopkins University. Alega ter de 4 a 16 horas de conteúdo (de 1 a 4 horas por semana durante 4 semanas), mas um dos avaliadores notou que poderia ser concluído em duas horas. Possui uma média ponderada de 3,22 estrelas, com base em 182 avaliações. Opções gratuitas e pagas disponíveis.
  • Gerenciamento de dados e visualização (Wesleyan University/Coursera): cobertura parcial do processo (carece de modelagem). Quatro semanas de duração. Bom valor produtivo. Utiliza python e SAS. Possui uma média ponderada de 2,67 estrelas baseado em 6 avaliações. Opções gratuitas e pagas disponíveis.

Os cursos a seguir não tiveram nenhuma avaliação em janeiro de 2017.

  • CS109 - Ciência de Dados (Harvard University): cobertura completa do processo em uma boa profundidade (talvez profundo demais para os propósitos deste guia). Um curso de graduação completo de 12 semanas. A navegação do curso é difícil, dado que ele não foi desenvolvido para consumo on-line. As aulas reais em Harvard foram gravadas. O infográfico do processo de ciência de dados abaixo surgiu desse curso. Utiliza Python. Nenhuma avaliação. Gratuito.
1_kzaTOFrktzFvvsIkVNP0Mw
A visualização apresentada na página inicial do CS109 de Harvard
  • Introdução à análise de dados para negócios (University of Colorado Boulder/Cousera): cobertura parcial do processo (carece de aspectos de modelagem e visualização) com um foco em negócios. O processo de ciência de dados é chamado de "Cadeia de Valor Informação-Ação" em suas aulas. Quatro semanas de duração. Descreve várias ferramentas, apesar de somente SQL ser abordado com alguma profundidade. Nenhuma avaliação. Opções gratuitas e pagas disponíveis.
  • Introdução à ciência de dados (Lynda): cobertura completa do processo, apesar de ter profundidade limitada. Bem curto (três horas de conteúdo). Introduz R e Python. Nenhuma avaliação. O custo depende da assinatura da Lynda.

Resumindo

Esse é o terceiro de uma série de seis artigos que cobre os melhores cursos on-line para alavancar seu conhecimento no ramo de ciência de dados. Cobrimos programação no primeiro artigo e estatística e probabilidade no segundo. O resto dos artigos abordará outras competências essenciais em ciência de dados: visualização e Machine Learning.

Se quiser aprender ciência de dados, faça alguns desses cursos de estatística

O último artigo será um resumo dessa série, além dos melhores cursos on-line para outros tópicos-chave, como limpeza de dados, bancos de dados e, até, engenharia de software.

Se você estiver procurando por uma lista completa de cursos on-line em ciência de dados, você os encontrará na página do Class Central, no tema Ciência de dados e Big Data.

Se você gostou de ler este artigo, dê uma olhada em alguns outros trabalhos da Class Central (textos em inglês):

Caso você tenha sugestões de cursos que o autor não tenha citado aqui, indique-os!

Essa é uma versão condensada do artigo original do autor na Class Central, onde ele incluiu mais descrições de cursos, programas de estudo e várias análises.