Introdução ao Pensamento Analítico de Ciência de Dados

Conforme você se aprimora no pensamento analítico de dados, você desenvolve intuição sobre como e onde aplicar a criatividade e o conhecimento de domínio.

Coleta de dados, processamento e tempo restrito

Os últimos anos testemunharam grandes investimentos em infraestrutura de negócios que têm melhorado a capacidade das empresas coletarem dados. A ampla disponibilidade desses dados levou ao aumento do interesse em métodos para extração informações úteis e conhecimento — o domínio de data science.

Agora, praticamente todos os aspectos dos negócios estão abertos para a coleta de dados e, muitas vezes, até instrumentados para isso: operações, manufatura, gestão da cadeia de fornecimento, comportamento do cliente, desempenho de campanha de marketing, procedimentos de fluxo de trabalho e assim por diante.

Aplicação das técnicas de Mineração de Dados

Provavelmente, a maior aplicação de técnicas de mineração de dados está no marketing, para tarefas como marketing direcionado, publicidade online e recomendações para venda cruzada. A mineração de dados é usada para gestão de relacionamento com o cliente para analisar seu comportamento a fim de gerenciar o desgaste e maximizar o valor esperado do cliente.

As indústrias financeiras

Estas utilizam a mineração de dados para classificação e negociação de crédito e em operações via detecção de fraude e gerenciamento de força de trabalho.

Varejistas

Os principais varejistas, do Walmart à Amazon, aplicam a mineração de dados em seus negócios, do marketing ao gerenciamento da cadeia de fornecimento.

Data Science vs. Data Mining

Os termos “Data Science” e “Data Mining” são, muitas vezes, utilizados de forma intercambiável. Em um nível mais elevado, data science é um conjunto de princípios fundamentais que norteiam a extração de conhecimento a partir de dados.

É importante compreender Data Science, mesmo que nunca vá aplicá-lo. O pensamento analítico de dados permite avaliar propostas para projetos. Por exemplo, se um funcionário, um consultor ou um potencial alvo de investimento propõe melhorar determinada aplicação de negócios apartir da obtenção de conhecimento de dados, você deve ser capaz de avaliar a proposta de maneira sistemática e decidir se ela é boa ou ruim.

Objetivo de Data Science

Data Science, Engenharia e Tomada de Decisão Orientada em Dados envolve princípios, processos e técnicas para compreender fenômenos por meio da análise (automatizada) de dados. O objetivo primordial de data science é o aprimoramento da tomada de decisão, uma vez que isso sustenta a saúde do negócio.

Problema recorrente da Rotatividade de Clientes
Considere um segundo e mais típico cenário de negócios e como ele pode ser tratado a partir de uma perspectiva de dados.

Vamos supor que você acabou de ingressar em um ótimo trabalho analítico e sua empresa tem um grande problema com a retenção de clientes no negócio de produtos e serviços wireless. Em uma determinada, 20% dos clientes de telefonia celular abandonam o serviço quando seus contratos vencem, e está ficando cada vez mais difícil adquirir novos clientes.

Como agora o mercado dos telefones celulares está saturado, o enorme crescimento do mercado sem fio diminuiu. A transferência de clientes de uma empresa para outra é chamada de rotatividade, e é algo dispendioso em todos os sentidos: uma empresa gasta em incentivos para atrair um cliente, enquanto outra empresa perde renda com a saída do cliente.

Primordial delinear bem o problema

Fomos chamados para ajudar a entender o problema e encontrar uma solução. Atrair novos clientes é muito mais caro do que manter os que já existem, por isso, uma boa verba de marketing é alocada para evitar a rotatividade. O marketing já projetou uma oferta especial de retenção.

Nossa tarefa é elaborar um plano preciso, passo a passo, para saber como a equipe de data science deve usar os vastos recursos de dados para decidir quais clientes devem receber uma oferta especial de retenção antes do término de seus contratos.

Mineração de Dados para Retenção de Clientes

Na verdade, a retenção de clientes tem sido uma das grandes utilizações para tecnologias de mineração de dados — especialmente nos setores de telecomunicação e finanças. Esses, de forma mais geral, foram alguns dos primeiros e mais amplos adotantes das tecnologias de mineração de dados.

Tipos de Decisões

A principais decisões são:

  1. decisões para as quais “descobertas” precisam ser feitas nos dados
  2. decisões que se “repetem”, principalmente em grande escala, e, assim, a tomada de decisão pode se beneficiar até mesmo de pequenos aumentos na precisão deste processo com base em análise de dados.

Exemplo Varejista

O competidor do Walmart, Target, virou notícia por um caso próprio de tomada de decisão orientada por dados. Como a maioria dos varejistas, a Target se preocupa com os hábitos de compra dos consumidores, o que os motiva e o que pode influenciá-los. Os consumidores tendem a permanecer inertes em seus hábitos e fazê-los mudar é difícil.

“Quem compra Fralda, compra todo o resto”

Quem tomava as decisões na Target sabia, no entanto, que a chegada de um novo bebê na família é um momento em que as pessoas mudam significativamente seus hábitos de compras. A maioria dos varejistas sabe disso e, portanto, competem entre si tentando vender produtos de bebês para novos pais. Como a maior parte dos registros de nascimento é pública, os varejistas obtêm informações sobre nascimentos e enviam ofertas especiais para os novos pais.

A Target desejava sair na frente da concorrência. Eles estavam interessados em saber se conseguiriam prever se as pessoas estavam esperando um bebê. Se pudessem, ganhariam uma vantagem ao fazer ofertas antes de seus concorrentes. Usando técnicas de data science, a Target analisou dados históricos sobre os clientes que souberam posteriormente que estavam grávidasa! e foi capaz de obter informações que poderiam predizer quais consumidores estavam esperando um bebê e adiantar suas ofertas.

Hadoop, HBase e MongoDB para Big Data

Recentemente, tecnologias “big data” como Hadoop, HBase e MongoDB têm recebido considerável atenção da mídia. Essencialmente, o termo big data significa conjuntos de dados que são grandes demais para os sistemas tradicionais de processamento e, portanto, exigem novas tecnologias para processá-los.

O Hadoop, por exemplo, é uma arquitetura de código fonte aberto, amplamente utilizada para fazer cálculos altamente paralelizáveis. É uma das atuais tecnologias de “Big Data” para o processamento de enormes conjuntos de dados que excedem a capacidade dos sistemas de base de dados relacionais. Hadoop é baseado na estrutura de processamento paralelo MapReduce, introduzida pelo Google.

Capacidade de Dados e Data Science como um Ativo Estratégico

As seções anteriores sugerem um dos princípios fundamentais de data science: os dados, e a capacidade de extrair conhecimento útil a partir deles, devem ser considerados importantes ativos estratégicos.Visualizar isso como ativos nos permite pensar explicitamente sobre a extensão em que se deve investir neles.

A melhor equipe de data science pode gerar pouco valor sem os dados adequados; muitas vezes, os dados corretos não podem melhorar substancialmente as decisões sem um talento adequado em data science. Como acontece com todos os ativos, com frequência, é necessário fazer investimentos. É importante compreender data science, mesmo que não pretenda fazê-lo sozinho, porque a análise dos dados é, agora, crucial para a estratégia e saúde dos negócios.

Vantagem Competitiva

As empresas estão cada vez mais impulsionadas pela análise de dados, portanto, há grande vantagem profissional em ser capaz de interagir com competência dentro e fora dessas empresas. As empresas em muitos setores tradicionais estão explorando recursos de dados novos e existentes para obter vantagem competitiva. Elas empregam equipes de data science para trazer tecnologias avançadas para suportar o aumento do rendimento e diminuir os custos.

Finalizando…

Devemos ressaltar que data science, como ciência da computação, é um campo novo.O sucesso no ambiente empresarial de hoje, orientado em dados, exige a capacidade de pensar sobre como esses conceitos fundamentais se aplicam a determinados problemas de negócios — pensar analiticamente em dados e cobrar-se por resultados melhores a partir das decisões tomadas.

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store