Conceito básico de Regressão Linear

O aprendizado de máquina é a base para modelagem preditiva e inteligência artificial. Aprenda os princípios fundamentais do aprendizado de máquina e como usar ferramentas e frameworks comuns para treinar, avaliar e usar modelos de aprendizado de máquina.

O papel de um cientista de dados envolve principalmente explorar e analisar dados. Os resultados desta análise podem formar a base de um relatório ou de um modelo de aprendizagem de máquina; mas tudo começa com dados.

Aprendizado de máquina é uma subárea de ciência de dados que lida com modelagem preditiva. Em outras palavras, usa dados para criar modelos que possam prever valores desconhecidos, identificando relações entre valores de dados que descrevem características de algo (características de entrada) e o valor que queremos prever (rótulos de saída), e encapsulando essas relações em um modelo através de um processo de treinamento.

Normalmente, um projeto de análise de dados é desenvolvido para estabelecer insights em torno de um determinado cenário ou para testar uma hipótese. Por exemplo, suponha que um professor universitário colete dados de estudantes de ciência de dados, incluindo o número de palestras assistidas, as horas gastas de estudo e a nota final no exame final. O professor poderia então pegar uma amostra dos dados e analisá-los para determinar se há uma relação entre a quantidade de estudo que um aluno realiza e a nota final. Estes dados podem ser usados para:

  • testar uma hipótese de que apenas os alunos que estudam por um número mínimo de horas podem esperar alcançar uma nota de aprovação;
  • preparar os dados para treinar um modelo de aprendizado de máquina que prediga a nota de um aluno com base em seus hábitos de estudo.

explorando dados

A exploração e análise de dados é tipicamente um processo iterativo, no qual o cientista de dados pega uma amostra de dados e executa os seguintes tipos de tarefa para analisá-lo e testar hipóteses:

  • Limpar dados para lidar com erros, valores ausentes e outros problemas;
  • Aplicar técnicas estatísticas para entender melhor os dados, e como a amostra pode representar a população real de dados;
  • Visualizar relações entre variáveis e identificar características potencialmente preditivas do rótulo.
  • Derivar novos recursos das variáveis existentes que podem encapsular melhor as relações dentro dos dados.

Os cientistas de dados podem usar uma variedade de ferramentas e técnicas para explorar, visualizar e manipular dados. Uma das maneiras mais comuns em que os cientistas de dados trabalham com dados é usar a linguagem Python e alguns pacotes específicos para processamento de dados.

modelo de regressão

A regressão é uma forma de aprendizado de máquina na qual o objetivo é criar um modelo que possa prever um valor numérico e quantificável; como um preço, valor, tamanho ou outro número escalar.

sobre grandezas numéricas

As grandezas que são definidas apenas pelo seu valor numérico e sua unidade de medida são chamadas de grandezas escalares: Tempo, Temperatura, Volume, Massa, Trabalho de uma Força, etc.

Aquelas que necessitam de uma direção e um sentido, além do valor numérico e da unidade de medida, são grandezas vetoriais: Velocidade, Aceleração, Força, Deslocamento, Empuxo, Campo elétrico, Campo magnético, Força peso, etc.

prevendo um número

Por exemplo, uma empresa que aluga bicicletas pode querer prever o número esperado de aluguéis em um determinado dia, com base na estação, dia da semana, condições climáticas, e assim por diante.

treinar e avaliar um modelo de regressão

A regressão funciona estabelecendo uma relação entre variáveis nos dados que representam características (características) da coisa que está sendo observada, e a variável que estamos tentando prever (rótulo de saída). Neste caso, estamos observando informações sobre dias, então as características incluem coisas como o dia da semana, mês, temperatura, chuva, e assim por diante; e o rótulo é o número de aluguel de bicicletas.

Para treinar o modelo, começamos com uma amostra de dados contendo a variáveis recurso, bem como valores conhecidos para o rótulo — por isso, neste caso, precisamos de dados históricos que incluam datas, condições climáticas e o número de aluguel de bicicletas. Em seguida, dividiremos essa amostra de dados em dois subconjuntos:

  • Um conjunto de dados de treinamento para o qual aplicaremos um algoritmo que determina uma função encapsulando a relação entre os valores do recurso e os valores de rótulo conhecidos.
  • Uma validação ou conjunto de dados de teste que podemos usar para avaliar o modelo usando-o para gerar previsões para o rótulo e comparando-os com os valores reais conhecidos do rótulo.

O uso de dados históricos com valores de rótulos conhecidos para treinar um modelo faz da regressão um exemplo de aprendizado de máquina supervisionado.

um exemplo simples

Vamos dar um exemplo simples para ver como o processo de treinamento e avaliação funciona em princípio. Suponhamos que simplifiquemos o cenário para que usemos uma única variável recurso, temperatura diária média, para prever o rótulo de aluguel de bicicletas.

Começamos com alguns dados que incluem valores conhecidos para o recurso de temperatura diária média e o rótulo de quantidade de aluguel de bicicletas.

objetivo é encontrar uma função aproximada

Nosso objetivo no treinamento do modelo é encontrar uma função (vamos chamá-lo f) que possamos aplicar ao recurso de temperatura (que vamos chamar x) para calcular o rótulo de aluguel (que vamos chamar de y). Em outras palavras, precisamos definir a seguinte função: f(x) = y.

Logo, nosso conjunto de dados de treinamento é assim:

Vamos começar plotando os valores de treinamento para x e y em um gráfico:

a linha representa uma função linear

Agora precisamos encaixar esses valores em uma função, permitindo alguma variação aleatória. Você provavelmente pode ver que os pontos plotados formam uma linha diagonal quase reta — em outras palavras, há uma aparente relação linear entre x e y, então precisamos encontrar uma função linear que seja mais adequada para a amostra de dados.

Existem vários algoritmos que podemos usar para determinar essa função, que finalmente encontrará uma linha reta com variância geral mínima dos pontos plotados; Assim:

Neste caso, se estendemos a linha para a esquerda, descobriríamos que quando x é 0, y é em torno de 20, e a inclinação da linha é tal que para cada unidade de x você se move para a direita, y aumenta em torno de 1,7. Nossa função f, portanto, pode ser calculada como 20 + 1,7x.

Agora que definimos nossa função preditiva, podemos usá-la para prever rótulos para os dados de validação (testes) que retivemos e comparar os valores previstos com os valores reais observados.

Vamos ver como os valores y e y se comparam em um plot:

Os pontos plotados que estão na linha de função são os valores previstos calculados pela função, e os outros pontos plotados são os valores reais y.

maneiras de medir a variância

Existem várias maneiras de medir a variância entre os valores previstos e reais, e podemos usar essas métricas para avaliar o quão bem o modelo prevê.

O aprendizado de máquina é baseado em estatística e matemática. A diferença entre um valor de rótulo previsto e o valor observado do rótulo é uma medida de erro, referimos-nos à diferença entre eles como os resíduos.

erro quadrático médio

Uma das formas mais comuns de medir a perda é calcular a média dos resíduos². Esta métrica é chamada de Erro Quadrático Médio.

a perda para o nosso modelo com base na métrica MSE é de 9,79.

menor o valor, menor o erro do modelo

É difícil dizer basear-se no valor MSE, visto que não é expresso em uma unidade significativa de medição. Sabemos que quanto menor o valor, menor a perda no modelo; e, portanto, melhor está prevendo. Isso torna uma métrica útil para comparar dois modelos e encontrar qual é o melhor modelo a nível de desempenho.

rmse (mesma unidade)

desvio médio quadrático ou erro quadrático médio é uma medida freqüentemente usada das diferenças entre os valores previstos por um modelo ou estimador e os valores observados.

Às vezes, é mais útil expressar a perda na mesma unidade de medição que o próprio valor do rótulo previsto — neste caso, o número de aluguéis. É possível fazer isso calculando a raiz quadrada do MSE, que produz uma métrica conhecida, sem surpresa, como o Erro Quadrático médio (RMSE).

Assim, o RMSE do nosso modelo indica que a perda é de pouco mais de 3, o que você pode interpretar vagamente como significando que, em média, previsões incorretas estão erradas em cerca de 3 aluguéis.

r² — mede a variância que pode ser explicada

Existem muitas outras métricas que podem ser usadas para medir a perda em uma regressão. Por exemplo, R² (às vezes conhecido como coeficiente de determinação) é a correlação entre x e y ao quadrado. Isso produz um valor entre 0 e 1 que mede a quantidade de variância que pode ser explicada pelo modelo. Geralmente, quanto mais perto esse valor for de 1, melhor o modelo prevê.

Portanto, quando você o avalia com dados de teste, você determina que o modelo alcança uma métrica R-quadrado de 0,95. O que essa métrica diz sobre o modelo? O modelo explica a maior parte da variância entre valores previstos e reais.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store