quarta-feira, 13 de fevereiro de 2019

Engenharia de Dados na Prática

Palestra super relevante feita pelo engenheiro de dados da Hotmart, mostrando como podemos montar um analytics com várias opções de configuração.

Engenharia de Dados na Prática

terça-feira, 12 de fevereiro de 2019

Prescriptive Analytics: 03 Bibliotecas para fazer Otimização em Python

O processo de otimização tem muita relação com Machine Learning e sistemas de analytics. Todas trabalham com equações, buscando formas de explicar fenômenos e gerar novos insights. Para facilitar esse processo, existem algumas ferramentas em Python para Otimização.

Python:

1. Scipy

Optimization (`scipy.optimize`)

The scipy.optimize package provides several commonly used optimization algorithms. A detailed listing is available: scipy.optimize (can also be found by help(scipy.optimize)).
The module contains:

Unconstrained and constrained minimization of multivariate scalar functions (minimize) using a variety of algorithms (e.g. BFGS, Nelder-Mead simplex, Newton Conjugate Gradient, COBYLA or SLSQP)
Global (brute-force) optimization routines (e.g. basinhopping, differential_evolution)
Least-squares minimization (least_squares) and curve fitting (curve_fit) algorithms
Scalar univariate functions minimizers (minimize_scalar) and root finders (root_scalar)
Multivariate equation system solvers (root) using a variety of algorithms (e.g. hybrid Powell, Levenberg-Marquardt or large-scale methods such as Newton-Krylov).

2. pyOpt

3. Gekko Optimization Suite

segunda-feira, 11 de fevereiro de 2019

3C's : Covariância, Correlação, Colinearidade

Covariância
Em probabilidade, a covariância de duas variáveis X e Y é uma medida da variabilidade conjunta destas variáveis aleatórias. Se as variáveis tem covariância positiva tendem a mostrar um comportamento semelhante, ou seja, os menores(maiores) valores da variável X corresponde aos menores(maiores) da variável Y .

Colineariedade
Na literatura, os termos Colinearidade (Multicolinearidade) são utilizados para indicar a existência forte de correlação entre duas (ou mais) variáveis independentes. Entretanto, alguns autores designam de Colinearidade a existência de relação linear entre duas variável explicativa (matriz de correlação) e de Multicolinearidade a existência de relação linear entre uma variável explicativa e as demais.

Correlação
Quando uma das variáveis, está, de alguma forma, relacionada com outra. Quando houver alteração no valor de uma variável, provoca alterações no valor da outra variável.

Fonte: Portal Action

domingo, 10 de fevereiro de 2019

O que seria a tal Normalização de Dados?

Grande parte dos algoritmos de machine learning faz o processo de treinamento
melhor quando os dados estão normalizados, ou seja, dentro de uma escala única.
O sentido é que quando mais padronizados sejam os dados, melhor é o ajustamento
das equações para compreender o cenário que estão sendo treinados. Por isso, uma boa
prática é utilizar técnicas de normalização, ou seja, colocá-los dentro de uma distribuição
do tipo normal. Vamos ver quais são essas técnicas:

1. Min-Max: essa técnica, que eu costumo utilizar, coloca dados de diferentes escalas,
dentro de um range pré-determinado, eu utilizo de 0 a 1.

2. Escala Decimal: o resultado de cada feature é multiplicado por 10 ou dividido por 10,
para as grandezas possuírem tamanhos similares.

3. Método do Desvio Padrão: é utilizada a seguinte fórmula - [x - mean(x)] * sd(x)
Os valores são substraídos da sua média e multiplicados pelo seu desvio padrão.
Obtendo uma escala única entre todas as variáveis.

4. Eliminação de Outliers: números que estão fora da distribuição de valores,
esses devem ser retirados, e então é feita uma padronização, pois entende-se
que os dados restantes estão bem mais adequados a realidade.

Geralmente a normalização está atrelada ao conceito de Standardization.

Na biblioteca scikit-learn, esses são os processos de transformação de features.

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import minmax_scale
from sklearn.preprocessing import MaxAbsScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import QuantileTransformer
from sklearn.preprocessing import PowerTransformer

Analytics Brasil

quarta-feira, 13 de fevereiro de 2019

Engenharia de Dados na Prática

terça-feira, 12 de fevereiro de 2019

Prescriptive Analytics: 03 Bibliotecas para fazer Otimização em Python

Optimization (`scipy.optimize`)

segunda-feira, 11 de fevereiro de 2019

3C's : Covariância, Correlação, Colinearidade

domingo, 10 de fevereiro de 2019

O que seria a tal Normalização de Dados?

quinta-feira, 7 de fevereiro de 2019

É mais rápido treinar Machine Learning com Python AsyncIO?

Prescriptive Analytics: Tipos de Problemas e Taxonomia de Otimização

Jupyter Notebook a partir do GitHub!

O que é Machine Learning?

Postagens mais visitadas

quarta-feira, 13 de fevereiro de 2019

terça-feira, 12 de fevereiro de 2019

Optimization (scipy.optimize)

segunda-feira, 11 de fevereiro de 2019

domingo, 10 de fevereiro de 2019

quinta-feira, 7 de fevereiro de 2019

Optimization (`scipy.optimize`)