Analytics Brasil
quarta-feira, 13 de fevereiro de 2019
Engenharia de Dados na Prática
Palestra super relevante feita pelo engenheiro de dados da Hotmart, mostrando como podemos montar um analytics com várias opções de configuração.
Engenharia de Dados na Prática
terça-feira, 12 de fevereiro de 2019
Prescriptive Analytics: 03 Bibliotecas para fazer Otimização em Python
O processo de otimização tem muita relação com Machine Learning e sistemas de analytics. Todas trabalham com equações, buscando formas de explicar fenômenos e gerar novos insights. Para facilitar esse processo, existem algumas ferramentas em Python para Otimização.
Python:
1. Scipy
Optimization (
The
The module contains:
3. Gekko Optimization Suite
Python:
1. Scipy
Optimization (scipy.optimize)
The scipy.optimize package provides several commonly used
optimization algorithms. A detailed listing is available:
scipy.optimize (can also be found by help(scipy.optimize)).The module contains:
- Unconstrained and constrained minimization of multivariate scalar
functions (
minimize) using a variety of algorithms (e.g. BFGS, Nelder-Mead simplex, Newton Conjugate Gradient, COBYLA or SLSQP) - Global (brute-force) optimization routines (e.g.
basinhopping,differential_evolution) - Least-squares minimization (
least_squares) and curve fitting (curve_fit) algorithms - Scalar univariate functions minimizers (
minimize_scalar) and root finders (root_scalar) - Multivariate equation system solvers (
root) using a variety of algorithms (e.g. hybrid Powell, Levenberg-Marquardt or large-scale methods such as Newton-Krylov).
3. Gekko Optimization Suite
segunda-feira, 11 de fevereiro de 2019
3C's : Covariância, Correlação, Colinearidade
Covariância
Em probabilidade, a covariância de duas variáveis X e Y é uma medida da variabilidade conjunta destas variáveis aleatórias. Se as variáveis tem covariância positiva tendem a mostrar um comportamento semelhante, ou seja, os menores(maiores) valores da variável X corresponde aos menores(maiores) da variável Y .
Colineariedade
Na literatura, os termos Colinearidade (Multicolinearidade) são utilizados para indicar a existência forte de correlação entre duas (ou mais) variáveis independentes. Entretanto, alguns autores designam de Colinearidade a existência de relação linear entre duas variável explicativa (matriz de correlação) e de Multicolinearidade a existência de relação linear entre uma variável explicativa e as demais.
Correlação
Quando uma das variáveis, está, de alguma forma, relacionada com outra. Quando houver alteração no valor de uma variável, provoca alterações no valor da outra variável.
Fonte: Portal Action
domingo, 10 de fevereiro de 2019
O que seria a tal Normalização de Dados?
Grande parte dos algoritmos de machine learning faz o processo de treinamento
melhor quando os dados estão normalizados, ou seja, dentro de uma escala única.
O sentido é que quando mais padronizados sejam os dados, melhor é o ajustamento
das equações para compreender o cenário que estão sendo treinados. Por isso, uma boa
prática é utilizar técnicas de normalização, ou seja, colocá-los dentro de uma distribuição
do tipo normal. Vamos ver quais são essas técnicas:
1. Min-Max: essa técnica, que eu costumo utilizar, coloca dados de diferentes escalas,
dentro de um range pré-determinado, eu utilizo de 0 a 1.
2. Escala Decimal: o resultado de cada feature é multiplicado por 10 ou dividido por 10,
para as grandezas possuírem tamanhos similares.
3. Método do Desvio Padrão: é utilizada a seguinte fórmula - [x - mean(x)] * sd(x)
Os valores são substraídos da sua média e multiplicados pelo seu desvio padrão.
Obtendo uma escala única entre todas as variáveis.
4. Eliminação de Outliers: números que estão fora da distribuição de valores,
esses devem ser retirados, e então é feita uma padronização, pois entende-se
que os dados restantes estão bem mais adequados a realidade.
Geralmente a normalização está atrelada ao conceito de Standardization.
Na biblioteca scikit-learn, esses são os processos de transformação de features.
melhor quando os dados estão normalizados, ou seja, dentro de uma escala única.
O sentido é que quando mais padronizados sejam os dados, melhor é o ajustamento
das equações para compreender o cenário que estão sendo treinados. Por isso, uma boa
prática é utilizar técnicas de normalização, ou seja, colocá-los dentro de uma distribuição
do tipo normal. Vamos ver quais são essas técnicas:
1. Min-Max: essa técnica, que eu costumo utilizar, coloca dados de diferentes escalas,
dentro de um range pré-determinado, eu utilizo de 0 a 1.
2. Escala Decimal: o resultado de cada feature é multiplicado por 10 ou dividido por 10,
para as grandezas possuírem tamanhos similares.
3. Método do Desvio Padrão: é utilizada a seguinte fórmula - [x - mean(x)] * sd(x)
Os valores são substraídos da sua média e multiplicados pelo seu desvio padrão.
Obtendo uma escala única entre todas as variáveis.
4. Eliminação de Outliers: números que estão fora da distribuição de valores,
esses devem ser retirados, e então é feita uma padronização, pois entende-se
que os dados restantes estão bem mais adequados a realidade.
Geralmente a normalização está atrelada ao conceito de Standardization.
Na biblioteca scikit-learn, esses são os processos de transformação de features.
from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import minmax_scale from sklearn.preprocessing import MaxAbsScaler from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import RobustScaler from sklearn.preprocessing import Normalizer from sklearn.preprocessing import QuantileTransformer from sklearn.preprocessing import PowerTransformer
quinta-feira, 7 de fevereiro de 2019
Assinar:
Comentários (Atom)






