Scikit-learn é um ponto focal para o trabalho da ciência de dados com Python, então vale a pena saber quais os métodos que você mais precisa. A lista a seguir dá-lhe uma breve visão geral dos métodos mais importantes utilizados para análise dos dados.
feature_extraction.FeatureHasher
Uso: Preparando seus dados
Descrição: O truque hashing, o que lhe permite acomodar um grande número de recursos no seu conjunto de dados
preprocessing.Binarizer
Uso: Preparando seus dados
Descrição: Criar variáveis binárias (valores apresentam a 0 ou 1)
preprocessing.Imputer
Uso: Preparando seus dados
Descrição: Os valores em falta de imputação
preprocessing.MinMaxScaler
Uso: Preparando seus dados
Descrição: Criar variáveis ligadas por um valor mínimo e máximo
preprocessing.OneHotEncoder
Uso: Preparando seus dados
Descrição: Transformar recursos inteiros categóricas para os binários
preprocessing.StandardScaler
Uso: Preparando seus dados
Descrição: padronização variável, removendo a média e escala para unidade de variância
feature_extraction.text.CountVectorizer
Uso: Preparando seus dados
Descrição: Converter documentos de texto em uma matriz de dados de contagem
feature_extraction.text.HashingVectorizer
Uso: Preparando seus dados
Descrição: Diretamente converta o texto usando o truque hashing
feature_extraction.text.TfidfVectorizer
Uso: Preparando seus dados
Descrição: Cria um conjunto de dados de recursos TF-IDF.
feature_selection.RFECV
Uso: seleção de recurso
Descrição: selecção recurso automático
decomposition.PCA
Uso: redução de dimensionalidade
Descrição: Análise de Componentes Principais (PCA)
decomposition.RandomizedPCA
Uso: redução de dimensionalidade
Descrição: Análise de Componentes Principais (PCA) utilizando SVD randomizados
cross_validation.cross_val_score
Uso: fase de validação cruzada
Descrição: Estimar a pontuação de validação cruzada
cross_validation.KFold
Uso: fase de validação cruzada
Descrição: Dividir o conjunto de dados em dobras k para validação cruzada
cross_validation.StratifiedKFold
Uso: fase de validação cruzada
Descrição: validação estratificada que leva em conta a distribuição das classes que predizem
cross_validation.train_test_split
Uso: fase de validação cruzada
Descrição: Dividir os dados em conjuntos de treinamento e teste
grid_search.GridSearchCV
Uso: Optimization
Descrição: busca exaustiva a fim de maximizar um algoritmo de aprendizado de máquina
linear_model.LinearRegression
Uso: Predição
Descrição: Regressão linear
linear_model.LogisticRegression
Uso: Predição
Descrição: Linear Regressão Logística
neighbors.KNeighborsClassifier
Uso: Predição
Descrição: classificação K-Vizinhos
naive_bayes.MultinomialNB
Uso: Predição
Descrição: Multinomial Na Nº 239-ve Bayes
metrics.accuracy_score
Uso: avaliação Solution
Descrição: pontuação de classificação de precisão.
metrics.f1_score
Uso: avaliação Solution
Descrição: Calcular a pontuação F1, equilibrando precisão e recordação
metrics.mean_absolute_error
Uso: avaliação Solution
Descrição: A média de erro de regressão erro absoluto
metrics.mean_squared_error
Uso: avaliação Solution
Descrição: A média de erro de regressão erro quadrado
metrics.roc_auc_score
Uso: avaliação Solution
Descrição: Calcule Área Sob a Curva (AUC) de pontuações de predição