Todo sobre programación C#, SQL, HTML y más : Curso Tensorflow con Anaconda -17 Redes neuronales de clases múltiples

17 Redes neuronales de clases múltiples

Hola a todos.Vamos continuar con nuestro curso dedicado al aprendizaje automático.Para ello nos basaremos en un curso de google dedicado a este tema. En este enlace tenéis el curso al completo en castellano: https://developers.google.com/machine-learning/crash-course/ml-intro?hl=es

En vídeos anteriores, presentamos modelos de clasificación binaria que podían elegir una de dos opciones posibles, como el caso en el que distinguimos si un correo electrónico dado "es spam" o "no es spam". En este vídeo, investigaremos la clasificación de clases múltiples, que puedes elegir entre posibilidades múltiples. Por ejemplo:
- ¿Este perro es un beagle, un basset hound o un sabueso?
- ¿Esta flor es una iris sibirica, hollandica, versicolor o setosa?
- Algunos problemas de clases múltiples del mundo real implican elegir entre millones de clases individuales.Por ejemplo, supongamos un modelo de clasificación de clases múltiples que pueda identificar la imagen de lo que fuera.

En la imagen vemos un ejemplo de "uno frente a todos", que es un enfoque que nos proporciona una mane
ra de aprovechar la clasificación binaria. En un problema de clasificación dado con N soluciones posibles, una solución de uno frente a todos consiste en N clasificadores binarios independientes.

Otro posible enfoque es utilizar Softmax. La regresión logística genera un decimal entre 0 y 1.0. Por ejemplo, si un clasificador de correo electrónico tiene un resultado de regresión logística de 0.8, hay un 80% de posibilidad de que un correo electrónico sea spam y un 20% de que no lo sea. La suma de las probabilidades de que un correo electrónico sea spam o no es 1.0.
Softmax lleva esta idea al plano de las clases múltiples. Es decir, softmax asigna probabilidades decimales a cada clase en un caso de clases múltiples. Esas probabilidades decimales deben sumar 1.0. Esta restricción adicional permite que el entrenamiento converja más rápido.
Os dejo un vídeo donde os cuento todo esto:

Os dejo el código visto en el vídeo:

#Capacitar a un modelo lineal y una red neuronal para clasificar los dígitos escritos a mano.

"""

Primero, descargamos el conjunto de datos, importemos TensorFlow y otras utilidades, y carguemos los datos en un dataframe. """

from __future__ import print_function

import glob

import math

import os

from IPython import display

from matplotlib import cm

from matplotlib import gridspec

from matplotlib import pyplot as plt

import numpy as np

import pandas as pd

import seaborn as sns

from sklearn import metrics

import tensorflow as tf

from tensorflow.python.data import Dataset

tf.logging.set_verbosity(tf.logging.ERROR)

pd.options.display.max_rows = 10

pd.options.display.float_format = '{:.1f}'.format

mnist_dataframe = pd.read_csv(

"https://download.mlcc.google.com/mledu-datasets/mnist_train_small.csv",

sep=",",

header=None)

# Usamos los primeros 10,000 registros de entrenamiento y validación.

mnist_dataframe = mnist_dataframe.head(10000)

mnist_dataframe = mnist_dataframe.reindex(np.random.permutation(mnist_dataframe.index))

mnist_dataframe.head()

"""Las columnas 1 a 784 contienen los valores de características, uno por píxel para los valores de 28 × 28 = 784 píxeles.

Los valores de los píxeles están en una escala de grises en la que 0 representa blanco, 255 representa negro y

los valores entre 0 y 255 representan tonos de gris.

La mayoría de los valores de píxeles son 0 pero no todos son cero"""

mnist_dataframe.loc[:, 120:130]

# Ahora, analicemos las etiquetas y características y veamos algunos ejemplos

def parse_labels_and_features(dataset):

"""Extraemos de etiquetas y características.

Función para escalar o transformar las funciones si es necesario.

Args:

dataset: `Dataframe`, que contiene la etiqueta en la primera columna y

valores de píxeles monocromos en las columnas restantes, en orden mayor de fila.

Returns:

Una `tupla` `(labels, features)`:

labels: Devuelve una serie panda

características: Devuelve un dataframe

"""

labels = dataset[0]

features = dataset.loc[:,1:784]

# Escalamos para que los valores esten entre 0 y 1

features = features / 255

return labels, features

training_targets, training_examples = parse_labels_and_features(mnist_dataframe[:7500])

training_examples.describe()

validation_targets, validation_examples = parse_labels_and_features(mnist_dataframe[7500:10000])

validation_examples.describe()

#Ejemplo aleatorio y su etiqueta correspondiente.

rand_example = np.random.choice(training_examples.index)

_, ax = plt.subplots()

ax.matshow(training_examples.loc[rand_example].values.reshape(28, 28))

ax.set_title("Label: %i" % training_targets.loc[rand_example])

ax.grid(False)

"""Tarea 1: construir un modelo lineal para MNIST

Primero, vamos a crear un modelo de línea base para comparar.

El LinearClassifier proporciona un conjunto de k clasificadores de uno contra todos, uno para cada una de las k clases.

Mostramos una matriz de confusión. La matriz de confusión muestra qué clases se clasificaron erróneamente.

También tenga en cuenta que rastreamos el error del modelo usando la función log_loss.

Esto no debe confundirse con la función de pérdida interna de LinearClassifier que se utiliza para el entrenamiento."""

def construct_feature_columns():

"""Construye las columnas de la característica TensorFlow.

Returns:

Una columna de características de 784 pixeles

"""

return set([tf.feature_column.numeric_column('pixels', shape=784)])

#Creamos funciones de entrada separadas para entrenamiento y para predicción: create_training_input_fn () y

#create_predict_input_fn ().Podemos invocar estas funciones para devolver las _input_fns correspondientes para

#que pasen a nuestras llamadas .train () y .predict ().

def create_training_input_fn(features, labels, batch_size, num_epochs=None, shuffle=True):

"""Un input_fn personalizado para enviar datos.

Args:

features: Características de entrenamiento.

labels: Etiquetas de entrenamiento.

batch_size: Tamaño de lote para usar durante el entrenamiento.

Returns:

Una función que devuelve lotes de características de entrenamiento y etiquetas durante el entrenamiento

"""

def _input_fn(num_epochs=None, shuffle=True):

# Las entradas son reseteadas en cada llamada a to .train(). Para asegurar el modelo

# obtiene una buena muestra de datos, incluso cuando el número de pasos es pequeño,

# mezcla todos los datos antes de crear el objeto Dataset

idx = np.random.permutation(features.index)

raw_features = {"pixels":features.reindex(idx)}

raw_targets = np.array(labels[idx])

ds = Dataset.from_tensor_slices((raw_features,raw_targets)) # warning: 2GB limit

ds = ds.batch(batch_size).repeat(num_epochs)

if shuffle:

ds = ds.shuffle(10000)

# Devuelve el siguiente lote de datos.

feature_batch, label_batch = ds.make_one_shot_iterator().get_next()

return feature_batch, label_batch

return _input_fn

def create_predict_input_fn(features, labels, batch_size):

"""Un input_fn personalizado para enviar datos mnist al estimador para predicciones.

Args:

features: Características para predicciones

labels: Las etiquetas de los ejemplos de predicción.

Returns:

Una función que devuelve características y etiquetas para predicciones.

"""

def _input_fn():

raw_features = {"pixels": features.values}

raw_targets = np.array(labels)

ds = Dataset.from_tensor_slices((raw_features, raw_targets)) # warning: 2GB limit

ds = ds.batch(batch_size)

# Devolvemos el siguiente lote de datos

feature_batch, label_batch = ds.make_one_shot_iterator().get_next()

return feature_batch, label_batch

return _input_fn

def train_linear_classification_model(

learning_rate,

steps,

batch_size,

training_examples,

training_targets,

validation_examples,

validation_targets):

"""Entrena un modelo de clasificación lineal para el conjunto de datos de dígitos MNIST.

Además del enrenamiento, esta función también imprime información sobre el progreso de dicho entrenamiento,

Un gráfico de la pérdida de entrenamiento y validación en el tiempo, y una matriz de confuciónn.

Args:

learning_rate: A `float`, the learning rate to use.

steps: A non-zero `int`, the total number of training steps. A training step

consists of a forward and backward pass using a single batch.

batch_size: A non-zero `int`, the batch size.

training_examples: A `DataFrame` containing the training features.

training_targets: A `DataFrame` containing the training labels.

validation_examples: A `DataFrame` containing the validation features.

validation_targets: A `DataFrame` containing the validation labels.

Returns:

El objeto `LinearClassifier` entrenado.

"""

periods = 10

steps_per_period = steps / periods

# Creamos las funciones de entrada

predict_training_input_fn = create_predict_input_fn(

training_examples, training_targets, batch_size)

predict_validation_input_fn = create_predict_input_fn(

validation_examples, validation_targets, batch_size)

training_input_fn = create_training_input_fn(

training_examples, training_targets, batch_size)

# Creamos el objeto LinearClassifier.

my_optimizer = tf.train.AdagradOptimizer(learning_rate=learning_rate)

my_optimizer = tf.contrib.estimator.clip_gradients_by_norm(my_optimizer, 5.0)

classifier = tf.estimator.LinearClassifier(

feature_columns=construct_feature_columns(),

n_classes=10,

optimizer=my_optimizer,

config=tf.estimator.RunConfig(keep_checkpoint_max=1)

)

# Entrene al modelo, pero hágalo dentro de un bucle para que podamos evaluar periódicamente

print("Entrenando el modelo...")

print("LogLoss error en datos de valdación:")

training_errors = []

validation_errors = []

for period in range (0, periods):

# Entrenamos al modelo desde el estado anterior

classifier.train(

input_fn=training_input_fn,

steps=steps_per_period

)

#Calculamos probabilidades

training_predictions = list(classifier.predict(input_fn=predict_training_input_fn))

training_probabilities = np.array([item['probabilities'] for item in training_predictions])

training_pred_class_id = np.array([item['class_ids'][0] for item in training_predictions])

training_pred_one_hot = tf.keras.utils.to_categorical(training_pred_class_id,10)

validation_predictions = list(classifier.predict(input_fn=predict_validation_input_fn))

validation_probabilities = np.array([item['probabilities'] for item in validation_predictions])

validation_pred_class_id = np.array([item['class_ids'][0] for item in validation_predictions])

validation_pred_one_hot = tf.keras.utils.to_categorical(validation_pred_class_id,10)

# Calcular los errores de entrenamiento y validación.

training_log_loss = metrics.log_loss(training_targets, training_pred_one_hot)

validation_log_loss = metrics.log_loss(validation_targets, validation_pred_one_hot)

# De vez en cuando imprimir la pérdida actual.

print(" period %02d : %0.2f" % (period, validation_log_loss))

# Agrega las métricas de pérdida de este período a nuestra lista.

training_errors.append(training_log_loss)

validation_errors.append(validation_log_loss)

print("Entrenamiento del modelo finalizazo.")

# Eliminar archivos de eventos para ahorrar espacio en disco.

_ = map(os.remove, glob.glob(os.path.join(classifier.model_dir, 'events.out.tfevents*')))

# Calcule las predicciones finales

final_predictions = classifier.predict(input_fn=predict_validation_input_fn)

final_predictions = np.array([item['class_ids'][0] for item in final_predictions])

accuracy = metrics.accuracy_score(validation_targets, final_predictions)

print("Exactitud final (on validation data): %0.2f" % accuracy)

# Genera una gráfica de métricas de pérdida en periodos.

plt.ylabel("LogLoss")

plt.xlabel("Periodos")

plt.title("LogLoss vs. Periodos")

plt.plot(training_errors, label="training")

plt.plot(validation_errors, label="validation")

plt.legend()

plt.show()

# Pintamos la matriz de confusión

cm = metrics.confusion_matrix(validation_targets, final_predictions)

# Normalizamos la matriz de confusión por fila.

cm_normalized = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis]

ax = sns.heatmap(cm_normalized, cmap="bone_r")

ax.set_aspect(1)

plt.title("Confusion matriz")

plt.ylabel("Etiqueta verdadera")

plt.xlabel("Etiqueta predicción")

plt.show()

return classifier

_ = train_linear_classification_model(

learning_rate=0.03,

steps=1000,

batch_size=30,

training_examples=training_examples,

training_targets=training_targets,

validation_examples=validation_examples,

validation_targets=validation_targets)

"""Tarea 2: reemplazar el clasificador lineal con una red neuronal

Reemplace el LinearClassifier de arriba con un DNNClassifier y encuentre una combinación de parámetros que

dé una precisión de 0.95 o más."""

def train_nn_classification_model(

learning_rate,

steps,

batch_size,

hidden_units,

training_examples,

training_targets,

validation_examples,

validation_targets):

"""Entrena un modelo de clasificación de red neuronal para el conjunto de datos de dígitos MNIST.

Además del enrenamiento, esta función también imprime información sobre el progreso

de dicho entrenamiento,

Un gráfico de la pérdida de entrenamiento y validación en el tiempo, y una matriz de confusiónn.

Args:

learning_rate: A `float`, the learning rate to use.

steps: A non-zero `int`, the total number of training steps. A training step

consists of a forward and backward pass using a single batch.

batch_size: A non-zero `int`, the batch size.

hidden_units: A `list` of int values, specifying the number of neurons in each layer.

training_examples: A `DataFrame` containing the training features.

training_targets: A `DataFrame` containing the training labels.

validation_examples: A `DataFrame` containing the validation features.

validation_targets: A `DataFrame` containing the validation labels.

Returns:

El objeto `DNNClassifier` .

"""

periods = 10

# Precaución: las entradasse restablecen con cada llamada.

# Si el número de pasos es pequeño, es posible que su modelo nunca vea la mayoría de los datos.

# Así que con múltiples llamadas `.train` es posible que desee controlar la longitud

steps_per_period = steps / periods

# Creamos las funciones de entrada

predict_training_input_fn = create_predict_input_fn(

training_examples, training_targets, batch_size)

predict_validation_input_fn = create_predict_input_fn(

validation_examples, validation_targets, batch_size)

training_input_fn = create_training_input_fn(

training_examples, training_targets, batch_size)

# Creamos las funciones de entrada

predict_training_input_fn = create_predict_input_fn(

training_examples, training_targets, batch_size)

predict_validation_input_fn = create_predict_input_fn(

validation_examples, validation_targets, batch_size)

training_input_fn = create_training_input_fn(

training_examples, training_targets, batch_size)

# Creamos las columnas

feature_columns = [tf.feature_column.numeric_column('pixels', shape=784)]

#objeto DNNClassifier.

my_optimizer = tf.train.AdagradOptimizer(learning_rate=learning_rate)

my_optimizer = tf.contrib.estimator.clip_gradients_by_norm(my_optimizer, 5.0)

classifier = tf.estimator.DNNClassifier(

feature_columns=feature_columns,

n_classes=10,

hidden_units=hidden_units,

optimizer=my_optimizer,

config=tf.contrib.learn.RunConfig(keep_checkpoint_max=1)

)

# Entrene al modelo, pero hágalo dentro de un bucle para que podamos evaluar periódicamente

print("Training model...")

print("LogLoss error (on validation data):")

training_errors = []

validation_errors = []

for period in range (0, periods):

#Entrena el modelo, partiendo del estado anterior.