5.Ejemplo de uso de la API Pandas
- Hola a todos.Vamos continuar con nuestro curso dedicado al aprendizaje automático.Para ello nos basaremos en un curso de google dedicado a este tema. En este enlace tenéis el curso al completo en castellano: https://developers.google.com/machine-learning/crash-course/ml-intro?hl=es
- Esta entrada la vamos a dedicar a conocer un poco mejora Pandas, que es una API de análisis de datos orientada a columnas. Es una gran herramienta para manejar y analizar los datos de entrada, y muchos marcos de machine learning admiten las estructuras de datos panda como entradas.
- Para una referencia más completa, podemos ir al sitio de pandas (http://pandas.pydata.org/pandas-docs/stable/index.html que contiene documentación extensa y muchos tutoriales.
- En el vídeo podemos ver un ejemplo de uso de esta API:
from __future__ import print_function
- Os dejo el código visto en el vídeo:
#importo las librerias necesarias para los ejemplos
import pandas as pd
import numpy as np
#imprime vesión de pandas por pantalla
pd.__version__
"""
Las estructuras de datos primarias en pandas se implementan con dos clases:
DataFrame-->Tabla de datos relacionales, con filas y columnas.
Serie --> una sola columna.
Un DataFrame contiene una o más series y un nombre para cada serie.
El marco de datos es una abstracción comúnmente utilizada para la manipulación de datos.
Una forma de crear una serie es construir un objeto de serie. Por ejemplo:"""
pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])
pd.DataFrame({ 'City name': city_names, 'Population': population })
#importo las librerias necesarias para los ejemplos
import pandas as pd
import numpy as np
#cargamos dataframe via csv
california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()
california_housing_dataframe.head()
california_housing_dataframe.hist('housing_median_age')
cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
cities['City name']
cities['City name'][1]
cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']
#solucion problema 1
cities['Is wide and has saint name'] = (cities['Area square miles'] > 50) & cities['City name'].apply(lambda name: name.startswith('San'))
cities