Pandas (software)
En Computación y Ciencia de datos, pandas es una biblioteca de software escrita como extensión de NumPy para manipulación y análisis de datos para el lenguaje de programación Python. En particular, ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales. Es un software libre distribuido bajo la licencia BSD versión tres cláusulas.[1] El nombre deriva del término "datos de panel", término de econometría que designa datos que combinan una dimensión temporal con otra dimensión transversal.[2]
Pandas | ||
---|---|---|
![]() | ||
![]() | ||
Información general | ||
Tipo de programa | biblioteca de Python | |
Autor | Wes McKinney | |
Desarrollador | Wes McKinney | |
Licencia | licencia BSD | |
Información técnica | ||
Programado en | Python | |
Versiones | ||
Última versión estable | 0.22.030 de diciembre de 2017 | |
Enlaces | ||
Características de la biblioteca
- Tipo de datos DataFrame para manipulación de datos con indexación integrada.
- Herramientas para leer y escribir datos entre estructuras de dato en-memoria y formatos de archivo variados.
- Alineación de dato y manejo integrado de datos faltantes.
- Reestructuración y segmentación de conjuntos de datos.
- Segmentación vertical basada en etiquetas, indexación elegante, y segmentación horizontal de grandes conjuntos de datos.
- Inserción y eliminación de columnas en estructuras de datos.
- Agrupación predefinida en la biblioteca lo que permite realizar cadenas de operaciones dividir-aplicar-combinar sobre conjuntos de datos.
- Mezcla y unión de datos.
- Indexación jerárquica de ejes para trabajar con datos de altas dimensiones en estructuras de datos de menor dimensión.
- Funcionalidad de series de tiempo: generación de rangos de fechas y conversión de frecuencias, desplazamiento de ventanas estadísticas y de regresiones lineales, desplazamiento de fechas y retrasos.[3]
La biblioteca ha sido altamente optimizada en cuanto a rendimiento, con caminos de código crítico escritos en Cython o en C.[4]
Historia
Su principal desarrollador, Wes McKinney, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en AQR Capital por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativo en datos financieros.[5] Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto. Otro empleado de AQR, Chang Ella, se unió en 2012 al esfuerzo de desarrollo de la biblioteca.[cita requerida]
Ejemplos
Curvas
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE'))
df=df.cumsum() # Return cumulative sum over a DataFrame or Series axis
df.plot()
plt.show()
Gráfica de barras
df = pd.DataFrame(np.random.rand(10, 5), columns=list('ABCDE'))
df.plot.bar(stacked=True)
plt.show()
Diagrama de caja
df = pd.DataFrame(np.random.rand(7, 5), columns=list('ABCDE'))
df.plot.box()
plt.show()
Histograma
data = pd.Series(np.random.normal(size=100))
data.hist(grid=False)
plt.show()
Véase también
Referencias
- «License – Package overview – pandas 0.21.1 documentation». pandas. 12 de diciembre de 2017. Consultado el 13 de diciembre de 2017.
- Using Econometrics: A Practical Guide. Pearson. 2016. pp. 346, 465. ISBN 013418274X.
- «pandas.date_range – pandas 0.21.1 documentation». pandas. 12 de diciembre de 2017. Consultado el 13 de diciembre de 2017.
- «Python Data Analysis Library – pandas: Python Data Analysis Library». pandas. Consultado el 13 de noviembre de 2017.
- Matt Harrison, Theodore Petrou (2020). Pandas CookBook. Packt. ISBN 978-1839213106.