معرفی pandas در پایتون

Pandas یک کتابخانه منبع باز است که عمدتا برای کار با داده های رابطه ای یا برچسب دار به راحتی و بصری ساخته شده است.

این ساختارها و عملیات مختلف داده را برای دستکاری داده های عددی و سری های زمانی فراهم می کند. این کتابخانه در لایه بالاتر کتابخانه NumPy ساخته شده است. Pandas سریع است و دارای عملکرد و بهره وری بالا برای کاربران است.

 

تاریخچه

Pandas در ابتدا توسط وس مک کینی در سال ۲۰۰۸ و زمانی که در AQR Capital Management کار می کرد توسعه یافت. وی AQR را متقاعد کرد که به او اجازه دهد Pandas  را منبع باز کند. یکی دیگر از کارمندان AQR ، چانگ ش، به عنوان دومین همکاری کننده عمده در کتابخانه در سال ۲۰۱۲ پیوست. با گذشت زمان، نسخه های زیادی از پانداها منتشر شد. آخرین نسخه پانداها ۱.۰.۱ است

 


مزیت ها

سریع و کارآمد برای دستکاری و تجزیه و تحلیل داده ها.
داده های مختلف اشیا فایل بارگیری می شود.
مدیریت آسان داده های از دست رفته (که به صورت NaN نشان داده می شوند) در داده های نقطه شناور و همچنین نقاط غیر شناور
تغییرپذیری اندازه ستون ها می توانند از DataFrame و اشیا dim بعدی بالاتر حذف شوند
ادغام و پیوستن مجموعه داده ها
تغییر شکل و محوری مجموعه داده ها
قابلیت سری زمانی را فراهم می کند
گروهی با قابلیت برای انجام عملیات تقسیم-اعمال-ترکیب در مجموعه داده ها

 

نصب pandas

PIP یک سیستم مدیریت بسته است که برای نصب و مدیریت بسته های نرم افزاری / کتابخانه های نوشته شده در پایتون استفاده می شود.
با استفاده از دستور زیر می توانید pandas را با استفاده از PIP نصب کنید:

pip install pandas

شروع کار

پس از نصب pandas در سیستم، باید کتابخانه را وارد کنید. این ماژول به طور کلی به عنوان وارد می شود

import pandas as pd

در اینجا از pd به عنوان مستعار Pandas یاد می شود. با این حال، نیازی به وارد کردن کتابخانه با استفاده از نام مستعار نیست، بلکه فقط به نوشتن مقدار کمتری از کد در هر زمان فراخوانی یک روش یا خاصیت کمک می کند.


پانداها به طور کلی دو ساختار داده برای تغییر داده ها فراهم می کنند:

  • Series
  • DataFrame

 

Series

سری Pandas یک آرایه با برچسب یک بعدی است که قادر به نگهداری داده ها از هر نوع (عدد صحیح، رشته، شناور، اشیا پایتون و غیره) است. به برچسب های محور در مجموع شاخص گفته می شود.

سری Pandas چیزی نیست جز ستونی در یک صفحه اکسل. نیازی نیست که برچسب ها منحصر به فرد باشد بلکه باید از نوع غیر قابل تغییر باشد. این شی از نمایه سازی عدد صحیح و بر اساس برچسب پشتیبانی می کند و مجموعه ای از روش ها را برای انجام عملیات مربوط به فهرست فراهم می کند.

pandas-series

ساخت سری

در دنیای واقعی، یک سری Pandas با بارگذاری مجموعه های داده از حافظه موجود ایجاد می شود، فضای ذخیره سازی می تواند پایگاه داده SQL، فایل CSV و فایل اکسل باشد. سری Pandas را می توان از لیست، دیکشنری، و از یک مقیاس اسکالر و غیره ایجاد کرد.

import pandas as pd 
import numpy as np
 
 
# Creating empty series 
ser = pd.Series() 
   
print(ser) 
 
# simple array 
data = np.array(['g', 'e', 'e', 'k', 's']) 
   
ser = pd.Series(data) 
print(ser)

خروجی

Series([], dtype: float64)
۰    g
۱    e
۲    e
۳    k
۴    s
dtype: object

DataFrame

Pandas DataFrame یک ساختار داده ای جداولی دارای ابعاد قابل تغییر و ابعاد دو بعدی با محورهای برچسب خورده (ردیف ها و ستون ها) است. فریم داده یک ساختار داده ای دو بعدی است، یعنی داده ها به صورت جدول در سطرها و ستون ها تراز می شوند. DataFrame از سه مولفه اصلی داده ها، سطرها و ستون ها تشکیل شده است.

pandas-dataframe

 

ساخت dataframe

در دنیای واقعی ، با بارگذاری مجموعه داده ها از حافظه موجود، یک Pandas DataFrame ایجاد می شود، فضای ذخیره سازی می تواند پایگاه داده SQL ، پرونده CSV و فایل Excel باشد.
import pandas as pd 
   
# Calling DataFrame constructor 
df = pd.DataFrame() 
print(df)
 
# list of strings 
lst = ['Geeks', 'For', 'Geeks', 'is',  
            'portal', 'for', 'Geeks'
   
# Calling DataFrame constructor on list 
df = pd.DataFrame(lst) 
print(df) 

خروجی

Empty DataFrame
Columns: []
Index: []
        ۰
۰   Geeks
۱     For
۲   Geeks
۳      is
۴  portal
۵     for
۶   Geeks

چرا از Pandas برای Data Science استفاده می شود

از pandas به طور کلی برای علم داده استفاده می شود اما چرا؟

دلیل این امر آنست که از pandas همراه با کتابخانه های دیگری که برای علم داده هستند استفاده می شود. این کتابخانه در سطح بالاتر کتابخانه NumPy ساخته شده است به این معنی که بسیاری از ساختارهای NumPy در Pandas استفاده یا تکثیر می شود. داده های تولید شده توسط Pandas اغلب به عنوان ورودی برای رسم توابع Matplotlib، تجزیه و تحلیل آماری در SciPy، الگوریتم یادگیری ماشین در Scikit-learn استفاده می شود.

برنامه Pandas را می توان از هر ویرایشگر متنی اجرا کرد اما توصیه می شود برای این از Jupyter Notebook استفاده کنید زیرا Jupyter با توجه به توانایی اجرای کد در یک سلول خاص به جای اجرای کل فایل، به Jupyter اجازه می دهد. Jupyter همچنین راهی آسان برای تجسم چارچوب داده ها و نمودارهای pandas فراهم می کند.

 


مطالب پیشنهادی برای شما

 


 

محمد صداقتی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.