Data Processing

পাইথন বর্তমানে ডাটা সায়েন্স এবং এআই (AI) এর জন্য বিশ্বের এক নম্বর ল্যাঙ্গুয়েজ। এর অন্যতম কারণ হলো ডাটা প্রসেসিংয়ের শক্তিশালী লাইব্রেরিসমূহ। এই লেভেলে আমরা শিখবো বড় পরিসরের ডেটা কীভাবে দক্ষতার সাথে হ্যান্ডেল করা যায়।

১. NumPy (Numerical Python)

গাণিতিক কাজের জন্য পাইথনের ডিফল্ট লিস্ট অনেক স্লো। NumPy অ্যারে লিস্টের তুলনায় কয়েক গুণ দ্রুত কাজ করে এবং এটি অনেক কম মেমরি খরচ করে।

Example:

python

import numpy as np

# ১ থেকে ১০ পর্যন্ত অ্যারে
arr = np.array([1, 2, 3, 4, 5])
print(arr * 2) # [2, 4, 6, 8, 10] (সরাসরি সব আইটেম গুণ করা যায়)

২. Pandas (Data Manipulation)

Pandas হলো ডাটা অ্যানালাইসিসের জন্য সবচেয়ে জনপ্রিয় লাইব্রেরি। এটি এক্সেল শিট বা সিএসভি (CSV) ফাইলের মতো ডাটাকে 'DataFrame' আকারে সাজাতে এবং প্রসেস করতে সাহায্য করে।

Installation:

bash

pip install pandas

Example:

python

import pandas as pd

# CSV ফাইল পড়া
df = pd.read_csv('data.csv')

# ডাটার প্রথম ৫টি লাইন দেখা
print(df.head())

# নির্দিষ্ট কলাম বাছাই করা
names = df['Name']

# ডাটা ফিল্টার করা
over_20 = df[df['Age'] > 20]

৩. Data Cleaning

রিয়েল ওয়ার্ল্ড ডাটা সবসময় পরিষ্কার থাকে না। অনেক জায়গায় ভুল ডাটা বা ফাঁকা (Empty) ঘর থাকে। পান্ডাস দিয়ে আমরা সহজেই সেগুলো ঠিক করতে পারি।

python

# ফাঁকা ঘরগুলো ০ দিয়ে পূরণ করা
df.fillna(0, inplace=True)

# ডুপ্লিকেট ডাটা রিমুভ করা
df.drop_duplicates(inplace=True)

৪. Data Visualization (প্রাথমিক ধারণা)

ডাটা প্রসেস করার পর তা গ্রাফ বা চার্ট আকারে দেখানোর জন্য Matplotlib এবং Seaborn ব্যবহার করা হয়।

python

import matplotlib.pyplot as plt

plt.plot([1, 2, 3], [10, 20, 30])
plt.show()

TIP

যদি আপনি ডাটা সায়েন্স বা মেশিন লার্নিং নিয়ে কাজ করতে চান, তবে NumPy এবং Pandas ভালো করে শেখা আপনার জন্য বাধ্যতামূলক।

Data Processing ​

১. NumPy (Numerical Python) ​

Example: ​

২. Pandas (Data Manipulation) ​

Installation: ​

Example: ​

৩. Data Cleaning ​

৪. Data Visualization (প্রাথমিক ধারণা) ​

Data Processing

১. NumPy (Numerical Python)

Example:

২. Pandas (Data Manipulation)

Installation:

Example:

৩. Data Cleaning

৪. Data Visualization (প্রাথমিক ধারণা)