Skip to content

Data Processing

পাইথন বর্তমানে ডাটা সায়েন্স এবং এআই (AI) এর জন্য বিশ্বের এক নম্বর ল্যাঙ্গুয়েজ। এর অন্যতম কারণ হলো ডাটা প্রসেসিংয়ের শক্তিশালী লাইব্রেরিসমূহ। এই লেভেলে আমরা শিখবো বড় পরিসরের ডেটা কীভাবে দক্ষতার সাথে হ্যান্ডেল করা যায়।


১. NumPy (Numerical Python)

গাণিতিক কাজের জন্য পাইথনের ডিফল্ট লিস্ট অনেক স্লো। NumPy অ্যারে লিস্টের তুলনায় কয়েক গুণ দ্রুত কাজ করে এবং এটি অনেক কম মেমরি খরচ করে।

Example:

python
import numpy as np

# ১ থেকে ১০ পর্যন্ত অ্যারে
arr = np.array([1, 2, 3, 4, 5])
print(arr * 2) # [2, 4, 6, 8, 10] (সরাসরি সব আইটেম গুণ করা যায়)

২. Pandas (Data Manipulation)

Pandas হলো ডাটা অ্যানালাইসিসের জন্য সবচেয়ে জনপ্রিয় লাইব্রেরি। এটি এক্সেল শিট বা সিএসভি (CSV) ফাইলের মতো ডাটাকে 'DataFrame' আকারে সাজাতে এবং প্রসেস করতে সাহায্য করে।

Installation:

bash
pip install pandas

Example:

python
import pandas as pd

# CSV ফাইল পড়া
df = pd.read_csv('data.csv')

# ডাটার প্রথম ৫টি লাইন দেখা
print(df.head())

# নির্দিষ্ট কলাম বাছাই করা
names = df['Name']

# ডাটা ফিল্টার করা
over_20 = df[df['Age'] > 20]

৩. Data Cleaning

রিয়েল ওয়ার্ল্ড ডাটা সবসময় পরিষ্কার থাকে না। অনেক জায়গায় ভুল ডাটা বা ফাঁকা (Empty) ঘর থাকে। পান্ডাস দিয়ে আমরা সহজেই সেগুলো ঠিক করতে পারি।

python
# ফাঁকা ঘরগুলো ০ দিয়ে পূরণ করা
df.fillna(0, inplace=True)

# ডুপ্লিকেট ডাটা রিমুভ করা
df.drop_duplicates(inplace=True)

৪. Data Visualization (প্রাথমিক ধারণা)

ডাটা প্রসেস করার পর তা গ্রাফ বা চার্ট আকারে দেখানোর জন্য Matplotlib এবং Seaborn ব্যবহার করা হয়।

python
import matplotlib.pyplot as plt

plt.plot([1, 2, 3], [10, 20, 30])
plt.show()

TIP

যদি আপনি ডাটা সায়েন্স বা মেশিন লার্নিং নিয়ে কাজ করতে চান, তবে NumPy এবং Pandas ভালো করে শেখা আপনার জন্য বাধ্যতামূলক।

Released under the MIT License.