Data Processing
পাইথন বর্তমানে ডাটা সায়েন্স এবং এআই (AI) এর জন্য বিশ্বের এক নম্বর ল্যাঙ্গুয়েজ। এর অন্যতম কারণ হলো ডাটা প্রসেসিংয়ের শক্তিশালী লাইব্রেরিসমূহ। এই লেভেলে আমরা শিখবো বড় পরিসরের ডেটা কীভাবে দক্ষতার সাথে হ্যান্ডেল করা যায়।
১. NumPy (Numerical Python)
গাণিতিক কাজের জন্য পাইথনের ডিফল্ট লিস্ট অনেক স্লো। NumPy অ্যারে লিস্টের তুলনায় কয়েক গুণ দ্রুত কাজ করে এবং এটি অনেক কম মেমরি খরচ করে।
Example:
import numpy as np
# ১ থেকে ১০ পর্যন্ত অ্যারে
arr = np.array([1, 2, 3, 4, 5])
print(arr * 2) # [2, 4, 6, 8, 10] (সরাসরি সব আইটেম গুণ করা যায়)২. Pandas (Data Manipulation)
Pandas হলো ডাটা অ্যানালাইসিসের জন্য সবচেয়ে জনপ্রিয় লাইব্রেরি। এটি এক্সেল শিট বা সিএসভি (CSV) ফাইলের মতো ডাটাকে 'DataFrame' আকারে সাজাতে এবং প্রসেস করতে সাহায্য করে।
Installation:
pip install pandasExample:
import pandas as pd
# CSV ফাইল পড়া
df = pd.read_csv('data.csv')
# ডাটার প্রথম ৫টি লাইন দেখা
print(df.head())
# নির্দিষ্ট কলাম বাছাই করা
names = df['Name']
# ডাটা ফিল্টার করা
over_20 = df[df['Age'] > 20]৩. Data Cleaning
রিয়েল ওয়ার্ল্ড ডাটা সবসময় পরিষ্কার থাকে না। অনেক জায়গায় ভুল ডাটা বা ফাঁকা (Empty) ঘর থাকে। পান্ডাস দিয়ে আমরা সহজেই সেগুলো ঠিক করতে পারি।
# ফাঁকা ঘরগুলো ০ দিয়ে পূরণ করা
df.fillna(0, inplace=True)
# ডুপ্লিকেট ডাটা রিমুভ করা
df.drop_duplicates(inplace=True)৪. Data Visualization (প্রাথমিক ধারণা)
ডাটা প্রসেস করার পর তা গ্রাফ বা চার্ট আকারে দেখানোর জন্য Matplotlib এবং Seaborn ব্যবহার করা হয়।
import matplotlib.pyplot as plt
plt.plot([1, 2, 3], [10, 20, 30])
plt.show()TIP
যদি আপনি ডাটা সায়েন্স বা মেশিন লার্নিং নিয়ে কাজ করতে চান, তবে NumPy এবং Pandas ভালো করে শেখা আপনার জন্য বাধ্যতামূলক।