উপাত্তবিজ্ঞান (ইংরেজি Data Science) হচ্ছে একটি বহুবিষয়ী ক্ষেত্র যেখানে বিভিন্ন গঠিত ও অগঠিত উপাত্ত বিশ্লেষণে ও সেখান থেকে জ্ঞান আহরণে বৈজ্ঞানিক পদ্ধতি, প্রক্রিয়া, অ্যালগরিদম ও বিভিন্ন সিস্টেম ব্যবহার করা হয়।[১][২] উপাত্তবিজ্ঞান ডাটা মাইনিং, গভীর শিক্ষণ ও বড় উপাত্ত বিষয়গুলোর সাথে সম্পর্কিত।
উপাত্তবিজ্ঞান হচ্ছে এমন একটি ধারণা যাতে আসল তথ্যসহ মূল ঘটনা বিশ্লেষণের জন্য পরিসংখ্যান, তথ্য বিশ্লেষণ, মেশিন লার্নিং, ডোমেইন জ্ঞান সহ অন্যান্য বিষয় একীভূত করা হয়।[৩] উপাত্ত বিজ্ঞান গণিত, পরিসংখ্যান, কম্পিউটার বিজ্ঞান, ও তথ্য বিজ্ঞানের সূত্র, তত্ত্ব ও পদ্ধতি ব্যবহার করে। ট্যুরিং পুরস্কার বিজয়ী বিজ্ঞানী জিম গ্রে উপাত্ত বিজ্ঞানকে বিজ্ঞানের ৪র্থ পর্যায় বলে আখ্যা দিয়েছেন। গবেষণামূলক, তত্ত্বীয় ও কম্পুটেশনাল বিজ্ঞানের পর উপাত্তভিত্তিক বিজ্ঞান হচ্ছে বর্তমানে বিজ্ঞানের নতুন পর্যায়। তাঁর মতে, বিজ্ঞানের ব্যপারে প্রায় সবকিছুই পালটে গেছে তথ্যপ্রযুক্তির প্রভাব ও তথ্য বিস্ফোরণের ফলে।[৪]
পরিভাষার উৎস
শুরুর দিকের ব্যবহার
১৯৬২ সালে বিজ্ঞানী জন টাকি 'উপাত্ত বিশ্লেষণ' নামক একটি নতুন বিষয়ের ধারণা দেন। [৫]<.
১৯৯২ সালের দিকে ফ্রান্সের মন্টেপিলার বিশ্ববিদ্যালয়ে একটি পরিসংখ্যান সিম্পোজিয়ামে অংশগ্রহণকারীরা সবাই একমত হন যে পরিসংখ্যানের প্রতিষ্ঠিত সূত্র ও তত্ত্ব ও কম্পিউটার বিজ্ঞানের সমন্বয়ে উপাত্ত বিশ্লেষণের একটি নতুন ক্ষেত্র প্রতিষ্ঠিত হতে যাচ্ছে। 'উপাত্ত বিজ্ঞান' পরিভাষা ব্যবহার শুরু হয় ১৯৭৪ সালে যখন পিটার নাউর এটিকে কম্পিউটার বিজ্ঞানের একটি বিকল্প পরিভাষা হিসেবে ব্যবহারের প্রস্তাব করেন।[৬]
১৯৯৬ সালে আন্তর্জাতিক শ্রেণিবিন্যাসকরণ ফাউন্ডেশনের একটি সভায় উপাত্তবিজ্ঞানকে আলোচনার একটি বিষয় হিসেবে রাখা হয়। [৭]
১৯৯৮ সালে চিকিও হায়াশি উপাত্ত বিজ্ঞানকে নতু্ন উদীয়মান ক্ষেত্র বলে আখ্যা দেন।[৮]
২০০১ সালের একটি গবেষণাপত্রে তিনি উল্লেখ করেন যে পরিসংখ্যানকে আরও বিস্তৃত হওয়া দরকার। ২০০২ সাল থেকে ডাটা সায়েন্স জার্নাল প্রকাশিত হচ্ছে।[১০]
২০১৪ সালে আমেরিকার পরিসংখ্যান এসোসিয়েশান তাদের ডাটা মাইনিং বিভাগের নাম পরিবর্তন করে পরিসাংখ্যনিক শিক্ষণ ও ডাটা সায়েন্স বিভাগ নামকরণ করে।
ডাটা সায়েন্টিস্ট বা উপাত্ত বিজ্ঞানীী নামকরণেেের কৃতিত্ব ডিজে প্যাটেল ও জেফ হ্যামারবেকারের। তারা ২০০৮ সালে এই শব্দ প্রথমবারের মত ব্যবহার করেন।[১১]
উপাত্ত বিজ্ঞানের আসল সংজ্ঞা কেউ আজো দিতে পারে নি। কারো কারো মতে
এটি একটি বাজওয়ার্ড মাত্র।
ভিত্তি
উপাত্তবিজ্ঞান একটি বহুবিষয়ী ক্ষেত্র। এর মূল লক্ষ্য হচ্ছে উপাত্ত সেট সমূহ থেকে বড় আকারের ডাটা (বিগ ডাটা দেখুন) এর ভিত্তিতে জ্ঞান আহরণ।[১২]
উপাত্ত বিজ্ঞান গবেষণার প্রয়োজনে পরিসংখ্যান,গণিত, কম্পিউটার বিজ্ঞান, তথ্য ভিজুয়্যালাইজেশন, গ্রাফিক ডিজাইন ব্যবহার করা হয়।[১৩][১৪]
পরিসংখ্যানের সাথে সম্পর্ক
ন্যাট সিলভার সহ আরও অনেক পরিসংখ্যানবিদের মতে, উপাত্ত বিজ্ঞান পরিসংখ্যানের একটি ভিন্ন রূপ মাত্র।[১৫]
অন্যদের মতে উপাত্ত বিজ্ঞান, পরিসংখ্যান থেকে আলাদা যেহেতু এটি ডিজিটাল উপাত্ত নিয়ে কাজ করে।[১৬]
বসন্ত ধরের মতে, উপাত্ত বিজ্ঞান পরিমাণগত ও গুণগত উভয় ধরনের উপাত্ত (যেমন: ছবি) নিয়েই কাজ করে, অন্যদিকে পরিসংখ্যান শুধুমাত্র পরিমাণগত উপাত্ত নিয়ে কাজ করে।[১৭]
তবে অনেক উপাত্ত বিজ্ঞানীর মতে, উপাত্ত বিজ্ঞান পরিসংখ্যান থেকে আলাদা হলেও পরিসংখ্যানের সাথে এর সম্বন্ধ আছে। কেউ কেউ উপাত্ত বিজ্ঞানকে পরিসংখ্যানের একটি ফলিত শাখা হিসেবে গণ্য করেন।
উপাত্ত বিজ্ঞানে ক্যারিয়ার
আমেরিকাতে ২০১৬-২০১৯ সময়কালে উপাত্তবিজ্ঞানীর ক্যারিয়ার ১ম সেরা ও ২০২০ সালে ৩য় সেরা ক্যারিয়ার হিসেবে বিবেচিত হয়েছে।[১৮]
শিক্ষাগত যোগ্যতা
উপাত্তবিজ্ঞানের ক্যারিয়ারে স্নাতকসহ পিএইচডি ডিগ্রীর প্রয়োজন পড়ে। পরবর্তীতে, এন্ট্রি লেভেল চাকরির জন্য আবেদন করতে হয়। অনেকে পরে বিশেষায়িত ক্ষেত্রে চলে যান।[১৯]
উপাত্ত বিজ্ঞানে অনেক প্রোগ্রামিং ভাষা ব্যবহার হয়।যেমনঃ
১.পাইথন
২. আর
৩.পাইটর্চ।
৪.গুগল টেনসরফ্লো।
৫.জুপিটার নোটবুক।
৬.টেবিলইউ।
৭.এপাচি হাডুপ।
উপাত্ত বিজ্ঞানের প্রভাব
বিগ ডাটা খুব দ্রুতই ছোট বড় বিভিন্ন কোম্পানির জন্য অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠছে। প্রাপ্যতা ও ব্যাখ্যার কারণে বিগ ডাটা পুরোনো ব্যবসার মডেল বদলিয়ে নতুন করে ফেলেছে। শুধুমাত্র ২০১৫ সাল থেকে ২০২০ সালে ডাটার/উপাত্তের উপর নির্ভরকারী ব্যবসার মূলধন ২০১৫ সালে $৩৩৩ মিলিয়ন ডলার থেকে বেড়ে ২০২০ সালে $১.২ ট্রিলিয়ন ডলার হয়েছে। উপাত্ত বিজ্ঞানী বা ডাটা সায়েন্টিস্টরা বর্তমানে বিভিন্ন ধরনের ব্যবসায়ের বিস্তারে বড় ভূমিকা রাখছেন। যতদিন বিগ ডাটা আছে তত দিন ডাটা সায়েন্স ভুমিকা পালন করবে।[২২]