গুগল জেমিনি ২.৫ কম্পিউটার ব্যবহার করে ওপেনএআই-এর বিরুদ্ধে সর্বাত্মক যুদ্ধ ঘোষণা করল।

কৃত্রিম বুদ্ধিমত্তা (AI) এর দৃশ্যপট এক অভূতপূর্ব স্কেল দেখতে পাচ্ছে, যেখানে প্রযুক্তি জায়ান্টরা অটোমেশনে আধিপত্যের জন্য একটি সত্যিকারের “যুদ্ধ” চালাচ্ছে। সম্প্রতি, গুগল জেমিনি ২.৫ কম্পিউটার ইউজ (Gemini 2.5 Computer Use) চালু করে বাজারকে নাড়িয়ে দিয়েছে, যা মানুষের মতো ইন্টারনেট ব্রাউজারের সাথে ইন্টারঅ্যাক্ট করার জন্য ডিজাইন করা একটি এআই মডেল। এই কৌশলগত পদক্ষেপটি OpenAI-এর দেব ডে (Dev Day) ঘোষণার মাত্র একদিন পরে এসেছে, যা প্রতিদ্বন্দ্বিতা এবং দ্রুত উদ্ভাবনের গতিকে আরও মজবুত করেছে।

×

微信分享

打开微信,扫描下方二维码。

QR Code

গুগলের কৌশল: ব্রাউজার-কেন্দ্রিক অটোমেশন

গুগলের জেমিনি ২.৫ কম্পিউটার ইউজ এআই অটোমেশনের দৌড়ে একটি স্বতন্ত্র কৌশলগত পদ্ধতিকে উপস্থাপন করে। তাদের কিছু প্রতিযোগীর মতো ডেস্কটপ পরিবেশের সম্পূর্ণ নিয়ন্ত্রণের চেষ্টা করার পরিবর্তে, গুগল তাদের নতুন মডেলটিকে একচেটিয়াভাবে ব্রাউজার-ভিত্তিক ইন্টারঅ্যাকশনে বিশেষীকরণ করার জন্য বেছে নিয়েছে। কল্পনা করুন একটি এআই যা জটিল ফর্ম পূরণ করতে পারে, বোতামে ক্লিক করতে পারে, নির্দিষ্ট API ছাড়াই ওয়েব অ্যাপ্লিকেশনগুলির মাধ্যমে নেভিগেট করতে পারে এবং ডিজিটাল কাজগুলি সম্পাদন করতে পারে যার জন্য মানুষের ভিজ্যুয়াল বোঝা এবং যুক্তির প্রয়োজন। জেমিনি ২.৫ কম্পিউটার ইউজ ঠিক সেটাই প্রতিশ্রুতি দেয়।

এই প্রযুক্তি, যা প্রজেক্ট ম্যারিনার (Project Mariner) এর মাধ্যমে গোপনে পরীক্ষা করা হচ্ছিল (একটি প্রোটোটাইপ যা রেসিপির উপর ভিত্তি করে অনলাইনে শপিং কার্টে আইটেম যোগ করতে সক্ষম), এখন ডেভেলপারদের জন্য বাণিজ্যিকভাবে উপলব্ধ একটি টুলে পরিণত হয়েছে। লক্ষ্য স্পষ্ট: যেখানে ঐতিহ্যবাহী অটোমেশন ব্যর্থ হয় সেই ব্যবধান পূরণ করা, এমন পরিস্থিতিগুলির জন্য একটি শক্তিশালী সমাধান প্রদান করা যা মানব চোখ এবং আঙ্গুলের জন্য তৈরি ইন্টারফেসের সাথে ইন্টারঅ্যাকশনের দাবি রাখে, বিশুদ্ধ কোডের জন্য নয়।

যারা জেমিনি জগতে গভীরভাবে প্রবেশ করতে চান, তাদের জন্য ইন্টারঅ্যাকশনের সূক্ষ্মতা বোঝা অপরিহার্য। গুগল জেমিনি এআই এর জন্য প্রম্পট ইঞ্জিনিয়ারিংয়ে দক্ষতা অর্জন করা উন্নত ভিজ্যুয়াল সিন্থেসিস এবং অন্যান্য অ্যাপ্লিকেশনগুলিতে এর সম্পূর্ণ সম্ভাবনা উন্মোচনের মূল চাবিকাঠি হতে পারে।

জায়ান্টদের যুদ্ধ: গুগল বনাম ওপেনএআই বনাম অ্যানথ্রোপিক

এআই এজেন্টদের ক্ষেত্রে প্রতিযোগিতা আগের চেয়ে অনেক বেশি তীব্র। অ্যানথ্রোপিক (Anthropic) ছিল প্রথম দিকে পদক্ষেপ নেওয়াদের মধ্যে অন্যতম, যারা তাদের ক্লাউড (Claude) মডেল দিয়ে কয়েক মাস আগে কম্পিউটার ব্যবহারের বৈশিষ্ট্য প্রকাশ করেছিল। OpenAI, তাদের ChatGPT এজেন্ট এবং ডেভেলপারদের জন্য নতুন অ্যাপ্লিকেশনগুলির সাম্প্রতিক ঘোষণার মাধ্যমে, একটি প্রভাবশালী খেলোয়াড় হিসাবে তাদের অবস্থানকে দৃঢ় করেছে। এখন, গুগল এমন একটি প্রস্তাব নিয়ে প্রতিযোগিতায় প্রবেশ করছে যা, যদিও আরও সীমাবদ্ধ, তবুও তাদের সবচেয়ে বড় সুবিধা হতে পারে।

যেখানে ChatGPT এজেন্ট এবং অ্যানথ্রোপিকের টুলসগুলি সম্পূর্ণ অপারেটিং সিস্টেম নিয়ন্ত্রণের লক্ষ্য রাখে, সেখানে জেমিনি ২.৫ কম্পিউটার ইউজ ব্রাউজারে ১৩টি নির্দিষ্ট কর্মে সীমাবদ্ধ, যেমন ট্যাব খোলা, টেক্সট টাইপ করা এবং উপাদানগুলি টেনে আনা। এই আপাত সীমাবদ্ধতা আসলে একটি কৌশলগত শক্তি। শুধুমাত্র ওয়েব ইন্টারঅ্যাকশনে মনোযোগ দেওয়ার মাধ্যমে, গুগল সিস্টেমের সম্পূর্ণ অ্যাক্সেসের সাথে সম্পর্কিত নিরাপত্তা এবং নির্ভরযোগ্যতার চ্যালেঞ্জগুলি এড়িয়ে সবচেয়ে সাধারণ অটোমেশন ব্যবহারের ক্ষেত্রে পারফরম্যান্স অপটিমাইজ করতে পারে। গুগল দাবি করেছে যে তাদের মডেল “বিভিন্ন ওয়েব এবং মোবাইল বেঞ্চমার্কে শীর্ষস্থানীয় বিকল্পগুলিকে ছাড়িয়ে যায়”, যা তাদের প্রতিদ্বন্দ্বীদের কাছে একটি স্পষ্ট বার্তা।

এআই প্রতিযোগিতার এই নতুন ফ্রন্টটি ক্রমাগত বিকশিত প্রযুক্তিগত পরিস্থিতিকে প্রতিফলিত করে। এই জায়ান্টরা কীভাবে ভবিষ্যতকে রূপ দিচ্ছে তা আরও ভালভাবে বুঝতে, নেটস্কেপ বনাম মাইক্রোসফ্ট যুদ্ধ কীভাবে ওপেন এআই এর ভবিষ্যতকে সংজ্ঞায়িত করেছে তা পুনরায় দেখা আকর্ষণীয়, যা শিল্পকে বদলে দেওয়া প্রতিদ্বন্দ্বিতা সম্পর্কে একটি ঐতিহাসিক সমান্তরাল প্রদান করে।

জেমিনি ২.৫ কম্পিউটার ইউজ-এ অ্যাক্সেস ইতিমধ্যেই গুগল এআই স্টুডিও (Google AI Studio) এবং ভার্টেক্স এআই (Vertex AI)-এর মাধ্যমে ডেভেলপারদের জন্য উপলব্ধ। এছাড়াও, গুগল ব্রাউজারবেস (Browserbase)-এ একটি পাবলিক ডেমো প্রদান করেছে, যেখানে যে কেউ এআইকে ২০৪৮ খেলা বা হ্যাকার নিউজে নেভিগেট করার মতো কাজগুলি সম্পাদন করতে দেখতে পারে।

এআই অটোমেশনের প্রভাব এবং ভবিষ্যত

জেমিনি ২.৫ কম্পিউটার ইউজ চালু করার প্রভাব কেবল সাধারণ ব্রাউজার অটোমেশনের বাইরেও যায়। এই পদক্ষেপটি ডেভেলপারদের মন জয় করার জন্য গুগলের প্রচেষ্টার প্রতিনিধিত্ব করে, যারা ক্রমবর্ধমানভাবে এআই এজেন্টের দিকে ঝুঁকছে। যেহেতু সংস্থাগুলি রুটিন ডিজিটাল কাজগুলিকে স্বয়ংক্রিয় করতে তাড়াহুড়ো করছে, তাই যে প্ল্যাটফর্মটি ডেভেলপারদের জন্য এটি সহজ করে তুলবে, সেটি সম্ভবত এআই অ্যাপ্লিকেশনগুলির পরবর্তী ঢেউয়ে আধিপত্য বিস্তার করবে।

বিভিন্ন ডোমেনে এআই-এর প্রসার অনস্বীকার্য। স্বয়ং গুগল জেমিনি ইতিমধ্যেই নতুন কার্যকারিতা নিয়ে বাড়িতে বিপ্লব ঘটাচ্ছে, টেলিভিশনকে কমান্ড সেন্টারে পরিণত করছে এবং আমাদের দৈনন্দিন জীবনে আরও গভীর একীকরণের প্রতিশ্রুতি দিচ্ছে।

গুগলের সময়জ্ঞান একটি কৌশলগত জরুরি অবস্থাকে নির্দেশ করে। একটি বড় লঞ্চ ইভেন্টের জন্য অপেক্ষা না করে, কোম্পানি OpenAI-এর ঘোষণার পরপরই এই রিলিজটি ত্বরান্বিত করেছে, যা এআই অটোমেশনে প্রতিযোগিতামূলক হুমকিকে তারা কতটা গুরুত্ব সহকারে দেখছে তা নির্দেশ করে। ডেভেলপারদের জন্য, এর অর্থ আরও বেশি বিকল্প, তবে কোন এআই এজেন্ট প্ল্যাটফর্ম ব্যবহার করা হবে সে বিষয়ে আরও কঠিন পছন্দ। নিকট ভবিষ্যতে নির্ধারণ করবে যে গুগলের এই কেন্দ্রবিন্দুতে থাকা পদ্ধতিটি OpenAI-এর আরও বিস্তৃত দৃষ্টিভঙ্গির সাথে কার্যকরভাবে প্রতিদ্বন্দ্বিতা করতে পারে কিনা, তবে একটি বিষয় নিশ্চিত: ডিজিটাল কাজ স্বয়ংক্রিয় করার দৌড় এখন আরও বেশি প্রতিযোগিতামূলক হয়ে উঠেছে।

×

微信分享

打开微信,扫描下方二维码。

QR Code

আপনার আরও যা ভালো লাগতে পারে:

বিটকয়েন দেড় লাখ ডলারের দিকে: ব্যাপক বিক্রি এবং প্রাতিষ্ঠানিক শক্তির রহস্য উন্মোচন

অন-চেইন সতর্কতা: বিটকয়েনের ৯৯% সরবরাহ লাভে রয়েছে – পরবর্তী মূল্য সংশোধনের জন্য এটি কী সংকেত দিচ্ছে?

বিটকয়েন কী এবং এই মুদ্রাটি কীভাবে কাজ করে?

বিটকয়েন চক্রের সমাপ্তি কি একটি মিথ? গ্লাসন্নোডের তথ্য প্রকাশ করে যে বুল মার্কেটের সামনে দীর্ঘ পথ থাকতে পারে।

ক্রিপ্টো-ডলারের মতবাদ: মার্কিন ঋণ অর্থায়নে স্টেবলকয়েন ও বিটকয়েন ব্যবহার করে ট্রাম্প কিভাবে পেট্রো-ডলার প্রতিস্থাপনের পরিকল্পনা করছেন

এক্সআরপি ঐতিহাসিক লাফের দোরগোড়ায়: বিশ্লেষক দেখছেন ৪০০% র‍্যালি, প্রযুক্তিগত সংকেত দিচ্ছে ‘সবুজ ঝলকানি’

অ্যাভ প্রটোকলের সম্পূর্ণ বিশ্লেষণ: কার্যপদ্ধতি, প্রশাসন এবং ডিফাইতে নিরাপত্তা

গুগল জেমিনি এআই-এর জন্য প্রম্পট ইঞ্জিনিয়ারিংয়ে দক্ষতা অর্জন: উন্নত ভিজ্যুয়াল সংশ্লেষণের পূর্ণাঙ্গ গাইড