ภูมิทัศน์ของปัญญาประดิษฐ์ (AI) กำลังก้าวเข้าสู่การยกระดับที่ไม่เคยมีมาก่อน โดยมีบริษัทยักษ์ใหญ่ด้านเทคโนโลยีกำลังทำ “สงคราม” อย่างแท้จริงเพื่อชิงความเป็นใหญ่ในการทำงานอัตโนมัติ ล่าสุด Google ได้สร้างความตื่นเต้นในตลาดด้วยการเปิดตัว Gemini 2.5 Computer Use ซึ่งเป็นโมเดล AI ที่ออกแบบมาเพื่อโต้ตอบกับเว็บเบราว์เซอร์ในลักษณะที่คล้ายมนุษย์ การเคลื่อนไหวเชิงกลยุทธ์นี้เกิดขึ้นเพียงหนึ่งวันหลังจากที่ OpenAI ประกาศในงาน Dev Day ซึ่งเป็นการตอกย้ำถึงการแข่งขันและจังหวะของนวัตกรรมที่เร่งตัวขึ้น
กลยุทธ์ของ Google: การทำงานอัตโนมัติที่เน้นเบราว์เซอร์
Gemini 2.5 Computer Use ของ Google แสดงถึงแนวทางยุทธวิธีที่แตกต่างในการแข่งขันด้านการทำงานอัตโนมัติของ AI แทนที่จะแสวงหาการควบคุมสภาพแวดล้อมเดสก์ท็อปโดยสมบูรณ์เหมือนที่คู่แข่งบางรายทำ Google เลือกที่จะให้โมเดลใหม่มีความเชี่ยวชาญในการโต้ตอบบนเบราว์เซอร์เท่านั้น ลองจินตนาการถึง AI ที่สามารถกรอกแบบฟอร์มที่ซับซ้อน คลิกปุ่ม นำทางผ่านแอปพลิเคชันเว็บโดยไม่มี API เฉพาะ และทำงานดิจิทัลที่ต้องใช้ความเข้าใจทางสายตาและการใช้เหตุผลแบบมนุษย์ นั่นคือสิ่งที่ Gemini 2.5 Computer Use สัญญาไว้
เทคโนโลยีนี้ ซึ่งก่อนหน้านี้ได้รับการทดสอบอย่างเงียบ ๆ ผ่าน Project Mariner (ต้นแบบที่สามารถเพิ่มรายการลงในตะกร้าสินค้าออนไลน์ตามสูตรอาหาร) ตอนนี้ได้กลายเป็นเครื่องมือที่พร้อมใช้งานในเชิงพาณิชย์สำหรับนักพัฒนา วัตถุประสงค์ชัดเจน: เพื่ออุดช่องว่างที่การทำงานอัตโนมัติแบบดั้งเดิมล้มเหลว โดยนำเสนอโซลูชันที่แข็งแกร่งสำหรับสถานการณ์ที่ต้องการการโต้ตอบกับอินเทอร์เฟซที่สร้างขึ้นสำหรับดวงตาและนิ้วของมนุษย์ ไม่ใช่สำหรับโค้ดล้วน ๆ
สำหรับผู้ที่ต้องการเจาะลึกในโลกของ Gemini การทำความเข้าใจความแตกต่างเล็กน้อยของการโต้ตอบเป็นสิ่งสำคัญ การเป็นผู้เชี่ยวชาญด้าน Prompt Engineering สำหรับ Google Gemini AI อาจเป็นกุญแจสำคัญในการปลดล็อกศักยภาพทั้งหมดในด้านการสังเคราะห์ภาพขั้นสูงและแอปพลิเคชันอื่น ๆ
การต่อสู้ของยักษ์ใหญ่: Google ปะทะ OpenAI ปะทะ Anthropic
การแข่งขันในพื้นที่ของ เอเจนต์ AI กำลังร้อนแรงยิ่งกว่าที่เคย Anthropic เป็นหนึ่งในรายแรกที่เคลื่อนไหว โดยปล่อยความสามารถในการใช้คอมพิวเตอร์ด้วยโมเดล Claude ของตนล่วงหน้าไปหลายเดือน OpenAI ด้วย ChatGPT Agent และการประกาศล่าสุดเกี่ยวกับแอปพลิเคชันใหม่สำหรับนักพัฒนา ได้เสริมความแข็งแกร่งในฐานะผู้เล่นที่โดดเด่น ขณะนี้ Google เข้าร่วมการแข่งขันด้วยข้อเสนอที่แม้จะจำกัดมากกว่า แต่อาจเป็นข้อได้เปรียบที่ยิ่งใหญ่ที่สุดของตน
ในขณะที่ ChatGPT Agent และเครื่องมือของ Anthropic มุ่งเป้าไปที่การควบคุมระบบปฏิบัติการที่สมบูรณ์ Gemini 2.5 Computer Use ถูกจำกัดไว้ที่ 13 การกระทำเฉพาะในเบราว์เซอร์ เช่น การเปิดแท็บ การพิมพ์ข้อความ และการลากองค์ประกอบ ข้อจำกัดที่เห็นได้ชัดนี้ ในความเป็นจริงคือจุดแข็งเชิงกลยุทธ์ ด้วยการมุ่งเน้นเฉพาะการโต้ตอบทางเว็บ Google สามารถเพิ่มประสิทธิภาพสำหรับการใช้งานการทำงานอัตโนมัติที่พบบ่อยที่สุด หลีกเลี่ยงความท้าทายด้านความปลอดภัยและความน่าเชื่อถือที่เกี่ยวข้องกับการเข้าถึงระบบทั้งหมด Google อ้างว่าโมเดลของตน “มีประสิทธิภาพเหนือกว่าทางเลือกชั้นนำในเกณฑ์มาตรฐานเว็บและมือถือหลายรายการ” ซึ่งเป็นข้อความที่ชัดเจนถึงคู่แข่ง
แนวรบใหม่ในการแข่งขันด้าน AI นี้สะท้อนให้เห็นถึงภูมิทัศน์ทางเทคโนโลยีที่เปลี่ยนแปลงอยู่ตลอดเวลา เพื่อทำความเข้าใจให้ดีขึ้นว่ายักษ์ใหญ่เหล่านี้กำหนดอนาคตอย่างไร เป็นที่น่าสนใจที่จะย้อนกลับไปดู ว่าสงครามระหว่าง Netscape กับ Microsoft กำหนดอนาคตของ Open AI ได้อย่างไร โดยให้ความเทียบเคียงทางประวัติศาสตร์เกี่ยวกับการแข่งขันที่เปลี่ยนแปลงอุตสาหกรรม
ขณะนี้นักพัฒนาสามารถเข้าถึง Gemini 2.5 Computer Use ได้แล้วผ่าน Google AI Studio และ Vertex AI นอกจากนี้ Google ยังได้จัดแสดงสาธารณะบน Browserbase ซึ่งทุกคนสามารถดู AI ดำเนินการงานต่าง ๆ เช่น การเล่นเกม 2048 หรือการเรียกดู Hacker News
นัยยะและอนาคตของการทำงานอัตโนมัติด้วย AI
นัยยะของการเปิดตัว Gemini 2.5 Computer Use ขยายไปไกลกว่าการทำงานอัตโนมัติของเบราว์เซอร์ง่าย ๆ การเคลื่อนไหวนี้แสดงถึงความพยายามของ Google ที่จะดึงดูดใจนักพัฒนาที่หันมาสนใจเอเจนต์ AI มากขึ้นเรื่อย ๆ ในขณะที่บริษัทต่าง ๆ เร่งรีบที่จะทำให้งานดิจิทัลประจำวันเป็นไปโดยอัตโนมัติ แพลตฟอร์มที่ทำให้นักพัฒนาดำเนินการได้ง่ายที่สุดมีแนวโน้มที่จะครองคลื่นลูกต่อไปของแอปพลิเคชัน AI
การขยายตัวของ AI ในโดเมนต่าง ๆ เป็นสิ่งที่ปฏิเสธไม่ได้ Google Gemini เองก็กำลังปฏิวัติบ้านด้วยฟังก์ชันใหม่ ๆ เปลี่ยนโทรทัศน์ให้เป็นศูนย์บัญชาการ และสัญญาว่าจะมีการบูรณาการที่ลึกซึ้งยิ่งขึ้นในชีวิตประจำวันของเรา
ช่วงเวลาที่ Google เลือกนั้นบ่งบอกถึงความเร่งด่วนเชิงกลยุทธ์ แทนที่จะรอการเปิดตัวในงานใหญ่ บริษัทได้ปล่อยการใช้งานนี้ทันทีหลังจากการประกาศของ OpenAI ซึ่งแสดงให้เห็นถึงความจริงจังที่ Google มองเห็นภัยคุกคามทางการแข่งขันในการทำงานอัตโนมัติของ AI สำหรับนักพัฒนา สิ่งนี้หมายถึงทางเลือกที่มากขึ้น แต่ก็หมายถึงการตัดสินใจที่ยากขึ้นเกี่ยวกับแพลตฟอร์มเอเจนต์ AI ที่จะใช้ อนาคตอันใกล้นี้จะตัดสินว่าแนวทางที่เน้นเฉพาะจุดของ Google สามารถแข่งขันได้อย่างมีประสิทธิภาพกับวิสัยทัศน์ที่ครอบคลุมของ OpenAI ได้หรือไม่ แต่มีสิ่งหนึ่งที่แน่นอน: การแข่งขันเพื่อทำให้งานดิจิทัลเป็นไปโดยอัตโนมัตินั้นเพิ่งจะเพิ่มความเข้มข้นขึ้นอย่างมาก