ทำไม Apple ถึงให้ความสำคัญกับ AI ด้านการมองเห็นเป็นอย่างมาก?

จากการเข้าซื้อกิจการ Darwin AI ถึงรายงานล่าสุดที่อ้างว่าแอปเปิลอาจร่วมมือกับ Google และบริษัทอื่น ๆ เพื่อสนับสนุนเครื่องมือ AI แบบสร้างสรรค์ (genAI) ในขอบเขตที่กว้างกว่าที่บริษัทวางแผนไว้ จึงชัดเจนว่าบริษัทได้เลือกจุดศูนย์ความสำคัญในการสร้างเทคโนโลยี AI ของตนเอง

อย่างน้อยหนึ่งในพื้นที่โดดเด่นเหล่านี้สะท้อนการทำงานของบริษัทตั้งแต่ก่อนที่ AI จะเป็นคำโฆษณา และนั่นคือการช่วยในการมองเห็น ในส่วนที่เป็นเอกลักษณ์เจาะจงหมายถึง AI ที่สามารถเข้าใจสิ่งที่มันเห็นได้ ตีความข้อมูลนั้น ๆ ทำการตัดสินใจโดยอิงจากข้อมูล แก้ไขหรือเปลี่ยนแปลงมุมมอง และอื่น ๆ ต่อไป

คุณอาจจะกำลังใช้ AI ประเภทนี้อยู่แล้ว:

  • เมื่อคุณถ่ายภาพเอกสารและ Apple อนุญาตให้คุณคัดลอกข้อความเพื่อวางไว้ในเอกสารอื่น
  • เมื่อ iPhone ของคุณบอกคุณว่าประตูของอาคารอยู่ที่ไหน
  • เมื่อคุณแตะที่ปุ่ม ‘I’ ในรูปภาพเพื่อเชื่อมต่อกับคำอธิบายเกี่ยวกับสิ่งที่มองเห็น
  • เมื่อ iPhone ของคุณบอกคุณความหมายของป้ายซักรีดที่คุณเปิดเผย
  • เมื่อคุณใช้ Translate เพื่อแปลอักขระบนป้ายที่อยู่รอบๆ คุณ
  • เมื่อเซ็นเซอร์ LiDAR ให้คุณดูแผนที่ห้อง
  • ยังมีตัวอย่างอื่น ๆ อีกมากมาย อาจจะมีตัวอย่างที่ดีกว่าที่แสดงให้เห็นถึงทิศทางของการเดินทางได้อีกด้วย

Electron blues

นักวิจัยของ Apple เพิ่งเผยแพร่เอกสารที่สร้างความกังวลและความคิดเห็นตั้งแต่การเผยแพร่ เอกสารนี้อธิบายเทคโนโลยีที่เรียกว่า MM1 ซึ่งเป็นแบบจำลองหลายโหมดสำหรับข้อมูลข้อความและภาพ

นั่นหมายความว่ามันสามารถฝึกแบบจำลองภาษาขนาดใหญ่ (LLMs) โดยใช้ทั้งข้อความและภาพและถูกเรียกว่า “การเป็นขั้นก้าวหน้าที่สำคัญ” สำหรับ AI แบบจำลองที่ใช้เทคโนโลยีนี้ดำเนินการอย่างยอดเยี่ยมในงานเช่นการบรรยายภาพ การตอบคำถามที่เกี่ยวกับภาพ และการอนุมานภาษาธรรมชาติ

ระบบยังแสดงความสามารถในการเรียนรู้ในบริบทได้ดีเช่นกัน กล่าวคือ มันสามารถเรียนรู้อย่างรวดเร็วโดยการได้รับการเผยแพร่ข้อความ/คำและภาพซึ่งหมายความว่าเทคโนโลยีนี้สามารถจัดการปัญหาที่ซับซ้อนและเปิดโอกาสได้อย่างต่อเนื่อง สิ่งหนึ่งนี้เป็นความตั้งใจสำคัญของการวิจัย AI เพราะการที่เครื่องจะสามารถแก้ไขปัญหาในลักษณะที่มีบริบทมากจะเป็นเครื่องมือที่มีคุณค่าอย่างยิ่ง

นั่นเป็นเรื่องดีทั้งหมด แต่สิ่งที่สำคัญที่นี่คือการใช้ภาพ นี่ไม่ใช่ครั้งแรกในเดือนเร็ว ๆ นี้ที่แอปเปิลได้ใช้การสร้างสรรค์ภาพแบบเครื่องหมายอัตโนมัติในทางที่นี้ ในเดือนที่แล้ว โปรแกรม Keyframer ของพวกเขามีการลื่นไหล และในปี 2023 เราได้ยินว่าส่วนหนึ่งของสิ่งที่บริษัทตั้งใจที่จะพัฒนาคือ AI ที่สามารถสร้างฉากที่มีความสมจริงสำหรับการใช้ใน Vision Pro ได้

อัตโนมัติสำหรับคน

และผลิตภัณฑ์หลังนั้น แน่นอนว่าเป็นพื้นที่ที่มีความสำคัญมากในภาพรวมของวิสัยทัศน์ของแอปเปิลสำหรับ AI แบบสร้างสรรค์ที่เป็นภาพ การมองเห็นของมันมีความหมายอย่างลึกซึ้ง คิดดูว่ามันทำให้มีความเป็นไปได้ที่คนหนึ่งที่ใส่ Vision Pro จะเข้าสู่สภาพแวดล้อม – สภาพแวดล้อมใดก็ได้ – และในขณะที่สำรวจพื้นที่นั้น สร้างสำเนาดิจิตอลที่สมบูรณ์ของสถานที่นั้นที่ยังสามารถแบ่งปันกับผู้อื่นได้ 

สิ่งที่สำคัญคือเครื่องมือนี้ไม่ใช่เพียงการแสดงภาพง่าย ๆ ของสถานที่ ด้วยการใช้ปัญญาประดิษฐ์ในการมองเห็น ประสบการณ์การแบ่งปันที่ได้รับจะไม่เพียงแค่ดูเหมือนสถานที่ที่คุณกำลังสำรวจ แต่ยังมีการปรับแต่งพารามิเตอร์เพื่อแก้ไขข้อผิดพลาด นั่นจะเป็นสำเนาดิจิตอลของพื้นที่นั้นที่ทำงานอย่างเต็มประสิทธิภาพ

สิ่งนี้มีประโยชน์ในสถานการณ์ต่าง ๆ เช่นการบริหารจัดการการจราจร การบริหารจัดการอาคารและสิ่งอำนวยความสะดวก แต่ความสามารถในการสร้างสำเนาที่เหมือนจริงและฉลาดและฉลาดของพื้นที่ยังขยายตัวไปยังสถาปัตยกรรมและการออกแบบได้อีกด้วย และแน่นอน มีผลต่อสุขภาพที่ชัดเจนด้วย

ไม่ว่าไอเดียเหล่านี้จะเป็นไปได้ตามที่ฉันอธิบาย แม้ว่าฉันจะมั่นใจหรือไม่ก็ตาม บทบาทของ Vision Pro ในการสร้างแบบจำลองดิจิตว์สำหรับอุตสาหกรรมหลายประเภทจะกลายเป็นที่รู้จักแน่นอน

Leave a Reply