📣 พามารู้จักกับผู้ก่อตั้ง DeepSeek อย่าง “เหลียง เหวินเฟิง” ที่พาให้แอป AI จากสตาร์ทอัพจีน มียอดดาวน์โหลด และถูกพูดถึงเป็นไวรัลกันในชั่วข้ามคืน!
จากประเด็นที่ถูกพูดถึงกันอย่างต่อเนื่องในวงการเทคโนโลยี เมื่อแอปพลิเคชัน DeepSeek สตาร์ทอัพ AI จากจีน ทำปรากฎการณ์การดาวน์โหลดแซงหน้า ChatGPT ได้ในที่สุด! อีกทั้งยังเป็นการเปิดตัวโมเดลใหม่ อย่าง DeepSeek-V3 โมเดลโอเพ่นซอร์สขนาดใหญ่ ที่เปิดให้เข้าถึงได้ง่ายและลึกยิ่งขึ้น
👉 แล้วใครคือ “เหลียง เหวินเฟิง”? ที่พาให้ DeepSeek กลายเป็นที่พูดถึงกันอยู่ขณะนี้!???
เหลียง เหวินเฟิง (Liang Wenfeng) เกิดเมื่อปี 1985 ซึ่งอาศัยอยู่ในเมืองเล็ก ๆ ของมณฑลกวางตุ้ง ประเทศจีน เรียนจบจากมหาวิทยาลัยเจ้อเจียง ซึ่งเป็นมหาวิทยาลัยที่มีชื่อเสียงในประเทศจีน
ก่อนที่เหวินเฟิงจะหันมาพัฒนา AI ในชื่อ DeepSeek ที่เรารู้จัด เขาเป็นผู้ก่อตั้งกองทุนเฮดจ์ฟันด์ ซึ่งเป็นกองทุนเชิงปริมาณในชื่อ High-Flyer มาก่อน โดยเป็นแบบจำลองทางคณิตศาสตร์, อัลกอริทึม, และเทคนิคทางสถิติในด้านการตัดสินใจลงทุน และมีสินทรัพย์กว่า 10,000 ล้านดอลลาร์ในปี 2019
ต่อมาในปี 2021 เหวินเฟิงได้เริ่มหันมาซื้อ GPU จาก Nvidia เพื่อใช้สร้างคลัสเตอร์ชิปขนาดใหญ่ กว่า 10,000 ชิป เพื่อฝึกโมเดล AI จนในปี 2023 บริษัทก็ได้เปิดตัว DeepSeek ที่เพิ่งจะสร้างความสั่นสะเทือนในวางการเทคไปทั้ง Silicon Valley ด้วยโมเดล V3 ที่เปิดตัวช่วงปลายปี 2024 ซึ่งใช้ชิปของ Nvidia H800 จำนวน 2,000 ตัว ด้วยต้นทุนที่ต่ำกว่า 6 ล้านดอลลาร์!?
ทำให้ DeepSeek เกิดเป็นกระแสไวรัลของการพัฒนา AI สุดเจ๋งด้วยต้นทุนต่ำรับต้นปี 2025 ครั้งนี้!!
แล้ว DeepSeek ต่างจากเจ้าอื่นยังไง ?
โมเดลโอเพ่นซอร์สของ DeepSeek มีวิธีการเปิดใช้งานแต่ละส่วนตามแต่ละการค้นหา ช่วยให้เป็นการประหยัดงบและพลังงานในการประมวลผลข้อมูล พร้อมทั้งยังมีการฝึก AI ด้วยเทคนิคที่พาให้นวัตกรรมสุดหลากหลาย มารวมอยู่ในที่เดียว
เทคนิคการฝึก AI สุดเจ๋งของ DeepSeek คืออะไร ?
1. Reinforcement Learning – การลองผิดลองถูกเพื่อนำประสบการณ์มาปรับใช้
DeepSeek ทำงานด้วยโมเดลที่เน้นการเรียนรู้จากการโต้ตอบและพร้อมรับคำแนะนำ ซึ่งเป็นการเรียบรู้ที่เปรียบเสมือน “มนุษย์” เป็นวิธีที่ช่วยให้ DeepSeek สามารถใช้เหตุผลที่ซับซ้อน และสามารถปรับตัวเข้ากับสถานการณ์ใหม่ ๆ ได้อย่างมีประสิทธิภาพ
2. Mixture-of-Expert (MoE) – เน้นการผสานความรู้
โดย DeepSeek จะเน้นการทำงานเหมือนการผสานความรู้จากผู้เชี่ยวชาญรวมไว้ในโมเดล แต่ตะเปิดใช้เฉพาะส่วนที่เหมาะกับงานหรือคำค้นหา เป็นอีกหนึ่งทางที่ช่วยประหยัดต้นทุน และเพิ่มประสิทธิภาพในการทำงาน
3. Multi-Head Latent Attention – สามารถโฟกัสข้อมูลหลายด้านได้ทีเดียว เหมือนมี 10 หัวแบบทศกัณฐ์
โมเดล DeepSeek-V3 คือจุดที่ถูกพัฒนาให้มีสมองในรูปแบบผสมผสาน เปรียบง่าย ๆ เหมือนกับทศกัณฐ์ที่มีหลายหัว สามารถโฟกัสและวิเคราะห์ข้อมูลหลายส่วนได้ในครั้งเดียว ก่อนจะนำผลข้อมูลที่วิเคราะห์มารวมกัน ทำให้ DeepSeek สามารถจับประเด็นสำคัญของข้อมูลได้ครอบคลุมยิ่งขึ้น
4. Distillation – กลั่นกรองความรู้จากครูสู่นักเรียน
DeepSeek ใช้ เทคนิคการถ่ายทอดความรู้ เพื่อนำความสามารถจากโมเดล AI ขนาดใหญ่ ส่งต่อให้กับโมเดลขนาดเล็กที่มีประสิทธิภาพสูงขึ้น ช่วยให้ AI อัจฉริยะทำงานได้รวดเร็ว ใช้ทรัพยากรน้อยลง และเข้าถึงผู้ใช้ได้มากขึ้น!
เปรียบเทียบง่ายๆ เหมือนครูที่สอนนักเรียน เมื่อครูถ่ายทอดความรู้ นักเรียนก็สามารถทำงานได้เก่งขึ้น แม้ว่าจะมีประสบการณ์น้อยกว่า AI ของ DeepSeek ก็เช่นกัน โมเดลขนาดเล็กสามารถคิดวิเคราะห์และเข้าใจภาษาได้ดีขึ้นเหมือนโมเดลขนาดใหญ่ แต่ทำงานได้เบาขึ้นและประหยัดพลังงานกว่าเดิม!
‼️ ยังไม่หมดแค่นั้น ‼️ DeepSeek ยังมีมุมเจ๋ง ๆ ด้านอื่นด้วย
เพราะในอีกมุม DeepSeek ยังเป็นสตาร์ทอัพที่ให้ความสำคัญเรื่องประสิทธิภาพการทำงานของ AI จนส่งผลดีต่อสิ่งแวดล้อมอีกด้วย!
เพราะปัจจุบันความกังวลเรื่องของปริมาณคาร์บอนที่เกิดมาจาก AI ยังคงเพิ่มขึ้นอย่างต่อเนื่อง แต่ในมุมของการพัฒนา DeepSeek นับเป็นการสนับสนุนให้ AI มีแนวทางการปฏิบัติที่ยั่งยืนมากขึ้น จากการลดการใช้พลังงาน และลดการใช้ทรัพยากรคอมพิวเตอร์ให้เหลือน้อยที่สุด
#DeepSeek #openai #AI #MachineLearning #เทคโนโลยีแห่งอนาคต #aitools #generativeai #ปัญญาประดิษฐ์ #transformationbuddy #thebigblueocean #digitaltransformation #thebigblue #BBO