บันทึก training data science EP 1: Intro – เครื่องมือเครื่องใช้

บันทึก training data science EP 1: Intro – เครื่องมือเครื่องใช้

ฮัลโหล ทุกคน

สุขสันต์ปีใหม่ 2563 ย้อนหลังนะฮะ เนี่ย ไม่ได้อัพบล็อกนานใช้ได้เลยนะเนี่ย

สำหรับบล็อกนี้จะมาเป็นซีรี่ส์นะฮะ เป็นบันทึกโดยสรุปจากการที่ผมได้เข้าไปนั่งอบรม Data Science นะฮะ

สำหรับ EP 1 นี่ ผมก็ขอเป็นการเกริ่นนำก่อนนะฮะ

เรามี Data science ไว้ทำไม

ผมจินตนาการภาพว่า ถ้าให้วงการอุตสาหกรรมข้อมูลเป็นเหมือนร้านอาหาร ตัว Data engineer ที่ผมเคยเล่าๆ มาก่อนหน้านี้ จะทำหน้าที่เหมือนคนดูแลวัตถุดิบฮะ เรามีแซลมอนสิบลัง หอยเป๋าฮื้ออีกพันตัว จะเป็นหน้าที่ของเราที่จะคอยดูแลวัตถุดิบให้สดใหม่อยู่เสมอ และจัดการการจ่ายวัตถุดิบให้พ่อครัวในร้านว่าใครจะสามารถหยิบอะไรไปได้บ้าง ได้กี่อย่าง กี่ตัว จะได้ไม่เกิดปัญหาของหายไม่ได้คืนฮะ

ทีนี้พ่อครัวคือใครล่ะ นั่นก็คือ เหล่าชาว Data scientist ฮะ พวกเค้ามีสกิลที่จะปรุงอาหารจากวัตถุดิบให้ออกมาอร่อย หน้าตาน่าทาน และมีคุณประโยชน์ทางโภชนาการ ความสามารถที่สำคัญมากๆ ที่เค้ามี คือ ความเข้าใจในวัตถุดิบ รู้ว่าอะไร ส่วนไหน ใช้ทำอาหารประเภทไหนได้ดีที่สุด และมีผลดีกับสุขภาพคนทานฮะ

ถ้าเรามีแค่ Data engineer อย่างเดียว เราจะเป็นแค่ร้านขายวัตถุดิบ เนื้อหมู เนื้อวัว แค่นั้นฮะ แต่ถ้าเรามี Data scientist พร้อมกันด้วย เราจะเป็นร้านอาหารที่ครบครัน พร้อมเปิดบริการให้ลูกค้าได้สิ่งที่ดีที่สุดกลับไปฮะ ซึ่งลูกค้าเราก็คือคนที่จะใช้ข้อมูลต่างๆ ประกอบการตัดสินใจทางธุรกิจนั่นเองฮะ

Data scientist ใช้เครื่องมืออะไรบ้างนะ

Python

Python เป็นภาษาโปรแกรมมิ่งที่ใช้งานแพร่หลายที่สุดละฮะ ในสายงานนี้ เนื่องจากมี library ค่อนข้างครบถ้วนเลยแหละ แถมเขียนไม่ยากด้วย อ้อ แนะนำให้ใช้ Python 3 นะฮะ เนื่องจาก Python 2 ใกล้จะหมดอายุซัพพอร์ตแล้วในตอนที่กำลังเขียนนี้ฮะ

นอกเหนือจาก Python ก็มี R Language ที่ฮิตอยู่เหมือนกันฮะ

Free dataset

เราสามารถค้นหาข้อมูลสาธารณะมาลองเล่นกันได้จากอินเตอร์เน็ต หลักๆ ที่ผมเคยเล่นนั้นจะดาวน์โหลดมาจาก Kaggle.com/dataset หรือไม่ก็เป็น Github ที่มีคนเข้าไปแชร์กันนะฮะ

ผมเคยทำบล็อกเรื่อง Git นี้ไว้แล้ว กดอ่านได้จากลิงก์นี้เลยฮะ

IDE (integrated development environment) หรือ Text Editor

เพราะงานนี้เราต้องเขียนโค้ด จึงต้องมี IDE ที่เราคุ้นเคยกันสักหน่อยฮะ เรามีให้เลือกหลายโปรแกรมเลยฮะ

สำหรับผมแล้ว ถนัดเขียนบน Jupyter มากกว่าแหละ ใครชอบอะไรก็ใช้อันนั้นกันนะฮะ

Command line

จริงๆ ต้องบอกว่า Command line เป็น optional นะฮะ เพราะบางครั้งเราใช้ Git บน Terminal ก็จำเป็นต้องรู้จักคำสั่ง Command line ด้วย

ถ้าต้องการอ่านบล็อกเก่าๆ ของเรื่องนี้ กดดูได้จากลิงก์นี้เลยนะฮะ

บล็อกหน้า จะเริ่มเล่าถึงการสำรวจข้อมูลเบื้องต้นล่ะนะฮะ

บาย~

ตอนต่อไป: บันทึก training data science EP 2: Pandas & Matplotlib – ดูแผนที่ก่อนเดินทาง

Show Comments