คลังเก็บ

คลังเก็บสำหรับ ธันวาคม, 2009

Text and Data Mining of Health Documents

ธันวาคม 19th, 2009 ไม่มีความเห็น

สืบเนื่องจาก Second Louhi Workshop on Text and Data Mining of Health Documents อาจารย์จึงเมลมาหาทั้งห้องโดยมีใจความประมาณนี้

“…อาจารย์ต้องการ นศ. ช่วยผลิตผลงานส่งงานประชุมวิชาการนานาชาติ และงานประชุมวิชาการของคณะฯ เป็นปัญหาเชิง clustering + classification และ data เป็น data ขนาดมหาศาลเท่าที่อยากจะดึงมาทำ

คุณสมบัติ: เขียนโปรแกรมได้ เรียนรู้ภาษาโปรแกรมอื่นได้ เช่น python เพื่อแกะ หรือปรับใช้ code ที่มีอยู่แล้วได้ ภาษาอังกฤษโอเค อ่านและวิจารณ์บทความเพื่อสืบหาความรู้ใหม่ๆ ด้วยตนเอง มีเวลาทุ่มเทให้กับงานนี้ เพราะต้องหามรุ่งหามค่ำ โดยเฉพาะช่วงใกล้ deadline…”

พี่เอ๋ ก็ฟอร์มทีมทันที มีคุณรสกร รวมถึงมีผมเป็นหนึ่งในนั้นด้วยครับ งานนี้น่าทำตรงที่มันมีประโยชน์ต่อมวลมนุษยชาติ (เวอร์ไปไหมครับ เรื่องที่เกี่ยวกับสุขภาพ จะโดนใจผมมาก เพราะผมเสียพี่ชาย และแม่ไป จากสาเหตุของโรคภัยไข้เจ็บ) และเป็นโอกาสทองที่จะได้ make my hand dirty เสียที กับการทำงานในเชิงเหมืองข้อมูล (Data Mining) ซึ่งในตอนที่เรียนนั้น จับต้องไม่ได้ แม้ตัวอย่างที่อาจารย์สอน จะชัดเจนเพียงใดก็ตาม ผมจึงไม่ค่อยรู้สึกสนุก หรือท้าทายอะไร

  • python <– เคยเีขียนตอนเรียน ป.ตรี ในวิชา UNiX Tools
  • ภาษาอังกฤษ <– จะเอาตัวรอดได้ไหม
  • หามรุ่งหามค่ำ <– อันนี้ มันคือชีวิตผมเลย

พรุ่งนี้แล้วครับ ที่จะเข้าไปคุยกับอาจารย์ อาจารย์นัดไว้ บ่ายโมงครึ่ง Go/No Go เดี๋ยวพรุ่งนี้รู้กันครับ

* เนื้อหาอีเมลมีการตัดทอนออกไป โดยใช้วิจารณญาณของผมครับ

Text Mining

ธันวาคม 18th, 2009 ไม่มีความเห็น

จากการมีโอกาสได้อ่านเรื่อง เทคโนโลยี Data Mining / Text Mining ใน NSTDA blog ผมเจอมาว่า

…ปัจจุบัน TM ได้รับความสนใจในหลายสาขา Security Application (CIA analyze terrorist events)…

อ่านแล้วรู้สึกว่าน่าจะเอาไปเป็นแนวทางในการทำ IS/Thesis ที่มหานครได้นะเนี่ย… สุดยอดจริงๆ วิชา Data Mining นี่ (สุดยอดในที่นี้ หมายถึงเอาไปใช้ประโยชน์ได้หลากหลายดีจัง)

ผมคงจะแย่แล้ว

ธันวาคม 16th, 2009 ไม่มีความเห็น

อ่านเจอมาจาก Generation Click ใน rawitat.com ว่า

“ผมลองตั้งโจทย์คร่าวๆ ว่า “มีไฟล์อยู่หนึี่งไฟล์ ข้างในไฟล์มีคำอยู่เยอะ ซ้ำๆ กัน ผมอยากรู้ว่ามีคำไม่ซ้ำกันทั้งหมดกี่คำ?” (ทั้งนี้ คำทุกคำ เป็นตัวเล็กหมด และไม่มีอักขระแปลกๆ ตัวอย่างเนื้อความในไฟล์คือ this is a cat this is a bat this is a map this is a phone)

เชื่อหรือไม่ว่า ไม่มีนักศึกษาสามารถคิด logic ของโจทย์นี้ได้แบบเป็นขั้นเป็นตอน ชัดเจน ได้แม้แต่คนเดียว ใน class ที่ผมสอน! ทั้งๆ ที่ logic มันง่ายแสนจะง่าย”

เลยทำให้อดคิดไม่ได้ว่า ตัวเองก็เริ่มแย่แล้ว เพราะโจทย์ง่ายๆ ที่มีเพื่อนคนหนึ่งถามผมมา เช่น การเอาค่าใน array 2 มิติ ที่มีค่าเป็น 1,2,3,4,5,6,7,8,9,10,11,12 ตามลำดับ มาแสดงเป็น matrix แล้วมีผลรวมทั้งแนวแถว และแนวคอลัมน์ ที่มีหน้าตาแบบนี้

และโค้ดที่เขียนด้วยภาษาซี ก็ไม่ได้ยืดยาวอะไร แต่ผมกลับใช้เวลาไปเกือบ 20 นาทีกว่าผลลัพธ์จะออกมาอย่างที่เห็น

Categories: General Tags: