การแบ่งกลุ่มข้อมูล

การแบ่งกลุ่มข้อมูล (data clustering) เป็นวิธีการวิเคราะห์ข้อมูล ซึ่งใช้ในการเรียนรู้ของเครื่อง การทำเหมืองข้อมูล โดยจะแบ่งชุดข้อมูล (มักจะเป็นเวกเตอร์) ออกเป็นกลุ่ม (cluster) นำข้อมูลที่มีคุณลักษณะเหมือนกัน หรือคล้ายกันจัดไว้ในกลุ่มเดียวกัน ขั้นตอนวิธีที่ใช้ในการแบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า โดยใช้การวัดระยะแบบต่าง ๆ เช่น การวัดระยะแบบยูคลิด (Euclidean distance) การวัดระยะแบบแมนฮัตตัน (Manhattan distance) การวัดระยะแบบเชบิเชฟ (Chebychev distance) การแบ่งกลุ่มข้อมูลจะแตกต่างจากการแบ่งประเภทข้อมูล (classification) โดยจะแบ่งกลุ่มข้อมูลจากความคล้าย โดยไม่มีการกำหนดประเภทของข้อมูลไว้ก่อน จึงกล่าวได้ว่าการแบ่งกลุ่มข้อมูล เป็นการเรียนรู้แบบไม่มีผู้สอน ขั้นตอนวิธีการแบ่งกลุ่ม ได้แก่ k-means clustering, hierarchical clustering, self-organizing map (som) การแบ่งกลุ่มข้อมูลอาจใช้เป็นข้อตอนเบื้องต้นของการวิเคราะห์ข้อมูล เพื่อช่วยในการลดขนาดข้อมูล (แยกเป็นหลาย ๆ กลุ่มและคัดเฉพาะบางกลุ่มเพื่อทำการวิเคราะห์ต่อไป หรือแยกการวิเคราะห์ออกเป็นสำหรับแต่ละกลุ่ม) ก่อนที่จะนำไปวิเคราะห์ด้วยวิธีการอื่นต่อไป ขั้นตอนวิธีในการแบ่งกลุ่มข้อมูล โดยทั่วไปแบ่งได้เป็น 2 ประเภทใหญ่ๆ คือ การแบ่งแบบเป็นลำดับขั้น (hierarchical) และ การแบ่งแบบตัดเป็นส่วน (partitional) การแบ่งแบบเป็นลำดับขั้นนั้น จะมีทำการแบ่งกลุ่มจากกลุ่มย่อยที่ถูกแบ่งไว้ก่อนหน้านั้นซ้ำหลายครั้ง ส่วนการแบ่งแบบตัดเป็นส่วนนั้น การแบ่งจะทำเพียงครั้งเดียว การแบ่งแบบเป็นลำดับขั้น จะมี 2 ลักษณะคือ แบบล่างขึ้นบน (bottom-up) หรือ เป็นการแบ่งแบบรวมกลุ่มจากกลุ่มย่อยให้ใหญ่ขึ้นไปเรื่อยๆ โดยเริ่มจากกลุ่มเล็กสุดคือในแต่ละกลุ่มมีข้อมูลเพียงตัวเดียว และ แบบบนลงล่าง (top-down) หรือ เป็นการแบ่งแบบกลุ่มจากกลุ่มใหญ่ให้ย่อยไปเรื่อยๆ โดยเริ่มจากกลุ่มใหญ่ที่สุด คือกลุ่มเดียวมีข้อมูลทุกตัวอยู่ในกลุ่ม หมวดหมู่:การเรียนรู้ของเครื่อง หมวดหมู่:การค้นหาความรู้ในฐานข้อมูล.

7 ความสัมพันธ์: การทำเหมืองข้อมูล การแบ่งกลุ่มข้อมูลแบบเคมีน การแบ่งประเภทข้อมูล การเรียนรู้ของเครื่อง การเรียนรู้แบบไม่มีผู้สอน ระยะทางแบบยุคลิด เวกเตอร์

การทำเหมืองข้อมูล

การทำเหมืองข้อมูล (data mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูล (Knowledge Discovery in Databases - KDD) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์ ความรู้ที่ได้จากการทำเหมืองข้อมูลมีหลายรูปแบบ ได้แก่; กฎความสัมพันธ์ (Association rule): แสดงความสัมพันธ์ของเหตุการณ์หรือวัตถุ ที่เกิดขึ้นพร้อมกัน ตัวอย่างของการประยุกต์ใช้กฎเชื่อมโยง เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ จุดขาย (POS) หรือร้านค้าออนไลน์ แล้วพิจารณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขาย หรืออาจจะพบว่าหลังจากคนซื้อหนังสือ ก แล้ว มักจะซื้อหนังสือ ข ด้วย ก็สามารถนำความรู้นี้ไปแนะนำผู้ที่กำลังจะซื้อหนังสือ ก ได้; การจำแนกประเภทข้อมูล (Data classification): หากฎเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่าง ๆ กับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจารณาการอนุมัติเงินกู้; การแบ่งกลุ่มข้อมูล (Data clustering): แบ่งข้อมูลที่มีลักษณะคล้ายกันออกเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจารณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน; การสร้างมโนภาพ (Visualization): สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ขัอความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ้อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน.

ใหม่!!: การแบ่งกลุ่มข้อมูลและการทำเหมืองข้อมูล · ดูเพิ่มเติม »

การแบ่งกลุ่มข้อมูลแบบเคมีน

การแบ่งกลุ่มข้อมูลแบบเคมีน (k-means clustering) เป็นวิธีหนึ่งในวิธีการแบ่งเวกเตอร์ ที่มีรากฐานมาจากการประมวลผลสัญญาณ วิธีนี้เป็นที่นิยมสำหรับการแบ่งกลุ่มข้อมูล (cluster analysis) ในการทำเหมืองข้อมูล (data mining) การแบ่งกลุ่มข้อมูลแบบเคมีนใช้สำหรับการแบ่งการสังเกตจำนวน n สิ่งเป็น k กลุ่ม โดยแต่ละการสังเกตจะอยู่ในกลุ่มที่มีค่าเฉลี่ย(ที่ใช้เป็นแม่แบบ)ใกล้เคียงกันที่สุด โดยวิธีนี้จะเป็นการแบ่งพื้นที่ข้อมูลไปเป็นแผนภาพโวโรนอย วิธีการจัดกลุ่มนี้อยู่ในกลุ่มความซับซ้อนของปัญหาเอ็นพีแบบยาก (NP-hard) แต่อย่างไรเราสามารถนำขั้นตอนวิธีแบบศึกษาสำนึก (heuristic algorithm) มาใช้หาจุดศูนย์กลางของกลุ่มข้อมูลจากการลู่เข้าได้อย่างมีประสิทธิภาพ ซึ่งจะเหมือนกับขั้นตอนวิธีหาค่าคาดหมายสูงสุด (expectation-maximization algorithm) สำหรับโมเดลแบบผสม (Mixture Model) ของการแจกแจงปรกติ (Gaussian distribution) เนื่องจากทั้งสองขั้นตอนวิธีจะใช้แนวทางกระทำซ้ำการกลั่นกรอง (iterative refinement approach) นอกจากนี้ ทั้งสองขั้นตอนวิธียังใช้จุดศูนย์กลางของคลัสเตอร์สร้างแบบจำลองข้อมูล อย่างไรก็ตาม การแบ่งกลุ่มข้อมูลแบบเคมีนมีแนวโน้มจะได้คลัสเตอร์ผลลัพธ์ที่มีตำแหน่งขอบเขตใกล้เคียงกัน ในขณะที่ขั้นตอนวิธีหาค่าคาดหมายสูงสุดนั้นยอมให้คลัสเตอร์ผลลัพธ์มีรูปร่างที่แตกต่างกันได้ ขั้นตอนวิธีนี้ไม่มีอะไรเกี่ยวข้องกับวิธีการค้นหาเพื่อนบ้านใกล้สุด (k-nearest neighbor) ซึ่งเป็นเทคนิคการเรียนรู้ของเครื่อง (machine learning) ที่เป็นที่นิยมอีกอย่างหนึ่ง.

ใหม่!!: การแบ่งกลุ่มข้อมูลและการแบ่งกลุ่มข้อมูลแบบเคมีน · ดูเพิ่มเติม »

การแบ่งประเภทข้อมูล

ในวิทยาการคอมพิวเตอร์ การแบ่งประเภทข้อมูล (data classification) เป็นปัญหาพื้นฐานของการเรียนรู้แบบมีผู้สอน โดยปัญหาคือการทำนายประเภทของวัตถุจากคุณสมบัติต่าง ๆ ของวัตถุ ซึ่งการเรียนรู้แบบมีผู้สอนจะสร้างฟังก์ชันเชื่อมโยง ระหว่างคุณสมบัติของวัตถุ กับประเภทของวัตถุจากตัวอย่างสอน แล้วจึงใช้ฟังก์ชันนี้ทำนายประเภทของวัตถุที่ไม่เคยพบ เครื่องมือหรือขั้นตอนวิธีที่ใช้สำหรับการแบ่งประเภทข้อมูลเช่น โครงข่ายประสาทเทียม ต้นไมตัดสินใ.

ใหม่!!: การแบ่งกลุ่มข้อมูลและการแบ่งประเภทข้อมูล · ดูเพิ่มเติม »

การเรียนรู้ของเครื่อง

การเรียนรู้ของเครื่อง (machine learning) เป็นสาขาหนึ่งของปัญญาประดิษฐ์ที่พัฒนามาจากการศึกษาการรู้จำแบบ เกี่ยวข้องกับการศึกษาและการสร้างอัลกอริทึมที่สามารถเรียนรู้ข้อมูลและทำนายข้อมูลได้ อัลกอริทึมนั้นจะทำงานโดยอาศัยโมเดลที่สร้างมาจากชุดข้อมูลตัวอย่างขาเข้าเพื่อการทำนายหรือตัดสินใจในภายหลัง แทนที่จะทำงานตามลำดับของคำสั่งโปรแกรมคอมพิวเตอร์ การเรียนรู้ของเครื่องมีเกี่ยวข้องอย่างมากกับสถิติศาสตร์ เนื่องจากทั้งสองสาขาศึกษาการวิเคราะห์ข้อมูลเพื่อการทำนายเช่นกัน นอกจากนี้ยังมีความสัมพันธ์กับสาขาการหาค่าเหมาะที่สุดในทางคณิตศาสตร์ที่แงของวิธีการ ทฤษฎี และการประยุกต์ใช้ การเรียนรู้ของเครื่องสามารถนำไปประยุกต์ใช้งานได้หลากหมาย ไม่ว่าจะเป็นการกรองอีเมล์ขยะ การรู้จำตัวอักษร เครื่องมือค้นหา และคอมพิวเตอร์วิทัศน.

ใหม่!!: การแบ่งกลุ่มข้อมูลและการเรียนรู้ของเครื่อง · ดูเพิ่มเติม »

การเรียนรู้แบบไม่มีผู้สอน

การเรียนรู้แบบไม่มีผู้สอน (unsupervised learning) เป็นเทคนิคหนึ่งของการเรียนรู้ของเครื่อง โดยการสร้างโมเดลที่เหมาะสมกับข้อมูล การเรียนรู้แบบนี้แตกต่างจากการเรียนรู้แบบมีผู้สอน คือ จะไม่มีการระบุผลที่ต้องการหรือประเภทไว้ก่อน การเรียนรู้แบบนี้จะพิจารณาวัตถุเป็นเซตของตัวแปรสุ่ม แล้วจึงสร้างโมเดลความหนาแน่นร่วมของชุดข้อมูล การเรียนรู้แบบไม่มีผู้สอนสามารถนำไปใช้ร่วมกับการอนุมานแบบเบย์ เพื่อหาความน่าจะเป็นแบบมีเงื่อนไขของตัวแปรสุ่มโดยกำหนดตัวแปรที่เกี่ยวข้องให้ นอกจากนี้ยังสามารถนำไปใช้ในการบีบอัดข้อมูล ซึ่งโดยพื้นฐานแล้ว ขั้นตอนวิธีการบีบอัดข้อมูลจะขึ้นอยู่กับ การแจกแจงความน่าจะเป็นของข้อมูลไม่อย่างชัดแจ้งก็โดยปริยาย การเรียนรู้แบบไม่มีผู้สอนในอีกรูปแบบหนึ่งคือการแบ่งกลุ่มข้อมูล โดยจะไม่เกี่ยวข้องกับความน่าจะเป็น นอกจากนี้อาจจะดูได้จาก formal concept analysis หมวดหมู่:การเรียนรู้ของเครื่อง.

ใหม่!!: การแบ่งกลุ่มข้อมูลและการเรียนรู้แบบไม่มีผู้สอน · ดูเพิ่มเติม »

ระยะทางแบบยุคลิด

ระยะทางแบบยุคลิด (Euclidean distance, Euclidean metric) คือระยะทางปกติระหว่างจุดสองจุดในแนวเส้นตรง ซึ่งอาจสามารถวัดได้ด้วยไม้บรรทัด มีที่มาจากทฤษฎีบทพีทาโกรัส เหตุที่เรียกว่า แบบยุคลิด เนื่องจากเป็นการวัดระยะทางในปริภูมิแบบยุคลิด (หรือแม้แต่ปริภูมิผลคูณภายใน) คือไม่มีความโค้งและไม่สามารถทำให้โค้งงอ และการใช้สูตรนี้วัดระยะทางทำให้กลายเป็นปริภูมิอิงระยะทาง ค่าประจำ (norm) ที่เกี่ยวข้องก็จะเรียกว่าเป็น ค่าประจำแบบยุคลิด (Euclidean norm) เช่นกัน (งานเขียนสมัยก่อนเรียกการวัดอย่างนี้ว่า ระยะทางแบบพีทาโกรัส).

ใหม่!!: การแบ่งกลุ่มข้อมูลและระยะทางแบบยุคลิด · ดูเพิ่มเติม »

เวกเตอร์

แบบจำลองเวกเตอร์ในหลายทิศทาง เวกเตอร์ (vector) เป็นปริมาณในทางคณิตศาสตร์ ซึ่งมีลักษณะไม่เหมือนกับ สเกลาร์ ซึ่งเป็นจำนวนที่มีทิศทาง เวกเตอร์มีการใช้กันในหลายสาขานอกเหนือจากทางคณิตศาสตร์ โดยเฉพาะในทางวิทยาศาสตร์ฟิสิกส์ และเคมี เช่น การกระจั.

ใหม่!!: การแบ่งกลุ่มข้อมูลและเวกเตอร์ · ดูเพิ่มเติม »

ยูเนี่ยนพีเดียเป็นแผนที่แนวคิดหรือเครือข่ายความหมายจัดเป็นสารานุกรม - dictionary มันให้คำนิยามสั้น ๆ ของแต่ละแนวคิดและความสัมพันธ์ของมัน

นี่เป็นแผนที่ออนไลน์แบบยักษ์ซึ่งทำหน้าที่เป็นพื้นฐานสำหรับแผนผังแนวคิด สามารถใช้งานได้ฟรีและสามารถอ่านบทความหรือเอกสารแต่ละฉบับได้ เป็นเครื่องมือทรัพยากรหรือข้อมูลอ้างอิงสำหรับการศึกษาการวิจัยการศึกษาการเรียนการสอนหรือการสอนซึ่งครูหรือนักการศึกษานักเรียนหรือนักศึกษาสามารถนำมาใช้ได้ สำหรับโลกการศึกษา: สำหรับโรงเรียนระดับประถมศึกษามัธยมศึกษาตอนปลายระดับกลางระดับกลางระดับปริญญาตรีวิทยาลัยมหาวิทยาลัยระดับปริญญาตรีปริญญาโทปริญญาเอกหรือปริญญาเอก สำหรับเอกสารรายงานโครงการความคิดเอกสารการสำรวจผลสรุปหรือวิทยานิพนธ์ ต่อไปนี้เป็นคำจำกัดความคำอธิบายรายละเอียดหรือความหมายของข้อมูลสำคัญที่คุณต้องการข้อมูลและรายการแนวคิดที่เกี่ยวข้องของพวกเขาเป็นอภิธานศัพท์ มีอยู่ในไทย, ภาษาอังกฤษ, ภาษาสเปน, ภาษาโปรตุเกส, ญี่ปุ่น, ชาวจีน, ภาษาฝรั่งเศส, ภาษาเยอรมัน, อิตาลี, ขัด, ดัตช์, ภาษารัสเซีย, ภาษาอาหรับ, ฮินดู, สวีเดน, ยูเครน, ฮังการี, คาตาลัน, ภาษาเช็ก, ฮีบรู, เดนมาร์ก, ภาษาฟินแลนด์, ชาวอินโดนีเซีย, ภาษานอร์เวย์, โรมาเนีย, ตุรกี, ภาษาเวียดนาม, เกาหลี, กรีก, ภาษาบัลแกเรีย, โครเอเชีย, ภาษาสโลวัก, ภาษาลิทัวเนีย, ฟิลิปปินส์, ภาษาลัตเวีย, ภาษาเอสโตเนีย และ ภาษาสโลวีเนีย ภาษาอื่น ๆ เร็ว ๆ นี้

ข้อมูลทั้งหมดถูกดึงออกจาก วิกิพีเดีย และมีให้บริการภายใต้ใบอนุญาต สัญญาอนุญาตครีเอทีฟคอมมอนส์ แบบแสดงที่มา-อนุญาตแบบเดียวกัน

ยูเนี่ยนพีเดีย ไม่ได้รับการรับรองโดยหรือร่วมกับมูลนิธิวิกิมีเดีย

Google Play Android และโลโก้ของ Google Play เป็นเครื่องหมายการค้าของ Google Inc.

นโยบายความเป็นส่วนตัว