โลโก้
ยูเนี่ยนพีเดีย
การสื่อสาร
ดาวน์โหลดได้จาก Google Play
ใหม่! ดาวน์โหลด ยูเนี่ยนพีเดีย บน Android ™ของคุณ!
ติดตั้ง
เร็วกว่าเบราว์เซอร์!
 

การแบ่งกลุ่มข้อมูลแบบเคมีน

ดัชนี การแบ่งกลุ่มข้อมูลแบบเคมีน

การแบ่งกลุ่มข้อมูลแบบเคมีน (k-means clustering) เป็นวิธีหนึ่งในวิธีการแบ่งเวกเตอร์ ที่มีรากฐานมาจากการประมวลผลสัญญาณ วิธีนี้เป็นที่นิยมสำหรับการแบ่งกลุ่มข้อมูล (cluster analysis) ในการทำเหมืองข้อมูล (data mining) การแบ่งกลุ่มข้อมูลแบบเคมีนใช้สำหรับการแบ่งการสังเกตจำนวน n สิ่งเป็น k กลุ่ม โดยแต่ละการสังเกตจะอยู่ในกลุ่มที่มีค่าเฉลี่ย(ที่ใช้เป็นแม่แบบ)ใกล้เคียงกันที่สุด โดยวิธีนี้จะเป็นการแบ่งพื้นที่ข้อมูลไปเป็นแผนภาพโวโรนอย วิธีการจัดกลุ่มนี้อยู่ในกลุ่มความซับซ้อนของปัญหาเอ็นพีแบบยาก (NP-hard) แต่อย่างไรเราสามารถนำขั้นตอนวิธีแบบศึกษาสำนึก (heuristic algorithm) มาใช้หาจุดศูนย์กลางของกลุ่มข้อมูลจากการลู่เข้าได้อย่างมีประสิทธิภาพ ซึ่งจะเหมือนกับขั้นตอนวิธีหาค่าคาดหมายสูงสุด (expectation-maximization algorithm) สำหรับโมเดลแบบผสม (Mixture Model) ของการแจกแจงปรกติ (Gaussian distribution) เนื่องจากทั้งสองขั้นตอนวิธีจะใช้แนวทางกระทำซ้ำการกลั่นกรอง (iterative refinement approach) นอกจากนี้ ทั้งสองขั้นตอนวิธียังใช้จุดศูนย์กลางของคลัสเตอร์สร้างแบบจำลองข้อมูล อย่างไรก็ตาม การแบ่งกลุ่มข้อมูลแบบเคมีนมีแนวโน้มจะได้คลัสเตอร์ผลลัพธ์ที่มีตำแหน่งขอบเขตใกล้เคียงกัน ในขณะที่ขั้นตอนวิธีหาค่าคาดหมายสูงสุดนั้นยอมให้คลัสเตอร์ผลลัพธ์มีรูปร่างที่แตกต่างกันได้ ขั้นตอนวิธีนี้ไม่มีอะไรเกี่ยวข้องกับวิธีการค้นหาเพื่อนบ้านใกล้สุด (k-nearest neighbor) ซึ่งเป็นเทคนิคการเรียนรู้ของเครื่อง (machine learning) ที่เป็นที่นิยมอีกอย่างหนึ่ง.

10 ความสัมพันธ์: การกล้ำรหัสของพัลส์การทำเหมืองข้อมูลการค้นหาเพื่อนบ้านใกล้สุดการประมวลผลสัญญาณการแบ่งกลุ่มข้อมูลการแจกแจงปรกติการเรียนรู้ของเครื่องศึกษาสำนึกแผนภาพโวโรนอยNP

การกล้ำรหัสของพัลส์

การกล้ำรหัสของพัลส์ (Pulse Code Modulation) เป็นเทคนิคที่มีการใช้งานในระบบโทรศัพท์พื้นฐานในปัจจุบัน ลักษณะการทำงานของการเข้ารหัสแบบนี้สามารถแบ่งออกได้เป็น 3 ขั้นตอน ได้แก่ การแซมปลิง (sampling) การทำควอนไทซ์ (quantization) และการเข้ารหัสไบนารี (binary encoding) การแซมปลิง สัญญาณเสียงซึ่งอยู่ในรูปของสัญญาณแอนาล็อกจะถูกสุ่มค่าอย่างต่อเนื่องสม่ำเสมอด้วยอัตราคงที่ค่าหนี่ง ซึ่งตามทฤษฎีบทของไนควิสต์ (Nyquist's theorem) แล้วจะต้องทำการสุ่มด้วยอัตราที่มีค่าอย่างน้อยเป็น 2 เท่าของความถี่สูงสุดของสัญญาณเสียงเพื่อหลีกเลี่ยงปัญหา aliasing เนื่องจากสัญญาณ เสียงมีองค์ประกอบความถี่อยู่ระหว่าง 300-3400Hz ฉะนั้นอัตราการสุ่มมาตรฐานที่เลือกใช้กันทั่วไปมีค่าเท่ากับ 8000Hz ให้สังเกตว่าขั้นตอนการแซมปลิง เปรียบเสมือนการแปลงสัญญาณที่มีค่าต่อเนื่องทางเวลาไปเป็นสัญญาณที่มีลักษณะเป็นดิสครีตทางเวลา การทำควาอนไทเซชัน เป็นการนำค่าแอมพลิจูดของสัญญาณที่สุ่มได้ในแต่ละเวลามาแปลงให้เป็นค่าดิสครีต กล่าวคือ จะมีการแบ่งระดับแอมพลีจูดของสัญญาณออกเป็นช่วงเล็ก ๆ ขนาดเท่ากัน โดยช่วงของระดับสัญญาณที่กำหนดขึ้นจะต้องครอบคลุมขนาดแอมพลิจูดของสัญญาณที่เป็นไปได้ทั้งหมด การเข้ารหัสไบนารี ซึ่งมีหน้าที่ในการแทนช่วงระดับการควอนไทซ์ของสัญญาณแต่ละช่วงด้วยชุดบิตไบนารี ทั้งนี้เพื่อแทนค่าของสัญญาณที่มีแอมพลิจูดตกอยู่ภายในช่วงระดับ สัญญาณแต่ละช่วงหรือค่าของสัญญาณที่ผ่านการควอนไทซ์แล้วด้วยชุดตัวเลขไบนารี.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการกล้ำรหัสของพัลส์ · ดูเพิ่มเติม »

การทำเหมืองข้อมูล

การทำเหมืองข้อมูล (data mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูล (Knowledge Discovery in Databases - KDD) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์ ความรู้ที่ได้จากการทำเหมืองข้อมูลมีหลายรูปแบบ ได้แก่; กฎความสัมพันธ์ (Association rule): แสดงความสัมพันธ์ของเหตุการณ์หรือวัตถุ ที่เกิดขึ้นพร้อมกัน ตัวอย่างของการประยุกต์ใช้กฎเชื่อมโยง เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ จุดขาย (POS) หรือร้านค้าออนไลน์ แล้วพิจารณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขาย หรืออาจจะพบว่าหลังจากคนซื้อหนังสือ ก แล้ว มักจะซื้อหนังสือ ข ด้วย ก็สามารถนำความรู้นี้ไปแนะนำผู้ที่กำลังจะซื้อหนังสือ ก ได้; การจำแนกประเภทข้อมูล (Data classification): หากฎเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่าง ๆ กับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจารณาการอนุมัติเงินกู้; การแบ่งกลุ่มข้อมูล (Data clustering): แบ่งข้อมูลที่มีลักษณะคล้ายกันออกเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจารณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน; การสร้างมโนภาพ (Visualization): สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ขัอความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ้อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการทำเหมืองข้อมูล · ดูเพิ่มเติม »

การค้นหาเพื่อนบ้านใกล้สุด

การค้นหาเพื่อนบ้านที่ใกล้ที่สุด (nearest neighbor search) เป็นที่รู้จักในนามอื่น ๆ อาทิ การค้นหาความใกล้ชิด การค้นหาความคล้ายคลึง หรือการค้นหาจุดที่ใกล้ที่สุด เอ็นเอ็นเอส คือ เทคนิคที่ใช้ในการแก้ปัญหาที่ใช้สำหรับหาจุดที่ใกล้ที่สุดในปริภูมิเมทริกซ์ ยกตัวอย่างจากโจทย์ต่อไปนี้ เมื่อให้เซต S คือเซตของจุดในปริภูมิเมทริกซ์ M และ จุดที่กำหนด q ∈ M ต้องการหาจุดที่ใกล้ที่สุดของ S กับ q ในหลายกรณี M นั้นจะถูกแทนค่าเป็นมิติในปริภูมิของยูคลิด และระยะทางนั้นสามารถวัดได้จากระยะทางยูคลิด หรือ ระยะทางแมนฮัตตัน ในหนังสือของ โดนัลด์ คนูธ เล่มที่สามที่มีชื่อว่า The Art of Computer Programming เรียกโจทย์ปัญหาแบบนี้ว่า ปัญหาไปรษณีย์ โดยอ้างอิงถึงระบบการแนะนำผู้อยู่อาศัยเกี่ยวกับไปรษณีย์ที่ใกล้ที.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการค้นหาเพื่อนบ้านใกล้สุด · ดูเพิ่มเติม »

การประมวลผลสัญญาณ

การประมวลผลสัญญาณ หมายถึงการประมวลผล การขยาย และการแปลสัญญาณ รวมทั้งการวิเคราะห์และเปลี่ยนแปลงสัญญาณ.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการประมวลผลสัญญาณ · ดูเพิ่มเติม »

การแบ่งกลุ่มข้อมูล

การแบ่งกลุ่มข้อมูล (data clustering) เป็นวิธีการวิเคราะห์ข้อมูล ซึ่งใช้ในการเรียนรู้ของเครื่อง การทำเหมืองข้อมูล โดยจะแบ่งชุดข้อมูล (มักจะเป็นเวกเตอร์) ออกเป็นกลุ่ม (cluster) นำข้อมูลที่มีคุณลักษณะเหมือนกัน หรือคล้ายกันจัดไว้ในกลุ่มเดียวกัน ขั้นตอนวิธีที่ใช้ในการแบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า โดยใช้การวัดระยะแบบต่าง ๆ เช่น การวัดระยะแบบยูคลิด (Euclidean distance) การวัดระยะแบบแมนฮัตตัน (Manhattan distance) การวัดระยะแบบเชบิเชฟ (Chebychev distance) การแบ่งกลุ่มข้อมูลจะแตกต่างจากการแบ่งประเภทข้อมูล (classification) โดยจะแบ่งกลุ่มข้อมูลจากความคล้าย โดยไม่มีการกำหนดประเภทของข้อมูลไว้ก่อน จึงกล่าวได้ว่าการแบ่งกลุ่มข้อมูล เป็นการเรียนรู้แบบไม่มีผู้สอน ขั้นตอนวิธีการแบ่งกลุ่ม ได้แก่ k-means clustering, hierarchical clustering, self-organizing map (som) การแบ่งกลุ่มข้อมูลอาจใช้เป็นข้อตอนเบื้องต้นของการวิเคราะห์ข้อมูล เพื่อช่วยในการลดขนาดข้อมูล (แยกเป็นหลาย ๆ กลุ่มและคัดเฉพาะบางกลุ่มเพื่อทำการวิเคราะห์ต่อไป หรือแยกการวิเคราะห์ออกเป็นสำหรับแต่ละกลุ่ม) ก่อนที่จะนำไปวิเคราะห์ด้วยวิธีการอื่นต่อไป ขั้นตอนวิธีในการแบ่งกลุ่มข้อมูล โดยทั่วไปแบ่งได้เป็น 2 ประเภทใหญ่ๆ คือ การแบ่งแบบเป็นลำดับขั้น (hierarchical) และ การแบ่งแบบตัดเป็นส่วน (partitional) การแบ่งแบบเป็นลำดับขั้นนั้น จะมีทำการแบ่งกลุ่มจากกลุ่มย่อยที่ถูกแบ่งไว้ก่อนหน้านั้นซ้ำหลายครั้ง ส่วนการแบ่งแบบตัดเป็นส่วนนั้น การแบ่งจะทำเพียงครั้งเดียว การแบ่งแบบเป็นลำดับขั้น จะมี 2 ลักษณะคือ แบบล่างขึ้นบน (bottom-up) หรือ เป็นการแบ่งแบบรวมกลุ่มจากกลุ่มย่อยให้ใหญ่ขึ้นไปเรื่อยๆ โดยเริ่มจากกลุ่มเล็กสุดคือในแต่ละกลุ่มมีข้อมูลเพียงตัวเดียว และ แบบบนลงล่าง (top-down) หรือ เป็นการแบ่งแบบกลุ่มจากกลุ่มใหญ่ให้ย่อยไปเรื่อยๆ โดยเริ่มจากกลุ่มใหญ่ที่สุด คือกลุ่มเดียวมีข้อมูลทุกตัวอยู่ในกลุ่ม หมวดหมู่:การเรียนรู้ของเครื่อง หมวดหมู่:การค้นหาความรู้ในฐานข้อมูล.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการแบ่งกลุ่มข้อมูล · ดูเพิ่มเติม »

การแจกแจงปรกติ

ำหรับทฤษฎีความน่าจะเป็น การแจกแจงปรกติ (normal distribution) เป็นการแจกแจงความน่าจะเป็นของค่าของตัวแปรสุ่มที่เป็นค่าแบบต่อเนื่อง โดยที่ค่าของตัวแปรสุ่มมีแนวโน้มที่จะมีค่าอยู่ใกล้ ๆ กับค่า ๆ หนึ่ง (เรียกว่าค่ามัชฌิม) กราฟแสดงค่าฟังก์ชันความหนาแน่น (probability density function) จะเป็นรูปคล้ายระฆังคว่ำ หรือเรียกว่า Gaussian function โดยค่าฟังก์ชันความหนาแน่นของการแจกแจงปรกติ ได้แก่ โดย "x" แทนตัวแปรสุ่ม พารามิเตอร์ μ แสดงค่ามัชฌิม และ σ 2 คือค่าความแปรปรวน (variance) ซึ่งเป็นค่าที่ใช้บอกปริมาณการกระจายของการแจกแจง การแจกแจงปรกติที่มีค่า และ จะถูกเรียกว่า การแจกแจงปรกติมาตรฐาน การแจกแจงปรกติเป็นการแจกแจงที่เด่นที่สุดในทางวิชาความน่าจะเป็นและสถิติศาสตร์ ซึ่งก็มาจากหลาย ๆ เหตุผล ซึ่งก็รวมถึงผลจากทฤษฎีบทขีดจํากัดกลาง (central limit theorem) ที่กล่าวว่า ภายใต้สภาพทั่ว ๆ ไปแล้ว ค่าเฉลี่ยจากการสุ่มค่าของตัวแปรสุ่มอิสระจากการแจกแจงใด ๆ (ที่มีค่าเฉลี่ยและค่าความแปรปรวนจำกัด) ถ้าจำนวนการสุ่มนั้นใหญ่พอ แล้วค่าเฉลี่ยนั้นจะมีการแจกแจงประมาณได้เป็นการแจกแจงปรกต.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการแจกแจงปรกติ · ดูเพิ่มเติม »

การเรียนรู้ของเครื่อง

การเรียนรู้ของเครื่อง (machine learning) เป็นสาขาหนึ่งของปัญญาประดิษฐ์ที่พัฒนามาจากการศึกษาการรู้จำแบบ เกี่ยวข้องกับการศึกษาและการสร้างอัลกอริทึมที่สามารถเรียนรู้ข้อมูลและทำนายข้อมูลได้ อัลกอริทึมนั้นจะทำงานโดยอาศัยโมเดลที่สร้างมาจากชุดข้อมูลตัวอย่างขาเข้าเพื่อการทำนายหรือตัดสินใจในภายหลัง แทนที่จะทำงานตามลำดับของคำสั่งโปรแกรมคอมพิวเตอร์ การเรียนรู้ของเครื่องมีเกี่ยวข้องอย่างมากกับสถิติศาสตร์ เนื่องจากทั้งสองสาขาศึกษาการวิเคราะห์ข้อมูลเพื่อการทำนายเช่นกัน นอกจากนี้ยังมีความสัมพันธ์กับสาขาการหาค่าเหมาะที่สุดในทางคณิตศาสตร์ที่แงของวิธีการ ทฤษฎี และการประยุกต์ใช้ การเรียนรู้ของเครื่องสามารถนำไปประยุกต์ใช้งานได้หลากหมาย ไม่ว่าจะเป็นการกรองอีเมล์ขยะ การรู้จำตัวอักษร เครื่องมือค้นหา และคอมพิวเตอร์วิทัศน.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการเรียนรู้ของเครื่อง · ดูเพิ่มเติม »

ศึกษาสำนึก

ปกติการออกแบบหรือค้นหาขั้นตอนวิธี หรือขั้นตอนวิธี ที่ดีเพื่อการหาผลลัพธ์หรือแก้ปัญหาด้วยคอมพิวเตอร์นั้นมีเป้าหมายพื้นฐานอยู่ 2 ประการ คือ.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและศึกษาสำนึก · ดูเพิ่มเติม »

แผนภาพโวโรนอย

แผนภาพโวโรนอย (Voronoi diagram) เป็นหนึ่งในโครงสร้างที่สำคัญที่ใช้ในการคำนวณเชิงเรขาคณิต โดยแผนภาพนี้ใช้ทำการบันทึกข้อมูลว่าอะไรอยู่ใกล้กับอะไร.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและแผนภาพโวโรนอย · ดูเพิ่มเติม »

NP

อ็นพี NP หรือ Np เป็นอักษรย่อภาษาอังกฤษ สามารถหมายถึง.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและNP · ดูเพิ่มเติม »

เปลี่ยนเส้นทางที่นี่:

K-means clustering

ขาออกขาเข้า
Hey! เราอยู่ใน Facebook ตอนนี้! »