การแบ่งกลุ่มข้อมูลแบบเคมีน

การแบ่งกลุ่มข้อมูลแบบเคมีน (k-means clustering) เป็นวิธีหนึ่งในวิธีการแบ่งเวกเตอร์ ที่มีรากฐานมาจากการประมวลผลสัญญาณ วิธีนี้เป็นที่นิยมสำหรับการแบ่งกลุ่มข้อมูล (cluster analysis) ในการทำเหมืองข้อมูล (data mining) การแบ่งกลุ่มข้อมูลแบบเคมีนใช้สำหรับการแบ่งการสังเกตจำนวน n สิ่งเป็น k กลุ่ม โดยแต่ละการสังเกตจะอยู่ในกลุ่มที่มีค่าเฉลี่ย(ที่ใช้เป็นแม่แบบ)ใกล้เคียงกันที่สุด โดยวิธีนี้จะเป็นการแบ่งพื้นที่ข้อมูลไปเป็นแผนภาพโวโรนอย วิธีการจัดกลุ่มนี้อยู่ในกลุ่มความซับซ้อนของปัญหาเอ็นพีแบบยาก (NP-hard) แต่อย่างไรเราสามารถนำขั้นตอนวิธีแบบศึกษาสำนึก (heuristic algorithm) มาใช้หาจุดศูนย์กลางของกลุ่มข้อมูลจากการลู่เข้าได้อย่างมีประสิทธิภาพ ซึ่งจะเหมือนกับขั้นตอนวิธีหาค่าคาดหมายสูงสุด (expectation-maximization algorithm) สำหรับโมเดลแบบผสม (Mixture Model) ของการแจกแจงปรกติ (Gaussian distribution) เนื่องจากทั้งสองขั้นตอนวิธีจะใช้แนวทางกระทำซ้ำการกลั่นกรอง (iterative refinement approach) นอกจากนี้ ทั้งสองขั้นตอนวิธียังใช้จุดศูนย์กลางของคลัสเตอร์สร้างแบบจำลองข้อมูล อย่างไรก็ตาม การแบ่งกลุ่มข้อมูลแบบเคมีนมีแนวโน้มจะได้คลัสเตอร์ผลลัพธ์ที่มีตำแหน่งขอบเขตใกล้เคียงกัน ในขณะที่ขั้นตอนวิธีหาค่าคาดหมายสูงสุดนั้นยอมให้คลัสเตอร์ผลลัพธ์มีรูปร่างที่แตกต่างกันได้ ขั้นตอนวิธีนี้ไม่มีอะไรเกี่ยวข้องกับวิธีการค้นหาเพื่อนบ้านใกล้สุด (k-nearest neighbor) ซึ่งเป็นเทคนิคการเรียนรู้ของเครื่อง (machine learning) ที่เป็นที่นิยมอีกอย่างหนึ่ง.

10 ความสัมพันธ์: การกล้ำรหัสของพัลส์การทำเหมืองข้อมูล การค้นหาเพื่อนบ้านใกล้สุด การประมวลผลสัญญาณ การแบ่งกลุ่มข้อมูล การแจกแจงปรกติ การเรียนรู้ของเครื่อง ศึกษาสำนึก แผนภาพโวโรนอย NP

การกล้ำรหัสของพัลส์

การกล้ำรหัสของพัลส์ (Pulse Code Modulation) เป็นเทคนิคที่มีการใช้งานในระบบโทรศัพท์พื้นฐานในปัจจุบัน ลักษณะการทำงานของการเข้ารหัสแบบนี้สามารถแบ่งออกได้เป็น 3 ขั้นตอน ได้แก่ การแซมปลิง (sampling) การทำควอนไทซ์ (quantization) และการเข้ารหัสไบนารี (binary encoding) การแซมปลิง สัญญาณเสียงซึ่งอยู่ในรูปของสัญญาณแอนาล็อกจะถูกสุ่มค่าอย่างต่อเนื่องสม่ำเสมอด้วยอัตราคงที่ค่าหนี่ง ซึ่งตามทฤษฎีบทของไนควิสต์ (Nyquist's theorem) แล้วจะต้องทำการสุ่มด้วยอัตราที่มีค่าอย่างน้อยเป็น 2 เท่าของความถี่สูงสุดของสัญญาณเสียงเพื่อหลีกเลี่ยงปัญหา aliasing เนื่องจากสัญญาณ เสียงมีองค์ประกอบความถี่อยู่ระหว่าง 300-3400Hz ฉะนั้นอัตราการสุ่มมาตรฐานที่เลือกใช้กันทั่วไปมีค่าเท่ากับ 8000Hz ให้สังเกตว่าขั้นตอนการแซมปลิง เปรียบเสมือนการแปลงสัญญาณที่มีค่าต่อเนื่องทางเวลาไปเป็นสัญญาณที่มีลักษณะเป็นดิสครีตทางเวลา การทำควาอนไทเซชัน เป็นการนำค่าแอมพลิจูดของสัญญาณที่สุ่มได้ในแต่ละเวลามาแปลงให้เป็นค่าดิสครีต กล่าวคือ จะมีการแบ่งระดับแอมพลีจูดของสัญญาณออกเป็นช่วงเล็ก ๆ ขนาดเท่ากัน โดยช่วงของระดับสัญญาณที่กำหนดขึ้นจะต้องครอบคลุมขนาดแอมพลิจูดของสัญญาณที่เป็นไปได้ทั้งหมด การเข้ารหัสไบนารี ซึ่งมีหน้าที่ในการแทนช่วงระดับการควอนไทซ์ของสัญญาณแต่ละช่วงด้วยชุดบิตไบนารี ทั้งนี้เพื่อแทนค่าของสัญญาณที่มีแอมพลิจูดตกอยู่ภายในช่วงระดับ สัญญาณแต่ละช่วงหรือค่าของสัญญาณที่ผ่านการควอนไทซ์แล้วด้วยชุดตัวเลขไบนารี.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการกล้ำรหัสของพัลส์ · ดูเพิ่มเติม »

การทำเหมืองข้อมูล

การทำเหมืองข้อมูล (data mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูล (Knowledge Discovery in Databases - KDD) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์ ความรู้ที่ได้จากการทำเหมืองข้อมูลมีหลายรูปแบบ ได้แก่; กฎความสัมพันธ์ (Association rule): แสดงความสัมพันธ์ของเหตุการณ์หรือวัตถุ ที่เกิดขึ้นพร้อมกัน ตัวอย่างของการประยุกต์ใช้กฎเชื่อมโยง เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ จุดขาย (POS) หรือร้านค้าออนไลน์ แล้วพิจารณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขาย หรืออาจจะพบว่าหลังจากคนซื้อหนังสือ ก แล้ว มักจะซื้อหนังสือ ข ด้วย ก็สามารถนำความรู้นี้ไปแนะนำผู้ที่กำลังจะซื้อหนังสือ ก ได้; การจำแนกประเภทข้อมูล (Data classification): หากฎเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่าง ๆ กับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจารณาการอนุมัติเงินกู้; การแบ่งกลุ่มข้อมูล (Data clustering): แบ่งข้อมูลที่มีลักษณะคล้ายกันออกเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจารณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน; การสร้างมโนภาพ (Visualization): สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ขัอความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ้อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการทำเหมืองข้อมูล · ดูเพิ่มเติม »

การค้นหาเพื่อนบ้านใกล้สุด

การค้นหาเพื่อนบ้านที่ใกล้ที่สุด (nearest neighbor search) เป็นที่รู้จักในนามอื่น ๆ อาทิ การค้นหาความใกล้ชิด การค้นหาความคล้ายคลึง หรือการค้นหาจุดที่ใกล้ที่สุด เอ็นเอ็นเอส คือ เทคนิคที่ใช้ในการแก้ปัญหาที่ใช้สำหรับหาจุดที่ใกล้ที่สุดในปริภูมิเมทริกซ์ ยกตัวอย่างจากโจทย์ต่อไปนี้ เมื่อให้เซต S คือเซตของจุดในปริภูมิเมทริกซ์ M และ จุดที่กำหนด q ∈ M ต้องการหาจุดที่ใกล้ที่สุดของ S กับ q ในหลายกรณี M นั้นจะถูกแทนค่าเป็นมิติในปริภูมิของยูคลิด และระยะทางนั้นสามารถวัดได้จากระยะทางยูคลิด หรือ ระยะทางแมนฮัตตัน ในหนังสือของ โดนัลด์ คนูธ เล่มที่สามที่มีชื่อว่า The Art of Computer Programming เรียกโจทย์ปัญหาแบบนี้ว่า ปัญหาไปรษณีย์ โดยอ้างอิงถึงระบบการแนะนำผู้อยู่อาศัยเกี่ยวกับไปรษณีย์ที่ใกล้ที.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการค้นหาเพื่อนบ้านใกล้สุด · ดูเพิ่มเติม »

การประมวลผลสัญญาณ

การประมวลผลสัญญาณ หมายถึงการประมวลผล การขยาย และการแปลสัญญาณ รวมทั้งการวิเคราะห์และเปลี่ยนแปลงสัญญาณ.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการประมวลผลสัญญาณ · ดูเพิ่มเติม »

การแบ่งกลุ่มข้อมูล

การแบ่งกลุ่มข้อมูล (data clustering) เป็นวิธีการวิเคราะห์ข้อมูล ซึ่งใช้ในการเรียนรู้ของเครื่อง การทำเหมืองข้อมูล โดยจะแบ่งชุดข้อมูล (มักจะเป็นเวกเตอร์) ออกเป็นกลุ่ม (cluster) นำข้อมูลที่มีคุณลักษณะเหมือนกัน หรือคล้ายกันจัดไว้ในกลุ่มเดียวกัน ขั้นตอนวิธีที่ใช้ในการแบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า โดยใช้การวัดระยะแบบต่าง ๆ เช่น การวัดระยะแบบยูคลิด (Euclidean distance) การวัดระยะแบบแมนฮัตตัน (Manhattan distance) การวัดระยะแบบเชบิเชฟ (Chebychev distance) การแบ่งกลุ่มข้อมูลจะแตกต่างจากการแบ่งประเภทข้อมูล (classification) โดยจะแบ่งกลุ่มข้อมูลจากความคล้าย โดยไม่มีการกำหนดประเภทของข้อมูลไว้ก่อน จึงกล่าวได้ว่าการแบ่งกลุ่มข้อมูล เป็นการเรียนรู้แบบไม่มีผู้สอน ขั้นตอนวิธีการแบ่งกลุ่ม ได้แก่ k-means clustering, hierarchical clustering, self-organizing map (som) การแบ่งกลุ่มข้อมูลอาจใช้เป็นข้อตอนเบื้องต้นของการวิเคราะห์ข้อมูล เพื่อช่วยในการลดขนาดข้อมูล (แยกเป็นหลาย ๆ กลุ่มและคัดเฉพาะบางกลุ่มเพื่อทำการวิเคราะห์ต่อไป หรือแยกการวิเคราะห์ออกเป็นสำหรับแต่ละกลุ่ม) ก่อนที่จะนำไปวิเคราะห์ด้วยวิธีการอื่นต่อไป ขั้นตอนวิธีในการแบ่งกลุ่มข้อมูล โดยทั่วไปแบ่งได้เป็น 2 ประเภทใหญ่ๆ คือ การแบ่งแบบเป็นลำดับขั้น (hierarchical) และ การแบ่งแบบตัดเป็นส่วน (partitional) การแบ่งแบบเป็นลำดับขั้นนั้น จะมีทำการแบ่งกลุ่มจากกลุ่มย่อยที่ถูกแบ่งไว้ก่อนหน้านั้นซ้ำหลายครั้ง ส่วนการแบ่งแบบตัดเป็นส่วนนั้น การแบ่งจะทำเพียงครั้งเดียว การแบ่งแบบเป็นลำดับขั้น จะมี 2 ลักษณะคือ แบบล่างขึ้นบน (bottom-up) หรือ เป็นการแบ่งแบบรวมกลุ่มจากกลุ่มย่อยให้ใหญ่ขึ้นไปเรื่อยๆ โดยเริ่มจากกลุ่มเล็กสุดคือในแต่ละกลุ่มมีข้อมูลเพียงตัวเดียว และ แบบบนลงล่าง (top-down) หรือ เป็นการแบ่งแบบกลุ่มจากกลุ่มใหญ่ให้ย่อยไปเรื่อยๆ โดยเริ่มจากกลุ่มใหญ่ที่สุด คือกลุ่มเดียวมีข้อมูลทุกตัวอยู่ในกลุ่ม หมวดหมู่:การเรียนรู้ของเครื่อง หมวดหมู่:การค้นหาความรู้ในฐานข้อมูล.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการแบ่งกลุ่มข้อมูล · ดูเพิ่มเติม »

การแจกแจงปรกติ

ำหรับทฤษฎีความน่าจะเป็น การแจกแจงปรกติ (normal distribution) เป็นการแจกแจงความน่าจะเป็นของค่าของตัวแปรสุ่มที่เป็นค่าแบบต่อเนื่อง โดยที่ค่าของตัวแปรสุ่มมีแนวโน้มที่จะมีค่าอยู่ใกล้ ๆ กับค่า ๆ หนึ่ง (เรียกว่าค่ามัชฌิม) กราฟแสดงค่าฟังก์ชันความหนาแน่น (probability density function) จะเป็นรูปคล้ายระฆังคว่ำ หรือเรียกว่า Gaussian function โดยค่าฟังก์ชันความหนาแน่นของการแจกแจงปรกติ ได้แก่ โดย "x" แทนตัวแปรสุ่ม พารามิเตอร์ μ แสดงค่ามัชฌิม และ σ 2 คือค่าความแปรปรวน (variance) ซึ่งเป็นค่าที่ใช้บอกปริมาณการกระจายของการแจกแจง การแจกแจงปรกติที่มีค่า และ จะถูกเรียกว่า การแจกแจงปรกติมาตรฐาน การแจกแจงปรกติเป็นการแจกแจงที่เด่นที่สุดในทางวิชาความน่าจะเป็นและสถิติศาสตร์ ซึ่งก็มาจากหลาย ๆ เหตุผล ซึ่งก็รวมถึงผลจากทฤษฎีบทขีดจํากัดกลาง (central limit theorem) ที่กล่าวว่า ภายใต้สภาพทั่ว ๆ ไปแล้ว ค่าเฉลี่ยจากการสุ่มค่าของตัวแปรสุ่มอิสระจากการแจกแจงใด ๆ (ที่มีค่าเฉลี่ยและค่าความแปรปรวนจำกัด) ถ้าจำนวนการสุ่มนั้นใหญ่พอ แล้วค่าเฉลี่ยนั้นจะมีการแจกแจงประมาณได้เป็นการแจกแจงปรกต.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการแจกแจงปรกติ · ดูเพิ่มเติม »

การเรียนรู้ของเครื่อง

การเรียนรู้ของเครื่อง (machine learning) เป็นสาขาหนึ่งของปัญญาประดิษฐ์ที่พัฒนามาจากการศึกษาการรู้จำแบบ เกี่ยวข้องกับการศึกษาและการสร้างอัลกอริทึมที่สามารถเรียนรู้ข้อมูลและทำนายข้อมูลได้ อัลกอริทึมนั้นจะทำงานโดยอาศัยโมเดลที่สร้างมาจากชุดข้อมูลตัวอย่างขาเข้าเพื่อการทำนายหรือตัดสินใจในภายหลัง แทนที่จะทำงานตามลำดับของคำสั่งโปรแกรมคอมพิวเตอร์ การเรียนรู้ของเครื่องมีเกี่ยวข้องอย่างมากกับสถิติศาสตร์ เนื่องจากทั้งสองสาขาศึกษาการวิเคราะห์ข้อมูลเพื่อการทำนายเช่นกัน นอกจากนี้ยังมีความสัมพันธ์กับสาขาการหาค่าเหมาะที่สุดในทางคณิตศาสตร์ที่แงของวิธีการ ทฤษฎี และการประยุกต์ใช้ การเรียนรู้ของเครื่องสามารถนำไปประยุกต์ใช้งานได้หลากหมาย ไม่ว่าจะเป็นการกรองอีเมล์ขยะ การรู้จำตัวอักษร เครื่องมือค้นหา และคอมพิวเตอร์วิทัศน.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและการเรียนรู้ของเครื่อง · ดูเพิ่มเติม »

ศึกษาสำนึก

ปกติการออกแบบหรือค้นหาขั้นตอนวิธี หรือขั้นตอนวิธี ที่ดีเพื่อการหาผลลัพธ์หรือแก้ปัญหาด้วยคอมพิวเตอร์นั้นมีเป้าหมายพื้นฐานอยู่ 2 ประการ คือ.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและศึกษาสำนึก · ดูเพิ่มเติม »

แผนภาพโวโรนอย

แผนภาพโวโรนอย (Voronoi diagram) เป็นหนึ่งในโครงสร้างที่สำคัญที่ใช้ในการคำนวณเชิงเรขาคณิต โดยแผนภาพนี้ใช้ทำการบันทึกข้อมูลว่าอะไรอยู่ใกล้กับอะไร.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและแผนภาพโวโรนอย · ดูเพิ่มเติม »

NP

อ็นพี NP หรือ Np เป็นอักษรย่อภาษาอังกฤษ สามารถหมายถึง.

ใหม่!!: การแบ่งกลุ่มข้อมูลแบบเคมีนและNP · ดูเพิ่มเติม »

เปลี่ยนเส้นทางที่นี่:

K-means clustering

ยูเนี่ยนพีเดียเป็นแผนที่แนวคิดหรือเครือข่ายความหมายจัดเป็นสารานุกรม - dictionary มันให้คำนิยามสั้น ๆ ของแต่ละแนวคิดและความสัมพันธ์ของมัน

นี่เป็นแผนที่ออนไลน์แบบยักษ์ซึ่งทำหน้าที่เป็นพื้นฐานสำหรับแผนผังแนวคิด สามารถใช้งานได้ฟรีและสามารถอ่านบทความหรือเอกสารแต่ละฉบับได้ เป็นเครื่องมือทรัพยากรหรือข้อมูลอ้างอิงสำหรับการศึกษาการวิจัยการศึกษาการเรียนการสอนหรือการสอนซึ่งครูหรือนักการศึกษานักเรียนหรือนักศึกษาสามารถนำมาใช้ได้ สำหรับโลกการศึกษา: สำหรับโรงเรียนระดับประถมศึกษามัธยมศึกษาตอนปลายระดับกลางระดับกลางระดับปริญญาตรีวิทยาลัยมหาวิทยาลัยระดับปริญญาตรีปริญญาโทปริญญาเอกหรือปริญญาเอก สำหรับเอกสารรายงานโครงการความคิดเอกสารการสำรวจผลสรุปหรือวิทยานิพนธ์ ต่อไปนี้เป็นคำจำกัดความคำอธิบายรายละเอียดหรือความหมายของข้อมูลสำคัญที่คุณต้องการข้อมูลและรายการแนวคิดที่เกี่ยวข้องของพวกเขาเป็นอภิธานศัพท์ มีอยู่ในไทย, ภาษาอังกฤษ, ภาษาสเปน, ภาษาโปรตุเกส, ญี่ปุ่น, ชาวจีน, ภาษาฝรั่งเศส, ภาษาเยอรมัน, อิตาลี, ขัด, ดัตช์, ภาษารัสเซีย, ภาษาอาหรับ, ฮินดู, สวีเดน, ยูเครน, ฮังการี, คาตาลัน, ภาษาเช็ก, ฮีบรู, เดนมาร์ก, ภาษาฟินแลนด์, ชาวอินโดนีเซีย, ภาษานอร์เวย์, โรมาเนีย, ตุรกี, ภาษาเวียดนาม, เกาหลี, กรีก, ภาษาบัลแกเรีย, โครเอเชีย, ภาษาสโลวัก, ภาษาลิทัวเนีย, ฟิลิปปินส์, ภาษาลัตเวีย, ภาษาเอสโตเนีย และ ภาษาสโลวีเนีย ภาษาอื่น ๆ เร็ว ๆ นี้

ข้อมูลทั้งหมดถูกดึงออกจาก วิกิพีเดีย และมีให้บริการภายใต้ใบอนุญาต สัญญาอนุญาตครีเอทีฟคอมมอนส์ แบบแสดงที่มา-อนุญาตแบบเดียวกัน

ยูเนี่ยนพีเดีย ไม่ได้รับการรับรองโดยหรือร่วมกับมูลนิธิวิกิมีเดีย

Google Play Android และโลโก้ของ Google Play เป็นเครื่องหมายการค้าของ Google Inc.

นโยบายความเป็นส่วนตัว