ไฟล์เอนโทรปีคืออะไร

ไฟล์เอนโทรปีคืออะไร
ไฟล์เอนโทรปีคืออะไร

วีดีโอ: ไฟล์เอนโทรปีคืออะไร

วีดีโอ: ไฟล์เอนโทรปีคืออะไร
วีดีโอ: A Brief History Of Energy and Entropy (Thai) EP 1: ประวัติย่อของพลังงานและเอ็นโทรปี ตอนที่ 1 2024, เมษายน
Anonim

ไฟล์คอมพิวเตอร์ใด ๆ ประกอบด้วยไบต์ ไบต์สามารถรับค่าได้ตั้งแต่ 0 ถึง 255 ข้อมูลเอนโทรปีเป็นพารามิเตอร์ทางสถิติที่แสดงความน่าจะเป็นของการเกิดบางไบต์ในไฟล์

ไฟล์เอนโทรปีคืออะไร
ไฟล์เอนโทรปีคืออะไร

คุณสามารถประเมินระดับของเอนโทรปีด้วยสายตาได้โดยใช้ฮิสโตแกรม - การกระจายของความน่าจะเป็นที่จะทำซ้ำไบต์เดียวกันในไฟล์ จากเอนโทรปีของไฟล์ เราสามารถเดาได้ว่าไฟล์ประเภทใดอยู่ตรงหน้าเรา โดยเห็นเพียงฮิสโตแกรมเท่านั้น

สำหรับการสาธิต ให้นำไฟล์สามประเภทที่แตกต่างกันมาเปรียบเทียบฮิสโตแกรม ให้ไฟล์แรกเป็นไฟล์ข้อความ (*. TXT) ฮิสโตแกรมของมันแสดงในรูป:

гистограмма=
гистограмма=

ไฟล์ข้อความมีเฉพาะข้อความ อักขระแต่ละตัวของข้อความถูกเข้ารหัสด้วยไบต์ที่แน่นอนตามตารางการเข้ารหัส แม้ว่าจะมีประเภทการเข้ารหัสจำนวนมาก แต่ก็เห็นได้ชัดว่ามีอักขระที่เป็นตัวอักษรและตัวเลขคละกันในจำนวนจำกัด ซึ่งโดยปกติแล้วจะน้อยกว่า 255 ดังนั้น ฮิสโตแกรมแรกจะใช้เฉพาะบางพื้นที่เท่านั้น และบางไบต์ก็ไม่มีเลย

ไฟล์ต่อไปนี้จะอยู่ในรูปแบบ PDF:

гистограмма=
гистограмма=

ไฟล์นี้มีไบต์ที่เป็นไปได้ทั้งหมด เนื่องจาก PDF ถูกเข้ารหัสแตกต่างจากไฟล์ข้อความ มันเก็บข้อมูลการบริการมากมาย: การจัดรูปแบบ ฟอนต์ รูปภาพ ฯลฯ แต่ฮิสโตแกรมของมันแสดงให้เห็นว่าบางไบต์เกิดขึ้นด้วยความน่าจะเป็นที่เท่ากันโดยประมาณ ในขณะที่บางไบต์ - บ่อยกว่าอย่างอื่น ดังนั้นการระเบิดที่คมชัดหลายครั้งบนฮิสโตแกรม และโดยทั่วไปแล้วจะมีรูปลักษณ์ที่ค่อนข้าง "ขาดๆ หายๆ" แม้ว่าจะกินพื้นที่ความกว้างทั้งหมดที่มีอยู่

และไฟล์สุดท้ายถูกบีบอัดในรูปแบบ 7Z:

гистограмма=
гистограмма=

ฮิสโตแกรมนี้มีคุณสมบัติหลักสองประการ: ประการแรก พบไบต์ทั้งหมดในไฟล์ซิปที่มีความน่าจะเป็นเท่ากันไม่มากก็น้อย (ขอบบนที่ค่อนข้างแบน) และประการที่สอง แทบไม่มีที่ว่างเหนือฮิสโตแกรม ซึ่งบ่งชี้ว่าขาดหายไปเกือบทั้งหมด ของความซ้ำซ้อนของไฟล์ดังกล่าว ดังนั้นเราจึงสรุปได้ว่าอัลกอริธึมของผู้จัดเก็บด้วยวิธีพิเศษ "ผสม" ไบต์ของไฟล์เพื่อให้ได้การกระจายที่สม่ำเสมอสูงสุด

ดังนั้น เอนโทรปีในวิทยาการคอมพิวเตอร์ เช่นเดียวกับในฟิสิกส์ เป็นตัววัดความผิดปกติในระบบ ในกรณีนี้ ความผิดปกติในการกระจายไบต์ในไฟล์ เอนโทรปีช่วยให้คุณสามารถตัดสินระดับการบีบอัดของไฟล์และ - ทางอ้อม - เกี่ยวกับประเภทของไฟล์