Jackiewiczowie

Obecnie niedrogie serwery z wieloma procesorami, czy rdzeniami, są czymś powszechnym. Jednak standardowe programy do kompresji i dekompresji są nadal jednowątkowe, chociaż dostępne są też programy pakujące potrafiące wykorzystać wieloprocesorowość. Dlatego przeprowadziliśmy testy w tym zakresie. Analizując uzyskane dane można wybrać odpowiedni kompresor, w zależności od typu przetwarzanych danych, wymaganego stopnia kompresji, czy też szybkości działania. W ten sposób mamy dane pozwalające wybrać, do prowadzonych projektów najbardziej, adekwatny program.

Do testów wybrałem serwer Intel XEON E5-2699V3 @ 2,3GHz (turbo: 3,6 GHz), 22 nm 18 rdzeni, 36 wątków, 45 MB SmartCache wraz ze 120 GB RAM. Ponieważ pracuję na na maszynie wirtualnej dostępne do testów będzie 16 rdzeni, a dzięki technologii Hyper-Threading system operacyjny będzie widział 32 rdzenie. Serwer w tej konfiguracji wybrałem z powodu tego, że potrzeba zastąpienia standardowych kompresorów zazwyczaj wystąpi przy przetwarzaniu dużych ilości danych, a taki stan łącze ze średnimi i dużymi systemami informatycznymi.

Do testów wybrałem najbardziej popularne programu, a przez to najbardziej sprawdzone. Oprócz programów obecnych w minimalnych dystrybucjach, jak: tar, gzip, bzip2 testom poddaliśmy doinstalowane programy: pigz, lbzip2, pbzip2, squashfs. Należy dokładnie zapoznać się z instrukcjami od poszczególnych programów decyzją o ich użyciu. Czasami np. dekompresja wykorzystuje tylko ograniczoną liczbę rdzeni.

Do testów przygotowaliśmy cztery zestawy danych:
1) Wygenerowane pliki logów. Cztery pliki o rozmiarze 1 GB (po 20 milionów inni w każdym z plików), oraz dwa pliki 100 MB (po 2 miliony inni w każdym z plików). Łącznie 2,3 GB danych zawierających 84 miliony linii. Dane w likach zawierają wiele wspólnych elementów, jak to zazwyczaj w logach, i powinny podlegać znacznej kompresji.
2) 2,3 GB skompresowanych danych w 16 plikach. Do tego testu przygotowaliśmy celowo 16 identycznych plików, by pokazać ciekawą funkcjonalność jednego z użytych programów. Ten test polega na tym, by wykazać zachowanie się programów kompresujących, gdy dane są już mocno spakowane - dlatego filmy są idealne do takiego testu.
3) Kolejny test obejmuje strukturę 107 650 katalogów zawierającymi 380 607 plików. Trzykrotnie rozpakowałem kolekcję FreeBSD Ports (ftp://ftp.freebsd.org/pub/FreeBSD/ports/ports/ports.tar.gz). Tym sposobem można sprawdzić zachowanie się programów przy dużych ilościach plików i katalogów, gdyż nie zawsze obsługa systemu plików jest ich najmocniejszą stroną.
4) Test ostatni polegać będzie na kompresowaniu jednego dużego pliku. Symuluję tutaj kompresowanie dump'a z bazy danych. Zazwyczaj dump'y z bazy danych kompresują się podobnie, jak pliki tekstowe, w stosunku od 1:10 do 1:20. Kompresowanie pojedynczego pliku pozwala sprawdzić zachowanie sie kompresorów wieloprocesorowych w takiej sytuacji. Użyty plik jest prawdziwym dump'em bazy, a jego rozmiar jest kompromisem, pomiędzy zrzutem z dużej bazy, a czasem wykonania testów.

Przygotowane dane do testów:

Poniżej zamieszczam screenshot'y z testów.
Dają istotne informacje o wykorzystaniu zasobów przez różne programy w czasie pracy - zarówno dla wielu plików, jak i dla pojedynczego pliku.

Wykorzystanie procesorów przez jednowątkowy program kompresujący bzip2:

Kompresowanie programem lbzip2:

Kompresowanie programem pbzip2:

Spakowane trzy typy danych, oprócz testu pliku dump.sql, z podziałem na programy kompresujące:

Kompresowanie programem squashfs wielu małych plików:

Kompresowanie programem squashfs dużego pojedynczego pliku:

System dysków nie był ograniczeniem dla tych testów:

Rozpakowanie programem pigz:

Rozpakowanie programem lbzip2:

Rozpakowanie programem squashfs wielu małych plików:

Rozpakowanie programem squashfs pojedynczego pliku:

Dane z testów:

* Compress *
Katalog: log	Rozmiar (kB)	Czas (s)	Czas (s)	Czas (s)
for i in {1..3}; do time mksquashfs log/ "$i"log.sq ; done	117 312	15,413	14,978	15,314
for i in {1..3}; do time tar --use-compress-program=lbzip2 -cf "$i"log.lbzip2 log/; done	180 927	4,826	4,842	4,911
for i in {1..3}; do time tar -cjf "$i"log.tar.gz2 log/; done	181 439	423,130	421,484	423,268
for i in {1..3}; do time tar --use-compress-program=pbzip2 -cf "$i"log.pbzip2 log/; done	181 662	16,600	15,987	16,376
for i in {1..3}; do tar -czf $1log.tar.gz log/; done	282 866	62,911	62,521	61,621
for i in {1..3}; do time tar --use-compress-program=pigz -cf "$i"log.tar.pigz log/; done	283 175	2,575	2,738	2,856
for i in {1..3}; do time tar -cf "$i"log.tar log/; done	2 289 000	1,926	1,925	1,911

Katalog: movie	Rozmiar (kB)	Czas (s)	Czas (s)	Czas (s)
for i in {1..3}; do time tar -cf "$i"movie.tar movie/; done	2 337 000	1,949	1,967	1,949
for i in {1..3}; do time tar --use-compress-program=pigz -cf "$i"movie.tar.pigz movie/; done	2 335 000	3,698	3,682	3,557
for i in {1..3}; do time tar --use-compress-program=lbzip2 -cf "$i"movie.lbzip2 movie/; done	2 344 000	11,177	11,220	11,180
for i in {1..3}; do time mksquashfs movie/ "$i"movie.sq ; done	149	14,795	14,622	14,516
for i in {1..3}; do time tar --use-compress-program=pbzip2 -cf "$i"movie.pbzip2 movie/; done	2 344 000	15,924	16,125	16,900
for i in {1..3}; do time tar -czf "$i"movie.tar.gz movie/; done	2 334 000	90,480	91,467	90,887
for i in {1..3}; do time tar -cjf "$i"movie.tar.gz2 movie/; done	2 344 000	394,723	394,035	394,080

Katalog: ports	Rozmiar (kB)	Czas (s)	Czas (s)	Czas (s)
for i in {1..3}; do time tar --use-compress-program=pigz -cf "$i"ports.tar.pigz ports/; done	156 749	3,494	3,422	3,499
for i in {1..3}; do time tar --use-compress-program=lbzip2 -cf "$i"ports.lbzip2 ports/; done	123 992	3,668	3,734	3,437
for i in {1..3}; do time tar -cf "$i"ports.tar ports/; done	1 077 000	3,822	3,447	3,471
for i in {1..3}; do time tar --use-compress-program=pbzip2 -cf "$i"ports.pbzip2 ports/; done	124 074	4,066	4,479	4,180
for i in {1..3}; do time mksquashfs ports/ "$i"ports.sq ; done	52 476	12,768	12,141	12,398
for i in {1..3}; do time tar -czf "$i"ports.tar.gz ports/; done	157 121	26,859	25,234	25,244
for i in {1..3}; do time tar -cjf "$i"ports.tar.gz2 ports/; done	121 771	92,581	92,070	92,169

Przed niektórymi poleceniami dałem komendy kasujące poprzednie archiwa, gdyż niektóre programy były na to "czułe".

Warto zwrócić uwagę na rozmiar archiwum katalogu "movie", gdy kompresorem był squashfs - przypomnę, że do tego testu przygotowaliśmy 16 kopii tego samego pliku. Jak widać program squashfs skorzystał z tego skwapliwie, podobnie jak potrafią to robić nowoczesne systemy plików (jak np.: ZFS).

* Decompres *
Katalog: log	Rozmiar (kB)	Czas (s)	Czas (s)	Czas (s)
for i in {1..3}; do rm *.txt ; time unsquashfs -f -d . "$i"log.sq ; done	---	1,903	1,747	1,924
for i in {1..3}; do time tar -xf "$i"log.tar ; done	---	2,022	2,375	2,542
for i in {1..3}; do time tar --use-compress-program=pbzip2 -xf "$i"log.pbzip2 ; done	---	3,762	4,168	4,751
for i in {1..3}; do time tar --use-compress-program=lbzip2 -xf "$i"log.lbzip2 ; done	---	3,844	3,738	4,302
for i in {1..3}; do time tar --use-compress-program=pigz -xf "$i"log.tar.pigz ; done	---	4,703	5,896	5,416
for i in {1..3}; do time tar -xzf "$i"log.tar.gz ; done	---	14,965	14,485	14,353
for i in {1..3}; do time tar -xjf "$i"log.tar.gz2 ; done	---	71,027	71,135	71,540

Katalog: movie	Rozmiar (kB)	Czas (s)	Czas (s)	Czas (s)
for i in {1..3}; do rm *.mp4 ; time unsquashfs -f -d . "$i"movie.sq ; done	---	1,739	1,693	1,691
for i in {1..3}; do time tar -xf "$i"movie.tar ; done	---	2,061	2,447	3,211
for i in {1..3}; do time tar --use-compress-program=lbzip2 -xf "$i"movie.lbzip2 ; done	---	6,303	6,122	6,137
for i in {1..3}; do time tar --use-compress-program=pigz -xf "$i"movie.tar.pigz ; done	---	6,711	7,104	6,487
for i in {1..3}; do time tar --use-compress-program=pbzip2 -xf "$i"movie.pbzip2 ; done	---	7,084	7,157	7,251
for i in {1..3}; do time tar -xzf "$i"movie.tar.gz ; done	---	17,350	17,447	17,518
for i in {1..3}; do time tar -xjf "$i"movie.tar.gz2 ; done	---	197,856	197,948	199,170

Katalog: ports	Rozmiar (kB)	Czas (s)	Czas (s)	Czas (s)
for i in {1..3}; do rm -r ports ; time tar --use-compress-program=pbzip2 -xf "$i"ports.pbzip2 ; done	---	21,850	24,229	25,791
for i in {1..3}; do rm -r ports-0? ; sync ;time unsquashfs -f -d . "$i"ports.sq ; done	---	22,526	23,980	22,605
for i in {1..3}; do rm -r ports ; time tar -xf "$i"ports.tar ; done	---	25,382	25,485	26,900
for i in {1..3}; do rm -r ports ; time tar --use-compress-program=lbzip2 -xf "$i"ports.lbzip2 ; done	---	25,940	24,944	26,902
for i in {1..3}; do rm -r ports ; time tar --use-compress-program=pigz -xf "$i"ports.tar.pigz ; done	---	27,695	29,627	24,790
for i in {1..3}; do rm -r ports ; time tar -xzf "$i"ports.tar.gz ; done	---	33,678	32,630	30,443
for i in {1..3}; do rm -r ports ; time tar -xjf "$i"ports.tar.gz2 ; done	---	52,315	53,887	54,021

* SQL compress *	Rozmiar (MB)	Czas (s)	Czas (s)	Czas (s)
for i in {1..3}; do time tar -cf "$i"sql.tar sql/; done	10 140	8,864	9,045	10,354
for i in {1..3}; do time tar --use-compress-program=pigz -cf "$i"sql.tar.pigz sql/; done	1 529	13,227	13,382	13,109
for i in {1..3}; do time tar --use-compress-program=lbzip2 -cf "$i"sql.lbzip2 sql/; done	1 146	22,387	21,839	22,362
for i in {1..3}; do time mksquashfs sql/ "$i"sql.sq ; done	1 467	33,979	34,232	33,757
for i in {1..3}; do time tar --use-compress-program=pbzip2 -cf "$i"sql.pbzip2 sql/; done	1 150	62,993	63,208	64,049
for i in {1..3}; do time tar -czf "$i"sql.tar.gz sql/; done	1 532	298,638	294,853	293,020
for i in {1..3}; do time tar -cjf "$i"sql.tar.gz2 sql/; done	1 149	1665,205	1662,265	1663,702

* SQL decompres *	Rozmiar (MB)	Czas (s)	Czas (s)	Czas (s)
for i in {1..3}; do rm -r sqldump.sql ; sync ; time unsquashfs -f -d . "$i"sql.sq ; done	---	7,51	7,547	7,549
for i in {1..3}; do time tar -xf "$i"sql.tar ; done	---	9,312	10,817	10,924
for i in {1..3}; do rm -r sql/ ; time tar --use-compress-program=pbzip2 -xf "$i"sql.pbzip2 ; done	---	12,228	12,338	12,383
for i in {1..3}; do rm -r sql/ ; time tar --use-compress-program=lbzip2 -xf "$i"sql.lbzip2 ; done	---	12,921	12,969	12,871
for i in {1..3}; do rm -r sql/ ; time tar --use-compress-program=pigz -xf "$i"sql.tar.pigz ; done	---	27,580	27,962	28,936
for i in {1..3}; do time tar -xzf "$i"sql.tar.gz ; done	---	74,247	76,322	79,398
for i in {1..3}; do time tar -xjf "$i"sql.tar.gz2 ; done	---	273,099	272,989	272,595

Programy kompresujące:

Program gzip wykorzystuje algorytm kompresji znany jako "DEFLATE" - stosowany np.: w PNG, HTTP, SSH. Jego największa zaletą jest szybkość i niskie zużycie zasobów (choć wymaga czasami więcej pamięci).

Kompresor bzip2 powstał w 1996 r. Jego szczególną cecha jest wysoki stopień kompresji i powolne działania. Zaimplementowano w nie algorytmu Burrows-Wheeler, który jest dużo bardziej skomplikowany niż "DEFLATE" z gzip'a, ale nie wymaga więcej pamięci.

SquashFS w tym teście znalazł się, ponieważ ma bardzo dobre "osiągi". Nie jest to typowy program kompresujący i nie wszędzie znajdzie zastosowanie. Jest to skompresowany system plików (zamontowany jako system plików jest tylko do odczytu). Do kompresji używa programu gzip, ale potrafi też użyć: lzma, lzo, xz. Wykorzystany jest dystrybucje live CD, np.: Backtrack, Debian, Knoppix, OpenWrt. Przykłady użycia:

mksquashfs /some/dir dir.sqsh

mount dir.sqsh /mnt/dir -t squashfs -o loop

/etc/fstab:

/var/arch.sqsh  /var/arch   squashfs    ro,defaults 0 0

Przełączniki dla tar'a:

gzip:
tar czvf misc.tar.gz misc/

bzip2:
tar cjvf misc.tar.bz2 misc/

xz:
tar cJvf misc.tar.xz misc/

********

Więcej informacji:
Informatyka, FreeBSD, Debian

***

Inne wpisy:

LED FILAMENT

Oświetlenie miejsca pracy
Oświetlenie LED łazienki (małej)
Zużycie prądu przez suszarkę do ubrań i pralkę
Zużycie prądu przez urządzenia domowe i ich współczynnik mocy cos phi (cosφ)
Modernizacja oświetlenia głównego w dużym pokoju i przedpokoju

Bezprzewodowy licznik energii elektrycznej OWL -rozpakowanie (unboxing)

Zabezpieczenie przeciwprzepięciowe - wstęp.

Centrum Zarządzania Światem - zasilanie

Filtry sieci energetycznej

Separator galwaniczny dla TV, radia i Internetu w sieci TV kablowej

Modernizacja oświetlenia głównego w dużym pokoju i przedpokoju

Pulsowanie (migotanie) różnych źródeł światła: świetlówki kompaktowe (CFL), żarówki, l ampy LED, itp.

Nowe, inteligentne liczniki energii elektrycznej

Spadek napięcia w zależności od długości przewodu (przedłużacza)

Oznaczenia wyłączników różnicowoprądowych (RCD), oraz jaki wyłącznik zastosować do obwodów zasilających komputery

Jak zmierzyć prąd upływu (Leakage Current Test)

Pomiar impedancji pętli zwarcia metodą spadku napięcia (metodą techniczną)

Update: 2018.07.17
Create: 2018.07.17

Wieloprocesorowe programy do pakowania plików - serwery Ux

Dane z testów: