Monitorowanie statusu SMART
Obsługę SMART-u oferuje praktycznie każdy program do diagnostyki i obsługi dysków twardych. Często tę informację można odczytać także przy pomocy programów do odzyskiwania danych. Zazwyczaj jest ona wyświetlana w postaci tabeli przedstawiającej kody poszczególnych parametrów, krótkie opisy ich znaczenia, odpowiadające tym parametrom wartości znormalizowane, arbitralnie ustawione przez autorów programów progi, przy jakich dany parametr powinien nas zaniepokoić oraz surowe wartości (RAW) tych parametrów.
Często możemy spotkać się z elementami ułatwiającymi interpretację parametrów SMART, najczęściej w postaci kolorowego oznaczenia ogólnego stanu dysku (zielony – dobry, żółty – ostrzeżenie i czerwony – zły). Wiele programów dodatkowo oznacza podejrzane parametry, wpływające na obniżenie ogólnej oceny dysku.
Jednak trzeba pamiętać, że ta ocena jest także wypadkową arbitralnych założeń przyjętych przez autorów programów. Dlatego ten sam dysk sprawdzany różnymi programami w oparciu o te same parametry czasem może się przedstawiać, jako w pełni sprawny, a czasem sygnalizować problemy.
Status SMART może też być sprawdzany przez BIOS komputera przy uruchomieniu. Kiedyś ta funkcja występowała głównie w bardziej klasowych urządzeniach, współcześnie jest już dość powszechna. SMART jest też sprawdzany przez wiele systemów operacyjnych, jakie potrafią wystawić komunikat o konieczności zabezpieczenia danych i wymiany dysku. Są też specjalne programy przeznaczone do bieżącego monitorowania parametrów SMART-u – np. SMART Vision.
Zasada działania podsystemu SMART
Technologia SMART rejestruje szereg różnych parametrów związanych z eksploatacją dysku. Niektóre z nich mają charakter czysto informacyjny – np. informacja o przepracowanym przez dysk czasie lub liczbie uruchomień. Inne z tych parametrów mają istotne znaczenie diagnostyczne – np. liczba niestabilnych i realokowanych sektorów, czy operacji realokacji. Na te parametry warto zwracać baczniejszą uwagę.
Są też parametry bardziej pośrednio związane ze stanem dysku, a także z warunkami jego pracy. Np. liczba błędów transmisji UDMA może wskazywać na problemy z kablem sygnałowym łączącym dysk z płytą główną. Z kolei zbyt wysoka temperatura pracy często wskazuje na niestabilne zasilanie lub mechaniczne problemy dysku. Może też być związana ze zbyt wysoką temperaturą środowiska pracy, np. źle rozwiązanym obiegiem powietrza wewnątrz komputera.
Część parametrów SMART jest obowiązkowa i muszą one być implementowane w sposób określony w dokumentacji, ale większość szczegółów jest pozostawiona uznaniu producentów. Dlatego w praktyce nie spotkamy dysku rejestrującego wszystkie możliwe parametry. Poza tym dyski różnią się sposobem logowania zdarzeń i może się zdarzyć, że jakiś parametr przewidziany jako istotny, w konkretnym przypadku będzie bezwartościowy.
Tak jest np. w przypadku parametru „częstotliwość błędów odczytu”, gdzie dyski Seagate mogą osiągać bardzo wysokie wartości, choć w rzeczywistości często nic złego się z nimi nie dzieje.
W niektórych przypadkach dokładnie ten sam parametr może występować pod różnymi kodami i w różnych modelach dysków możemy go spotkać pod różnymi oznaczeniami. Tak jest np. w przypadku liczby wstrząsów rejestrowanych przez czujnik wstrząsów, jaka może być prezentowana jako 0xBF lub 0xDD. Jest to parametr rejestrujący wybicia głowic z ich trajektorii, zgubienie ścieżki itp.
Zwykle zdarzenia te nie mają istotnego wpływu na stan dysku. Wstrząsu krytycznego dla działania dysku SMART zazwyczaj nie jest w stanie zarejestrować, gdyż uszkodzenie głowic uniemożliwia zapisanie tego zdarzenia w strefie serwisowej.
Jak wykorzystać SMART w diagnostyce dysku?
Musimy pamiętać, że SMART jest bardzo pobieżnym i niedokładnym narzędziem diagnostycznym. Z dyskiem bardzo często mogą się dziać różne rzeczy, jakie w żaden sposób nie zostaną przez SMART zarejestrowane. Częstą niespodzianką może być degradacja końcowych obszarów dysku w adresacji LBA (o sposobie przypisywania numerów LBA adresom fizycznym przeczytasz w Security Magazine 1(22)/2024).
Obszar ten znajduje się w pobliżu silnika, gdzie jest narażony na wyższe temperatury oraz wpływ indukcji elektromagnetycznej wywoływanej przez prąd przepływający przez uzwojenia silnika. Może to prowadzić do degradacji powierzchni magnetycznej, zwłaszcza, jeśli dysk jest zasilany przez niskiej klasy, niestabilny zasilacz.
Jest to też obszar potencjalnie narażony na zanieczyszczenia związane z mechanicznym zużywaniem się silnika, ale dopóki nie umieścimy w tym obszarze danych, SMART może nie wiedzieć o jego postępującej degradacji.
Z tego względu nie możemy SMART-u uważać za substytut pełnej diagnostyki, obejmującej także skan powierzchni. Jeśli status SMART-u jest zły lub pojawiają się ostrzegawcze wskazania poszczególnych parametrów, możemy być praktycznie pewni, że z dyskiem dzieje się coś złego, ale dobry status na pewno nie jest gwarancją faktycznego dobrego stanu dysku. W szczególności dotyczy to starszych modeli dysków zakupionych jako nowe, leżaki magazynowe.
Ponieważ logi SMART-u są zapisywane w strefie serwisowej, nie jest dużym problemem ich wyczyszczenie, a przy pewnej wiedzy i trochę większym wysiłku – także niemal dowolna manipulacja ich treścią. Z tego względu nieuczciwi sprzedawcy często kasują SMART (dla hurtowych odbiorców cena takiej usługi, to kilka zł/szt.), by, po zapakowaniu dysku w „fabryczną” folię ESD, sprzedawać je jako nowe.
Jeśli te dyski wykazują jakieś usterki, SMART ich nie wykaże od razu, ale może je ujawnić dokładniejsza diagnostyka. Lub mogą się ujawnić same po krótkim czasie używania, ale czekanie na to jest już obarczone ryzykiem utraty danych. Kasowanie logów SMART jest także standardowym elementem procedur naprawczych producentów dysków, stąd niespecjalnie powinny nas dziwić napisy „Refurbished” lub „Certified repaired” na etykietach takich rzekomo nowych dysków kupionych na portalach aukcyjnych.
Samo „statyczne” spojrzenie na SMART daje nam jedynie częściową informację o aktualnym stanie dysku. Musimy zwłaszcza pamiętać o tym, że wyniki pewnych parametrów wypracowane w przeszłości są cały czas zachowywane i bez ich porównania w jakimś interwale czasu, nie można ocenić, czy są stabilne, czy nadal się pogarszają.
Może to dotyczyć np. wspomnianej już wyżej liczby błędów komunikacji UDMA, jaka zwykle przestaje przyrastać po wymianie kabla sygnałowego lub liczby sektorów niestabilnych, po wyeliminowaniu przyczyny błędnego namagnesowania sektorów w postaci niestabilnie pracującego zasilacza.
Dlatego, jeśli tylko mamy taką możliwość, warto porównywać aktualne wartości parametrów SMART-u z historycznymi. Zazwyczaj będzie to dotyczyło naszych własnych dysków lub dysków w firmach, jakie obsługujemy i w przypadku dysków, z jakimi nasz kontakt jest incydentalny, takiego porównania nie da się zrobić.
Tym niemniej zaobserwowanie pogarszania się pewnych parametrów może dać nam czas na zastanowienie się nad przyczyną tej sytuacji i wymianę dysku, zanim jego stan będzie krytycznie niebezpieczny dla jego zawartości.
Szczegółowe omówienie choćby tylko najistotniejszych parametrów wykracza poza redakcyjne założenia tego artykułu, ale warto zwrócić uwagę na to, by nie rozpatrywać ich indywidualnie, lecz w kontekście innych parametrów oraz objawów obserwowanych niezależnie od podsystemu SMART.
W szczególności objawy takie, jak problemy z komunikacją, nietypowe odgłosy, czy niewyjaśniona destabilizacja struktur logicznych powinny jak najbardziej wzbudzić nasz niepokój, nawet, jeśli SMART nie sygnalizuje żadnych problemów.
Warto też pamiętać, że sprawiające problemy sektory często najpierw są rejestrowane jako niestabilne, dopiero później zapada decyzja o ich remapowaniu, zaś uszkodzenia ujawniane w toku skanu powierzchni zazwyczaj świadczą o tym, że dysk z jakiegoś powodu już sobie nie radzi z ich realokacją. Dlatego ustabilizowanie się liczby sektorów niestabilnych lub remapowanych daleko nie zawsze będzie pozytywnym objawem.
Czy SMART może sprawiać problemy?
Jeśli już pada takie pytanie, nietrudno się domyślić, że tak. Rozwój oprogramowania układowego, zwiększenie liczby i złożoności wykonywanych przez nie zadań, a także ogólnie obserwowany spadek staranności w tworzeniu oprogramowania sprawia, że także SMART może sprawiać problemy, w skrajnym przypadku skutkujące uniemożliwieniem pełnej inicjalizacji dysku.
Przykładem takiego problemu może być przepełnianie logów SMART w dyskach Seagate pokolenia F3 (począwszy od Barracudy 7200.11, jaka z racji wysokiej awaryjności oprogramowania układowego dorobiła się określenia „czarnej serii”). Stąd w niektórych sytuacjach skasowanie logów SMART nie jest działaniem nieetycznym, ukierunkowanym na oszukanie potencjalnego klienta, ale zwykłą czynnością serwisową.
Innym przykładem była nieumiejętna ingerencja w oprogramowanie układowe przez inżynierów HP. Sprawiła ona, że po przeprowadzeniu 0x8000 godzin, wartość ta była interpretowana jako ujemna, co powodowało zawieszanie dysku. HP (podobnie, jak i kilka innych firm), nie jest producentem dysków, ale jest na tyle dużym odbiorcą, że może u faktycznego producenta wynegocjować zgodę na udekorowanie jego produktów własną etykietą oraz wprowadzenie zmian w oprogramowaniu układowym.
Najważniejsze z tych zmian, to wyświetlana nazwa modelu (żeby klient kupujący dysk HP w BIOS-ie i systemie operacyjnym też widział HP, a nie np. Seagate) i tzw. vendor code – pozwalający zwłaszcza serwerom sprawiać problemy w przypadku prób zamontowania „nieoryginalnego” dysku, choćby i dokładnie takiego samego, ale pochodzącego od innego dostawcy. W tym konkretnym przypadku ktoś ewidentnie trochę przesadził z ingerencją i konieczna była aktualizacja oprogramowania układowego.
Logi SMART nie biorą się znikąd – dysk cały czas przeprowadza w tle odpowiednie procesy i aktualizuje zapisy w strefie serwisowej. W przypadku dysków uszkodzonych nietrudno przewidzieć, że takie zachowanie jest obarczone ryzykiem, stanowi zbędne obciążenie i może skomplikować zabezpieczenie jego zawartości. Ponieważ monitoring statusu SMART w uszkodzonych dyskach nie ma żadnego sensu, dla zwiększenia bezpieczeństwa procesu odzyskiwania danych najlepiej jest wyłączyć obsługę SMART.
Procesy związane z obsługą SMART-u są niezależne od współpracy z innymi urządzeniami i oprogramowaniem, dlatego samo wyłączenie monitorowania statusu SMART w BIOS-ie komputera lub na poziomie systemu operacyjnego nie jest wystarczające. Należy to zrobić w oprogramowaniu układowym samego dysku.
SMART w SSD
Z uwagi na zachowanie zgodności ze standardem ATA, SMART jest implementowany także w dyskach SSD. Z uwagi na istotne odmienności w konstrukcji, sposobie funkcjonowania i fizyce przechowywania danych, wiele parametrów typowych dla dysków twardych nie ma najmniejszego sensu dla SSD-ków. Przede wszystkim dotyczy to parametrów związanych z podsystemem mechanicznym, jakiego SSD-ki nie mają. Niektóre parametry, jak np. czas pracy, czy temperatura nośnika, mogą być wykorzystane wprost.
Część parametrów bywa adaptowana na potrzeby SSD-ków zgodnie z ich właściwościami. Np. pod liczbą remapowanych sektorów często kryje się liczba fizycznych bloków wpisanych na listę defektów. Pojawiają się też nowe parametry, jak liczba wykonanych operacji zapisu i odczytu, czy monitorowanie zużycia układów.
W kontekście zużycia układów operacjami kasowania i zapisu, jako najczęstszej przyczyny awarii SSD-ków (zob. Security Magazine 11(20)/2023), to właśnie liczba wykonanych przez nośnik zapisów jest dla nas najważniejszym parametrem SMART dla tej kategorii urządzeń.
Czy jest to wystarczające, by z odpowiednim wyprzedzeniem przewidzieć awarię SSD-ka? Niestety i dla dysków twardych niewysoka skuteczność przewidywania uszkodzeń przez SMART w przypadku SSD-ków jest wręcz śladowa.
Większość z nich praktycznie do ostatniego momentu świeci zielonym statusem SMART-u, by nagle pożegnać się niebieskim ekranem śmierci i utracić komunikację z BIOS-em komputera. Co więc można zrobić, by przewidzieć awarię SSD-ka? Zajrzyj do Security Magazine 2(23)/2024.