Co się może zepsuć w dysku?
Dyski twarde są bardzo skomplikowanymi urządzeniami. Bardziej skomplikowanymi od całej reszty komputera. Oprócz elementów elektronicznych składają się także z podsystemu mechanicznego, a całość jest zarządzana przez rozbudowane oprogramowanie układowe. Niewiele osób wie, że w przypadku dysków twardych oprogramowanie układowe jest przechowywane nie tylko w EEPROMie na płytce elektronicznej, ale też na talerzach, w niewidocznym dla użytkownika obszarze zwanym strefą serwisową.
Oczywiście, uszkodzeniu może ulec każdy z komponentów dysku. Nasze myśli najczęściej biegną w kierunku „fizycznym” — elementów elektronicznych i mechanicznych, które nieraz próbujemy losowo przekładać z innych dysków w nadziei, że to pomoże, ale współcześnie coraz więcej awarii jest związanych z błędami oprogramowania układowego. A te błędy bardzo rzadko możemy naprawić, wykorzystując oprogramowanie zgrane od innego dysku.
Szczegółowe omówienie architektury oprogramowania układowego dysków twardych znacznie wykracza poza ramy tego artykułu, dlatego zostanie ona przedstawiona w dużym uproszczeniu. Oprogramowanie układowe dysków jest podzielone na różnie nazywane przez różnych producentów bloki funkcjonalne. Niektóre z nich, jak fragmenty mikrokodu, powtarzają się w wielu egzemplarzach nie tylko tego samego modelu. Inne, jak np. logi SMART, nie mają istotnego znaczenia dla uruchomienia dysku i dostępu do danych. Jednak są pewne bloki, które są indywidualne dla każdego egzemplarza.
Wśród tych indywidualnych bloków największe znaczenie mają tzw. adaptywy parametryzujące pracę bloku głowic magnetycznych i odpowiednie wzmocnienie odczytywanego przez głowice sygnału oraz bloki odpowiadające za zarządzanie defektami powierzchni i prawidłowe tłumaczenie adresów adresacji LBA wykorzystywanej przez dysk w komunikacji ze światem zewnętrznym na wewnętrzne adresy fizyczne. W praktyce to właśnie te ostatnie fragmenty oprogramowania układowego najczęściej ulegają awariom.
Prócz tego uszkodzeniom mogą ulec powierzchnia magnetyczna (tzw. uszkodzone sektory) oraz struktury logiczne systemu plików. Destabilizacja struktur logicznych może wynikać z wystąpienia uszkodzonych sektorów, błędów użytkownika lub oprogramowania, a także działania złośliwego oprogramowania. Do pogłębienia uszkodzeń struktur logicznych może dojść też w rezultacie uruchomienia zautomatyzowanych procedur naprawczych, o czym pisałem w poprzednim numerze.
Diagnostyczne wykorzystanie procedury startowej dysku twardego
Ważne! Przed przystąpieniem do diagnostyki dysku twardego należy go uważnie obejrzeć pod kątem śladów usterek mechanicznych, za-lania (zacieki na obudowie, korozja), uszkodzonych elementów elektronicznych, wcześniejszych ingerencji, w szczególności połączonych z otwieraniem hermobloku. Uruchomienie dysku wiąże się z ryzykiem pogorszenia jego stanu, zwłaszcza w przypadku zanieczyszczenia wnętrza hermobloku, nieumiejętnego montażu lub demontażu podzespołów, brakujących podzespołów albo pozostawienia wewnątrz niezabezpieczonych elementów. Dopiero po zweryfikowaniu stanu dysku można go bezpiecznie podłączyć.
Usterki elektroniczne
Pierwszym etapem inicjalizacji dysku twardego po podaniu zasilania jest rozpakowanie za-wartej w EEPROM-ie części oprogramowania układowego do bufora RAM oraz test układów elektronicznych. Jeśli dysk nie reaguje na podłączone zasilanie, najprawdopodobniej uszkodzony jest któryś z układów. W przypadku dysków hybrydowych SSHD częstą przyczyną awarii jest zużycie bufora NAND. Uszkodzenie może dotyczyć nie tylko układów na PCB, ale też np. komutatora-przedwzmacniacza znajdującego się wewnątrz hermobloku.
Brak reakcji na zasilanie może również wynikać z podstawienia obcej PCB. Jeśli oprogramowanie układowe w EEPROM-ie nie obsługuje danego przedwzmacniacza, inicjalizacja zostaje przerwana na tym etapie. Podobnie w przypad-ku podstawienia obcej elektroniki w dyskach SSHD bez odpowiedniej inicjalizacji bufora NAND niezgodność zawartości bufora spowo-duje przerwanie procedury startowej.
W niektórych dyskach jako elementy zabezpie-czające stosowane są diody Zenera. W przypadku podania nieprawidłowych napięć, diody Zenera ulegają uszkodzeniu i przejmują przepływ prądu chroniąc przed uszkodzeniem pozostałe elementy elektroniczne dysku. W przypadku dobrej klasy zasilacza zabezpieczenie przeciwzwarciowe powinno wykryć zwarcie i spowodować odcięcie zasilania.
Usterki mechaniczne
Jeśli dysk podejmuje próbę rozpędzenia talerzy, możemy w praktyce wykluczyć uszkodzenia elektroniczne. Po uruchomieniu silnika obracającego talerze następuje uwolnienie bloku głowic magnetycznych ze strefy parkowania. Głowice powinny odczytać sygnał serwo, następnie odnaleźć strefę serwisową oraz odczytać z niej pozostałą część oprogramowania układowego. Przerwanie inicjalizacji na tym etapie wskazuje na uszkodzenia mechaniczne.
Nieudane próby rozpędzenia talerzy współcześnie często wynikają z nieprawidłowego zaparkowania głowic na powierzchni talerzy. Głowice najczęściej są parkowane na rampie poza obrębem talerza lub w specjalnie przygotowanej strefie parkowania. Dla zapewnienia laminarnego przepływu powietrza i stabilnej wysokości lotu głowicy nad powierzchnią talerza producenci starają się, aby zarówno ta po-wierzchnia, jak i powierzchnia samych głowic były jak najgładsze. W konsekwencji zaparkowanie głowic w obszarze przechowującym dane skutkuje pojawieniem się oddziaływań molekularnych zdolnych do zablokowania rozruchu talerzy.
Pozostałe przyczyny problemów z rozpędzaniem talerzy w większości przypadków dotyczą bezpośrednio silnika. Może to być uszkodzenie uzwojeń lub łożyska. Uszkodzenia stosowanych współcześnie łożysk hydrodynamicznych są znacznie rzadsze niż w przypadku używanych w przeszłości łożysk kulkowych. Na problemy silnika może też wskazywać uszkodzenie sterownika silnika, tzw. drivera. W przypadku dużych oporów mechanicznych na łożysku silnika może dojść do przegrzania tranzystorów w sterowniku i uszkodzenia układu. Najbardziej typowym objawem uszkodzeń mechanicznych dysków twardych jest dźwięk stukających głowic. Blok głowic magnetycznych uderza o ograniczniki, gdy głowice nie mogą odnaleźć sygnału serwo.
Oprócz uszkodzenia samych głowic objaw taki może spowodować podstawienie obcej elektroniki zawierającej w EEPROMie niezgodne adaptywny lub zdemagnetyzowanie dysku. Szczególnie niepokojące są dźwięki świadczące o tarciu głowic o powierzchnię talerzy. W takich sytuacjach może dojść do degradacji powierzchni w stopniu uniemożliwiającym odzyskanie danych. W nowszych dyskach, w celu zabezpieczenia przed wystąpieniem usterek wtórnych, w przypadku braku możliwości odczytania sygnału serwo oprogramowanie układowe po kilku sekundach wyłącza głowice, odsyłając je do strefy parkowania i wyłącza silnik obracający talerze.
Usterki oprogramowania układowego
Jeżeli dysk uruchamia się poprawnie, talerze obracają się równomiernie, a głowice nie stukają, dysk powinien odczytać zawartość strefy serwisowej, przedstawić się prawidłowym modelem i pełną pojemnością oraz wyjść w gotowość. Zatrzymanie inicjalizacji na tym etapie wskazuje na błędy oprogramowania układowego. Najprostszą wskazówką związaną z błędami tej kategorii może być przywieszenie BIOS-u podczas uruchomienia komputera na ok. 20-30 sekund. Takie zacho-wanie związane jest z oczekiwaniem BIOS-u na wystawienie przez dysk identyfikatora.
W zależności od modelu i usterki dyski z problemami oprogramowania układowego mogą się zachowywać w różny sposób. Najczęściej zawieszają się (ustawiony bit BSY w rejestrze stanu), nie wystawiając identyfikatora czy przedstawiają się zerową albo nietypowo małą pojemnością. Niektórym problemom towarzyszą nietypowe kombinacje bitów w rejestrze stanu i rejestrze błędów. Jeśli dysk jest wykrywany poprawnie, ale odmawia wykonania jakichkolwiek poleceń związanych z dostępem do sektorów użytkownika, prawdopodobnie jest zabezpieczony hasłem ATA.
Defekty powierzchni
W przypadku dysków, które przechodzą po-prawnie inicjalizację oraz są rozpoznawane przez BIOS i system operacyjny, jest możliwość oceny jego stanu technicznego przez wewnętrzny system monitorowania stanu SMART. Przy czym trzeba mieć na uwadze, że jest to system bardzo niedoskonały i o ile ra-portując zły stan dysku zazwyczaj ma rację, to zgłaszając, że dysk jest w dobrej formie, SMART często się myli. Status SMART można sprawdzić przy pomocy dowolnego programu diagnostycznego. Największą wartość diagnostyczną SMART ma wtedy, gdy można porównać jego parametry w czasie i zaobserwować ewentualne pogarszanie stanu na wczesnym etapie.
Stan powierzchni najlepiej ocenić na podstawie jej skanu. Najlepiej do tego celu wybrać programy sprawdzające czasy odczytu poszczególnych sektorów oraz monitorujące rejestr błędów, co pozwala uszkodzonym/nieodczytanym sektorom przypisać odpowiednie kody błędów. Takie programy pozwalają na wcześniejsze wykrycie niestabilnych i wolniej czyta-jadących się obszarów, które mogą wskazywać na pogorszenie się stanu dysku. W przypadku wystąpienia uszkodzonych sektorów znajomość kodów błędów pozwala na wyciągnięcie wniosków co do ich charakteru oraz najlepszego sposobu dalszego postępowania.
Jeśli na dysku mamy ważne dane, priorytetem jest zabezpieczenie informacji. Nadmierne zaangażowanie w diagnostykę wiąże się z ryzykiem pogorszenia stanu dysku. Przy podejrzeniu degradacji powierzchni dysku skany należy wykonywać fragmentarycznie, w minimalnym zakresie pozwalającym na ocenę stanu dysku.