Pełna recenzja kart nowej generacji ! - Teoria (technologia, pamięć, wierzchołki)

M E N U

» Nowości

» Archiwum

» Recenzje / Testy

» Board

» Rejestracja

Szukaj @ TwojePC

RECENZJE | Pełna recenzja kart nowej generacji !

Pełna recenzja kart nowej generacji ! Autor: Kris \| Data: 09/08/04

Teoria (technologia, pamięć, wierzchołki)

Tym razem, w zasadzie po raz pierwszy, postanowiłem odejść od unikania opisów tego, co dzieje się wewnątrz układu. Nadal stoję na stanowisku, że najważniejsze jest to, co układ wypracowuje swoim działaniem, a nie to, jak on działa. Prawdą jest jednak również to, że aktualne karty graficzne wyprzedziły technologicznie, możliwości obecnych silników gier, co powoduje, że na decyzję o zakupie, może również wpływać, przynajmniej częściowo, próba projekcji ich zachowania w najbliższej przyszłości. Niestety, aby choć spróbować to zrobić, trzeba się "wgryźć" w ich architekturę wewnętrzną i spróbować odrobiny działań prognozowych. Z natury, są one przynajmniej częściowo, oparte na czymś, co mogę nazwać: "wróżenie z niewielkiej ilości fusów". Warto o tym pamiętać.

Wprawdzie najważniejszy jest dla mnie potok pikseli, ale i o innych blokach funkcjonalnych rdzenia, postaram się również napisać parę słów. Mogę natomiast obiecać, że spróbuję (niekoniecznie się to uda) to przedstawić w jak najbardziej "strawnej" formie, zdając sobie sprawę z tego, że i tak zainteresuje to tylko niektórych.

a) Technologia wytwarzania

Na NV40 składa się gigantyczna liczba 220 mln tranzystorów. Jego poprzednik (NV38) miał ich "tylko" 125 mln. Możemy odnotować przyrost 75%. Nowy układ produkowany jest w fabryce IBM'a, w procesie technologicznym 0.13um. Takim samym jak i poprzednik.

R420 zawiera 160 mln tranzystorów. W stosunku do R360, składającego się z 110 mln, nastąpił wzrost o 45%. Jednak w przypadku ATI nastąpiła jednocześnie zmiana procesu technologicznego z 0.15 na 0.13um. Dodatkowo, układ produkowany jest przez fabrykę TSMC, z wykorzystaniem materiału o obniżonej stałej dielektrycznej (low-k). Dzięki temu można osiągnąć wyższe taktowanie przy jednoczesnym zmniejszeniu ilości oddawanego ciepła.

Jako, że niewiele rzeczy w "przyrodzie" daje przychód bez kosztów, to i technologia wykorzystywana przez ATI też oczywiście ma swoje wady. Po pierwsze, ma mniejsze upakowanie tranzystorów (mniej układów da się wykroić z "plastra" krzemu), a po drugie jest droższa. W związku z tym koszt ponoszony przez obie firmy jest prawdopodobnie zbliżony, pomimo niemal 40-sto procentowej różnicy w ilości tranzystorów rdzenia. Natomiast duże zainteresowanie Radeonami ze strony producentów kart wskazuje wyraźnie, gdzie leży źródło zysku (ew. z możliwością zamiany na obniżkę ceny). Tańsza jest produkcja kart (kwestia chłodzenia, laminat, układy stabilizujące itd.). W zasadzie to właśnie dodatkowe aspekty technologii wytwarzania stanowią jeden z dwóch, potencjalnie najmocniejszych punktów nowych Radeonów. Z drugiej strony, różnica w ilości tranzystorów wyraźnie wskazuje na możliwość wystąpienia sporych rozbieżności w funkcjonalności układów. Oczywiście z korzyścią dla nVidia.

b) Kontroler pamięci

Oba układy cechuje podobny kontroler pamięci składający się z czterech, krzyżowo połączonych 64-bitowych bloków (kanałów) obsługujących poprzez 256-bitową magistralę do 512MB pamięci DDR, DDR2 lub GDDR3. W zasadzie wielkich zmian technologicznych w stosunku do poprzedników trudno się doszukać. Główna różnica to kwestia obsługi GDDR3 i ewentualna, dodatkowa optymalizacja ich działania.

Pamięci GDDR3, dzięki zintegrowanym obwodom zapobiegającym degradacji sygnałów oraz dzięki mniejszemu napięciu zasilania (z 2.5 na 1.8V), mogą działać ze znacznie wyższym taktowaniem, mniej się grzeją (w stosunku do taktowania) i upraszczają konstrukcję płytki. Kosztem (zawsze musi być jakieś "ale") są znacznie większe opóźnienia odczytu CAS (nieco mniejsza wydajność przy tym samym taktowaniu) oraz oczywiście cena. Jako ciekawostkę dodam tylko, że specyfikacja GDDR3 została zaprezentowana (jako otwarty standard) w październiku 2002 roku, przez firmę ATI Technologies Inc.

c) Przetwarzanie wierzchołków

W NV40, w stosunku do poprzednika, dwukrotnie zwiększono ilość procesorów do przetwarzania wierzchołków. Z trzech do sześciu. Dodatkowo nastąpiły zmiany w samych procesorach. Dwie najistotniejsze to: zwiększenie z 13 do 32 ilości rejestrów tymczasowych oraz dodanie do każdego procesora jednostki operującej na teksturach (TMU). Przypomnę, że dynamiczna i statyczna kontrola przebiegu była już zaimplementowana w NV38 (wersja silnika 2.a), więc właśnie możliwość odwołania do tekstur, pozwala na przypisanie silnikowi wierzchołków NV40 wersji 3.0. Kod shadera może być w zasadzie dowolnej długości (specyfikacja 2.x ma ograniczenie maksymalnej ilości do 256-ciu instrukcji).

Silnik przetwarzania wierzchołków R420 oparty jest na specyfikacji 2.0 (w odróżnieniu od 2.a z NV38 brak jest, na przykład, dynamicznej kontroli przebiegu). Tej samej co poprzednika. Może więc wykonywać shader opisany 256-instrukcjami. ATI zwiększyło i nieznacznie przebudowało (pojawiły się instrukcje trygonometryczne) ilość procesorów. Z czterech do sześciu. W związku z tym, że wraz z ilością (i częściowo wydajnością pojedynczego procesora) znacząco wzrosło również taktowanie samego rdzenia to również i w przypadku nowego Radeona można liczyć się z niemal dwukrotnym przyrostem mocy przetwarzania wierzchołków.

Całkowitą nowością w NV40 jest obecność TMU w strumieniu wierzchołków. Jako, że jest to element, za pomocą którego układ jest w stanie stworzyć jedyny efekt (mapowanie przemieszczeń), który nie jest dostępny dla kart z obsługą SM2.0 (model shaderów 2.0), to zainteresował mnie najbardziej. Niestety wszystko wskazuje na to, że praktyczne jego wykorzystanie w grach szybko nie nastąpi. Tym niemniej, dzięki niemu, programiści dostali już dziś do ręki funkcje, które niewątpliwie zdominują kiedyś gry, a dla nVidia jest to element niezbędny w celu uzyskania specyfikacji shaderów w wersji 3.0.

Przyglądając się nowej jednostce operującej na teksturach nietrudno zauważyć, że projektanci uprościli do maksimum konstrukcję, w celu minimalizacji jej wielkości, a tym samym powodując zapewnienie jedynie podstawowej funkcjonalności. Efekty realizowane za jej pomocą będą dla układu bardzo kosztowne. Wystarczy sobie uświadomić, że samo mapowanie przemieszczeń (displacement mapping) bez zaawansowanego filtrowania (point sampling) realizowane jest za pomocą dwóch taktów zegara. Każdy dodatkowy efekt filtrowania wymaga kolejnych obliczeń Vertex Shadera. Prawdopodobnie dopiero pojawienie się w przyszłych układach, w potoku wierzchołków, TMU z możliwościami zbliżonymi do tych, które od dawna stosowane są w potokach pikseli (przynajmniej sprzętowe filtrowanie), da nam praktyczną korzyść w grach. Z drugiej strony, dzięki temu, że pojawiła się karta SM3.0 ruszył zegar odmierzający czas do nadejścia nowych silników gier, o zupełnie nowych możliwościach, a nVidia uzyskała w ten sposób wyraźną przewagę nad konkurencją w specyfikacji produktów.

poprzednia strona (Wstęp) - następna strona (Teoria (piksele))

Rozdziały: Pełna recenzja kart nowej generacji !

»	Wstęp
»	Teoria (technologia, pamięć, wierzchołki)
»	Teoria (piksele)
»	Teoria (fsaa, inne)
»	Teoria (słowniczek, tabela zbiorcza)
»	Opis karty Gainward GFFX5950U
»	Opis karty Abit R9800XT
»	Opis karty Sapphire RX800P
»	Opis karty MSI GF6800U
»	Opis karty nVidia GF6800GT
»	Opis karty PoV GF6800
»	Opis karty Sapphire Radeon X800 XT PE
»	Opis Gainward GeForce 6800 Ultra
»	Opis Gainward GeForce 6800 GT
»	Wydajność (teoria, opis metod)
»	Wydajność (testy)
»	Jakość obrazu: FSAA
»	Jakość obrazu: Filtrowanie tekstur
»	Podkręcanie
»	Uczta numerologa
»	Podsumowanie
»	Kliknij, aby zobaczyć cały artykuł na jednej stronie
	Wyświetl komentarze do artykułu »