Editing Ai Hardware (section)

== <span style="color: #FFFFFF;">Applying</span> ==
'''Profiling GPU utilization and identifying bottlenecks:'''

<syntaxhighlight lang="python">
import torch
from torch.profiler import profile, ProfilerActivity, tensorboard_trace_handler

# Profile a model training step
model = MyTransformerModel().cuda()
optimizer = torch.optim.Adam(model.parameters())
inputs = torch.randn(32, 512).cuda()  # batch=32, seq_len=512

with profile(
    activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
    schedule=torch.profiler.schedule(wait=1, warmup=1, active=3),
    on_trace_ready=tensorboard_trace_handler("./log/profiler"),
    record_shapes=True,
    profile_memory=True,
    with_stack=True
) as prof:
    for step in range(5):
        optimizer.zero_grad()
        loss = model(inputs).sum()
        loss.backward()
        optimizer.step()
        prof.step()

# Print top CUDA kernels by time
print(prof.key_averages().table(sort_by="cuda_time_total", row_limit=10))
</syntaxhighlight>

'''Enabling mixed precision training (automatic):'''
<syntaxhighlight lang="python">
from torch.cuda.amp import autocast, GradScaler

scaler = GradScaler()

for batch in dataloader:
    optimizer.zero_grad()
    with autocast(dtype=torch.bfloat16):  # BF16 on H100 (preferred over FP16)
        output = model(batch)
        loss = criterion(output, targets)
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()
</syntaxhighlight>

; AI chip selection guide
: '''Research / single GPU''' → NVIDIA RTX 4090 (24GB, consumer) or A6000 (48GB, workstation)
: '''Production training''' → NVIDIA H100 (80GB HBM3, 3.35 TB/s bandwidth), clusters of 8–1024
: '''Google Cloud training''' → TPU v4/v5 pods (purpose-built for large-scale training)
: '''Edge inference (mobile)''' → Apple Neural Engine (ANE), Qualcomm Hexagon DSP
: '''Edge inference (industrial)''' → NVIDIA Jetson Orin, Hailo-8, Coral Edge TPU
: '''Data center inference''' → NVIDIA H100/L40S, Groq LPU (ultra-low latency), Cerebras
</div>

<div style="background-color: #8B4500; color: #FFFFFF; padding: 20px; border-radius: 8px; margin-bottom: 15px;">