Esempi di precaricamento?

Qualcuno può dare un esempio o un collegamento a un esempio che utilizza __builtin_prefetch in GCC (o semplicemente l’istruzione asm prefetcht0 in generale) per ottenere un sostanziale vantaggio in termini di prestazioni? In particolare, mi piacerebbe che l’esempio soddisfi i seguenti criteri:

  1. È un esempio semplice, piccolo e autonomo.
  2. La rimozione dell’istruzione __builtin_prefetch comporta un peggioramento delle prestazioni.
  3. Sostituendo l’istruzione __builtin_prefetch con l’accesso alla memoria corrispondente si ottiene un peggioramento delle prestazioni.

Cioè, voglio l’esempio più breve che mostri __builtin_prefetch esegue un’ottimizzazione che non può essere gestita senza di essa.