Algoritma Operasi Join

Back to IF3140 Sistem Basis Data

Topic

Questions/Cues

Apa saja algoritma join utama?

Bagaimana cara kerja Nested-Loop Join?

Apa itu Block Nested-Loop Join?

Kapan Indexed Nested-Loop Join efisien?

Bagaimana prinsip Merge-Join?

Apa itu Hash-Join?

Fase Partisi vs. Build/Probe di Hash-Join?

Bagaimana menangani overflow pada Hash-Join?

Apa itu Hybrid Hash-Join?

Cara menangani join kompleks (AND/OR)?

Reference Points

Slides 26-44

Nested-Loop Join

Ini adalah algoritma join yang paling dasar dan sederhana.

Cara Kerja: Untuk setiap tuple di relasi luar (r), pindai seluruh relasi dalam (s) untuk mencari pasangan yang memenuhi kondisi join.

Kelebihan: Dapat digunakan untuk semua jenis kondisi join (tidak hanya kesetaraan) dan tidak memerlukan indeks.

Kekurangan: Sangat tidak efisien dan mahal.

Estimasi Biaya (Worst Case): $(n_{r} * b_{s} + b_{r})$ blok $+ (n_{r} + b_{r})$ seek time, di mana $n_{r}$ adalah jumlah record di relasi r dan $b_{s}$ adalah jumlah blok di relasi s.

Best Case: Jika relasi luar $r$ sangat kecil.

Worst Case: Jika $r$ dan $s$ sama-sama besar.

Block Nested-Loop Join

Merupakan variasi dari Nested-Loop Join yang bekerja pada level blok, bukan tuple.

Cara Kerja: Untuk setiap blok di relasi luar (r), pindai seluruh blok di relasi dalam (s). Kemudian, untuk setiap pasang blok, semua kombinasi tuple di dalamnya akan diperiksa.

Estimasi Biaya (Worst Case): $(b_{r} * b_{s} + b_{r}) + (2 * b_{r})$

Optimasi: Alokasikan $M - 2$ blok memori untuk relasi luar, sehingga dapat membaca $M - 2$ blok sekaligus dan mengurangi jumlah pemindaian relasi dalam. Biaya menjadi $⌈ b_{r} / (M - 2)⌉ * b_{s} + b_{r}$ .

Best Case: Jika relasi luar $r$ yang dipilih sangat kecil, sehingga muat dalam memori yang tersedia ( $b_{r} \leq M - 2$ ).

Worst Case: Jika $r$ dan $s$ sama-sama besar.

Indexed Nested-Loop Join

Algoritma ini memanfaatkan indeks pada atribut join dari relasi dalam untuk mempercepat pencarian.

Syarat: Kondisi join harus berupa equi-join (atau natural join) dan harus ada indeks pada atribut join relasi dalam.

Cara Kerja: Untuk setiap tuple di relasi luar (r), gunakan indeks pada relasi dalam (s) untuk langsung menemukan tuple yang cocok, tanpa perlu memindai seluruh relasi s.

Estimasi Biaya: $b_{r} (t_{t} + t_{s}) + n_{r} * c$ , di mana c adalah biaya untuk mencari dan mengambil semua tuple yang cocok di s untuk satu tuple r menggunakan indeks.

Best Case: Jika relasi luar $r$ sangat kecil DAN indeks yang dipilih sangat selektif pada atribut join di relasi dalam $s$ .

Worst Case: Jika indeks relasi dalam $s$ TIDAK selektif.

Merge-Join

Algoritma ini efisien untuk equi-joins dan natural joins.

Cara Kerja:

Sort: Urutkan kedua relasi (r dan s) berdasarkan atribut join mereka.

Merge: Pindai kedua relasi yang sudah terurut secara bersamaan (mirip fase merge pada External Sort-Merge) untuk menemukan tuple yang cocok. Pointer akan bergerak maju secara sinkron di kedua relasi.

Estimasi Biaya (jika relasi sudah terurut): $b_{r} + b_{s}$ transfer blok, karena setiap blok hanya perlu dibaca sekali. Jika belum terurut, biaya sorting harus ditambahkan.

Best Case: Jika relasi luar $r$ dan relasi dalam $s$ sudah terurut.

Worst Case: Jika $r$ dan $s$ tidak terurut.

Secara umum: $b_{r} + b_{s} + ⌈ b_{r} / b_{b} ⌉ + ⌈ b_{s} / b_{b} ⌉$

Hash-Join

Ini adalah algoritma yang sangat efisien untuk equi-joins, terutama pada data besar.

Cara Kerja:

Fase Partisi (Partition Phase):

Pilih relasi yang lebih kecil sebagai build input (misalnya s).

Gunakan fungsi hash h1 pada atribut join untuk mempartisi s dan r ke dalam n bucket atau partisi ( $s_{0}, s_{1}, ...$ dan $r_{0}, r_{1}, ...$ ).

Tulis partisi-partisi ini ke disk. Keuntungannya adalah tuple di $r_{i}$ hanya mungkin cocok dengan tuple di $s_{i}$ .

Fase Build & Probe (Matching Phase):

Untuk setiap partisi i:

Build: Baca partisi $s_{i}$ ke memori dan bangun hash table di memori menggunakan fungsi hash kedua ( $h_{2}$ ).

Probe: Baca partisi $r_{i}$ blok per blok, dan untuk setiap tuple, gunakan h2 untuk mencari pasangannya di hash table $s_{i}$ .

Penanganan Overflow: Jika partisi $s_{i}$ tidak muat di memori, partisi tersebut dapat dipartisi ulang secara rekursif menggunakan fungsi hash lain, atau gunakan Block Nested-Loop Join untuk partisi yang meluap tersebut.

Estimasi Biaya (tanpa rekursi): Sekitar $(3 (b_{r} + b_{s}) + 4 n_{h}) + 2 (⌈ b_{r} / b_{b} ⌉ + ⌈ b_{s} / b_{b} ⌉)$

Best Case: Paling baik untuk operasi equi-join pada data besar dengan memori yang cukup, dan ketika fungsi hash mampu mendistribusikan kunci join secara merata ke semua partisi. Distribusi yang merata memastikan tidak ada partisi yang “meluap” (overflow) dan setiap partisi dari relasi build ( $s_{i}$ ) bisa dimuat ke memori saat fase probe. Varian Hybrid Hash-Join memberikan optimasi lebih lanjut dalam skenario ini.

Worst Case: Ketika terjadi kemiringan data (data skew) yang signifikan pada atribut join. Ini berarti banyak sekali record memiliki nilai atribut join yang sama. Akibatnya, fungsi hash akan menempatkan semua record tersebut ke dalam satu partisi yang sama.

Hybrid Hash-Join

Sebuah optimasi dari Hash-Join ketika memori cukup besar.

Cara Kerja: Selama fase partisi build input (s), partisi pertama ( $s_{0}$ ) tidak ditulis ke disk, melainkan langsung disimpan di memori sebagai hash table. Ketika probe input (r) dipartisi, tuple yang masuk ke partisi $r_{0}$ tidak ditulis ke disk, melainkan langsung digunakan untuk mencari pasangan di hash table $s_{0}$ . Ini menghemat I/O untuk satu partisi penuh.

Complex Joins

Join dengan Kondisi Konjungtif (AND): $r ⋈_{θ_{1} \land θ_{2}} s$

Hitung join untuk kondisi yang paling selektif (misalnya $θ_{1}$ ), lalu terapkan kondisi sisanya ( $θ_{2}$ ) sebagai filter pada hasilnya.

Join dengan Kondisi Disjungtif (OR): $r ⋈_{θ_{1} \lor θ_{2}} s$

Hitung hasil join untuk setiap kondisi secara terpisah ( $r ⋈_{θ_{1}} s$ dan $r ⋈_{θ_{2}} s$ ).

Gabungkan hasilnya menggunakan operasi UNION.

Summary

Pemilihan algoritma join adalah salah satu keputusan paling kritis dalam optimasi query, dengan setiap algoritma memiliki kelebihan pada skenario yang berbeda. Nested-Loop Join adalah metode universal tetapi lambat. Block Nested-Loop Join memberikan perbaikan sederhana. Indexed Nested-Loop Join sangat cepat jika tersedia indeks yang sesuai. Merge-Join efisien untuk equi-join pada data yang sudah atau dapat diurutkan dengan mudah. Terakhir, Hash-Join seringkali menjadi pilihan tercepat untuk equi-join pada data besar, dengan varian Hybrid Hash-Join yang lebih lanjut mengoptimalkan penggunaan memori untuk mengurangi I/O disk.

Additional Information

Tabel Perbandingan Algoritma Join

Algoritma Kapan Digunakan Terbaik Persyaratan Kelemahan
Nested-Loop Relasi sangat kecil atau sebagai fallback Tidak ada Sangat lambat untuk data besar
Block Nested-Loop Salah satu relasi kecil, memori terbatas Tidak ada Kurang efisien dibanding hash/merge
Indexed Nested-Loop Relasi luar kecil, ada indeks efisien di relasi dalam Indeks pada atribut join Performa buruk jika indeks tidak selektif
Merge-Join Kedua relasi sudah terurut atau output perlu diurutkan Equi-join, data terurut Biaya sorting awal bisa mahal
Hash-Join Equi-join pada data besar, memori cukup Equi-join Sensitif terhadap data miring (skew) dan ukuran memori

Dampak Data Skew (Kemiringan Data) pada Hash-Join

Kelemahan utama Hash-Join adalah jika data pada atribut join tidak terdistribusi merata (miring). Misalnya, jika banyak sekali tuple memiliki nilai yang sama pada atribut join, maka fungsi hash akan menempatkan semua tuple tersebut ke dalam satu partisi yang sama. Partisi ini akan menjadi sangat besar dan menyebabkan overflow, yang akan memaksa sistem menggunakan algoritma yang lebih lambat seperti Block Nested-Loop Join pada partisi tersebut, sehingga mengurangi efisiensi keseluruhan.

Eksplorasi Mandiri

Gunakan perintah EXPLAIN atau EXPLAIN ANALYZE pada DBMS favorit Anda untuk melihat bagaimana query optimizer memilih algoritma join.

Buat dua tabel, A dan B.

Lakukan JOIN tanpa membuat indeks apa pun. Kemungkinan besar optimizer akan memilih Hash Join atau Merge Join.

Buat indeks B-Tree pada kolom join di tabel B.

Jalankan kembali query JOIN. Jika tabel A cukup kecil, optimizer mungkin akan beralih ke Indexed Nested-Loop Join dengan A sebagai relasi luar dan B sebagai relasi dalam. Ini menunjukkan bagaimana optimizer secara dinamis memilih strategi terbaik berdasarkan struktur data yang tersedia.

IF Notes

Explorer

Algoritma Operasi Join

Questions/Cues

Reference Points

Nested-Loop Join

Block Nested-Loop Join

Indexed Nested-Loop Join

Merge-Join

Hash-Join

Hybrid Hash-Join

Complex Joins

Tabel Perbandingan Algoritma Join

Dampak Data Skew (Kemiringan Data) pada Hash-Join

Eksplorasi Mandiri

Graph View

Table of Contents

Backlinks

Algoritma	Kapan Digunakan Terbaik	Persyaratan	Kelemahan
Nested-Loop	Relasi sangat kecil atau sebagai fallback	Tidak ada	Sangat lambat untuk data besar
Block Nested-Loop	Salah satu relasi kecil, memori terbatas	Tidak ada	Kurang efisien dibanding hash/merge
Indexed Nested-Loop	Relasi luar kecil, ada indeks efisien di relasi dalam	Indeks pada atribut join	Performa buruk jika indeks tidak selektif
Merge-Join	Kedua relasi sudah terurut atau output perlu diurutkan	Equi-join, data terurut	Biaya sorting awal bisa mahal
Hash-Join	Equi-join pada data besar, memori cukup	Equi-join	Sensitif terhadap data miring (skew) dan ukuran memori