Latihan Soal Query Optimization

Naufarrel Zhafif Abhista 13523149

Soal 1

Operasi	Cost	Banyaknya Tuple
$σ_{penulis = ’Andrea Hirata’} (Buku)$	12	100
$σ_{penulis = ’Andrea Hirata’} (Buku) ⋈ Peminjaman$	910	600
$σ_{umur \geq 21} (Pelanggan)$	1001	2222
$σ_{umur \geq 21} (P e l an gg an) ⋈ (σ_{penulis = ’Andrea Hirata’} (Buku) ⋈ Peminjaman)$	849	133
$Π_{nama} (σ_{umur \geq 21} (P e l an gg an) ⋈ (σ_{penulis = ’Andrea Hirata’} (Buku) ⋈ Peminjaman))$	0 (Pipelined)	133
Total	2772	133 (Tuple final)

Penjelasan:

Untuk seleksi buku dengan atribut penulis bernilai ‘Andrea Hirata’, ada indeks yang berlaku. Maka, digunakan metode A3 (Primary Index, pada Non-Key):
- Pemindaian dilakukan dengan $cost = h_{i} + b = 2 + ⌈ 100 tuple / (50.000/5.000 ⌉ = 12$ blok
- Tuple:
  - Total ada 500 variasi penulis
  - Hanya akan diambil 1 penulis
  - Karena distribusi seragam, estimasi tuple: $n_{b u k u} * 1/500 = 50000 * 1/500 = 100$ tuple.
Untuk join buku dan peminjaman, kita memiliki 100 tuple buku dari langkah sebelumnya. Kita bisa menggunakan bid dari setiap buku untuk mencari data di Peminjaman menggunakan secondary index-nya. Metode terbaiknya adalah Nested-Loop Join.
- Cost: Menggunakan formula dasar Nested-Loop Join: $b_{l u a r} + (n_{l u a r} \times (h_{i} + s))$ .
  - $b_{l u a r} = b_{ha s i l_{1}} = 10$ blok.
  - $n_{l u a r} = 100$ tuple.
  - $h_{i} = 3$
  - $s = \frac{300000}{50000} = 6$
  - Cost = $10 + (100 \times (3 + 6)) = 10 + (900) = 910$ blok.
- Banyaknya Tuple:
  - Kita mencari berapa kali 100 buku (Hasil #2) dipinjam.
  - Rata-rata peminjaman per buku = $n_{p e minjaman} / n_{b u k u} = 300.000/50.000 = 6$ kali.
  - Estimasi tuple = 100 buku * 6 = 600 tuple.
Untuk seleksi pelanggan berumur lebih dari atau sama dengan 21, karena pencarian didasarkan pada umur, dapat dianggap pencarian dilakukan dengan metode A1 (Linear Scan)
- Pemindaian dilakukan dengan $cost = 1000 + 1 = 1001$
- Tuple:
  - Total ada 24 - 7 + 1 = 18 variasi umur.
  - Kondisi umur >= 21 mencakup umur 21, 22, 23, 24 (4 variasi).
  - Karena distribusi seragam, estimasi tuple: $n_{p e l an gg an} * (4/18) = 10.000 * (4/18) \approx 2222$ tuple.
Join hasil Pelanggan dengan Hasil Join Sebelumnya ((Hasil #1) ⋈ (Hasil #3)) dapat menggunakan Hash Join lagi. Hasil join sebelumnya (Hasil #3) lebih kecil dalam jumlah blok, sehingga akan menjadi build input.
- Cost:
  - Blok Hasil #1: $b_{ha s i l_{1}} = ⌈ 2.222 tuple / (10.000/1.000 tuple/blok)⌉ = 223$ blok.
  - Blok Hasil #3 (berdasarkan asumsi soal): tuples per block peminjaman = 300.000 / 15.000 = 20. Ukuran tuple hasil join 2x lipat, jadi tuples per block hasil3 = 10. Maka $b_{ha s i l_{3}} = ⌈ 600/10 ⌉ = 60$ blok
- Cost = $3 * (b_{ha s i l_{3}} + b_{ha s i l_{1}}) = 3 * (60 + 223) = 3 * 283 = 849$ blok.
- Banyaknya Tuple:
  - Dari 600 peminjaman di Hasil #3, kita ingin tahu berapa yang dilakukan oleh pelanggan berumur >= 21.
  - Fraksi pelanggan berumur >= 21 adalah 4/18.
  - Estimasi tuple = 600 * (4 / 18) ≈ 133 tuple.
Proyeksi Nama
- Karena asumsi mekanisme evaluasi adalah pipeline, hasil dari join terakhir (Hasil #4) langsung dialirkan ke operasi proyeksi tanpa disimpan ke disk.
- Cost: 0 (biayanya sudah termasuk dalam operasi join sebelumnya).
- Banyaknya Tuple: Operasi proyeksi tidak mengubah jumlah tuple, hanya kolomnya ⇒ 133 tuple.

Soal 2

1. Ekspresi Aljabar Relasional Awal

Ekspresi awal yang diberikan adalah:

$Π_{nama} ((σ_{u m u r \geq 21} (P e l an gg an)) ⋈ ((σ_{p e n u l i s = ’ A n d re a H i r a t a ’} (B u k u)) ⋈ P e minjaman))$

2. Transformasi dengan Aturan Ekuivalensi

Kita dapat mengoptimalkan ekspresi ini dengan menerapkan aturan “mendorong proyeksi sedini mungkin” (Push Projection). Tujuannya adalah untuk mengurangi ukuran (jumlah atribut/kolom) dari relasi-relasi perantara, sehingga proses join selanjutnya menjadi lebih ringan.

Dengan menerapkan aturan ekuivalensi No. 8 (Distribusi Proyeksi terhadap Join), kita mendapatkan ekspresi baru yang lebih optimal:

$Π_{nama} ((Π_{nama, p i d } (σ_{u m u r \geq 21} (P e l an gg an))) ⋈ ((Π_{bi d} (σ_{p e n u l i s = ’ A n d re a H i r a t a ’} (B u k u))) ⋈ (Π_{p i d, bi d} (P e minjaman))))$

Ekspresi ini secara signifikan mengurangi jumlah data yang harus diproses pada setiap langkah join.

3. Rencana Evaluasi (Evaluation Plan) Baru dan Estimasi Biaya

Berikut adalah tabel rencana evaluasi berdasarkan ekspresi yang telah dioptimalkan, dengan memanfaatkan index yang tersedia.

Operasi	Cost (Akses Blok)**	Banyaknya Tuple
$σ_{u m u r \geq 21} (P e l an gg an)$	1001	2222
$Π_{nama, p i d }$ (dari hasil #1)	0	2222
$σ_{p e n u l i s = ’ A n d re a H i r a t a ’} (B u k u)$	12	100
$Π_{bi d} $	0	100
$(Hasil #4) ⋈ Π_{p i d, bi d} (Peminjaman)$	901	600
$Π_{p i d} $ (dari hasil #5)	0	600
$(Hasil #2) ⋈ (Hasil #6)$	339	133
$Π_{nama}$ (dari hasil #7)	0	133
Total	2253	133 (Tuple final)

Penjelasan Estimasi Biaya:

Seleksi Pelanggan & Proyeksi (Hasil #1 & #2):
- Tidak ada index pada umur, jadi menggunakan Linear Scan. Cost = 1001.
- Proyeksi ke nama dan pid dilakukan secara pipelined (Cost = 0).
Seleksi Buku & Proyeksi (Hasil #3 & #4):
- Menggunakan primary index pada penulis. Metodenya adalah Index Scan.
- Cost = $h_{i} + b = 2 + ⌈ 100/10 ⌉ = 12$ **
- Proyeksi ke bid dilakukan secara pipelined (Cost = 0). Hasilnya (100 tuple bid) sangat kecil dan hanya membutuhkan 1 blok.
Join Buku dan Peminjaman (Hasil #5):
- Menggunakan hasil proyeksi Buku (100 tuple bid dalam 1 blok) untuk mencari data di Peminjaman melalui secondary index-nya pada bid. Metode terbaik adalah Index Nested-Loop Join.
- Cost = $b_{l u a r} + (n_{l u a r} \times (h_{i} + s)) = 1 + (100 \times (3 + 6)) = 901$ .
Join Pelanggan dengan Hasil Join Sebelumnya (Hasil #7):
- Menggunakan Hash Join. Build input adalah hasil join sebelumnya yang sudah diproyeksi ke pid (600 tuple, sangat kecil, ~1 blok). Probe input adalah hasil proyeksi Pelanggan (2222 tuple).
- Ukuran blok probe input: Tuple Pelanggan setelah proyeksi lebih kecil, anggap blocking factor menjadi 20. Maka, bprobe=⌈2222/20⌉=112 blok.
- Cost = $3 \times (b_{b u i l d} + b_{p ro b e} ) = 3 \times (1 + 112) = 339$ .

Kesimpulan

Dengan menerapkan aturan ekuivalensi (Push Projection) DAN memanfaatkan index yang tersedia, total biaya untuk rencana evaluasi baru ini adalah 2.253.

Ini menunjukkan bahwa rencana ini lebih optimal daripada rencana di soal 1 (yang biayanya 2.772), membuktikan bahwa menerapkan aturan ekuivalensi seperti mendorong proyeksi dapat menghasilkan rencana eksekusi yang lebih cepat dan efisien.

IF Notes

Explorer