Cara Kerja Google Search Engine #
Google Search adalah mesin penelusuran Google yang menggunakan software bernama Web Crawler untuk menjelajahi web secara rutin guna menemukan halaman web yang akan ditambahkan ke halaman indek Google.
Faktanya, sebagian besar halaman web yang ditampilkan pada halaman Google Result Page (SERP) dari hasil Crawl tidak dikirimkan secara manual untuk ditampilkan, namun ditemukan dan ditambahkan secara otomatis saat web crawler mengeksplorasi halaman web tersebut.
Secara umum Google Search bekerja dalam tiga tahap berikut dalam merambani sebuah halaman web, dan tidak semua halaman berhasil melewati setiap tahap :
Crawling – Google mendownload teks, gambar, dan video dari halaman web dengan program otomatis yang disebut crawler.
Pengindekan – Google menganalisis file video, gambar, dan teks di halaman, serta menyimpan informasi tersebut di indeks Google yang merupakan database berukuran besar.
Penayangan – Saat pengguna melakukan penelusuran di Google, Google akan menampilkan informasi yang relevan dengan kueri pencarian.
Unsur Yang Mempengaruhi Crawl Dan Pengindekan Untuk Halaman Web #
Dengan mengetahui unsur-unsur yang mempengaruhi Google Search dalam meramban halaman web, maka Anda akan dapat mengontrol Googlebot dalam menemukan dan mengurai konten web Anda guna menampilkannya di Google Result Page dan juga cara mencegah Googlebot meng-crawl konten tertentu di situs Anda. Berikut deskripsi singkatnya :
Jenis file yg dapat diindek | .pdf .ps .csv .kml .kmz .gpx .hwp .htm .html .xls .xlsx .ppt .pptx .doc .docx .odp .ods .odt .rtf .svg .tex .txt .text .bas .c .cc .cpp .cxx .h .hpp .cs .java .pl .py .wml .wap .xml .bmp .gif .jpeg .png .webp .svg .3gp .3g2 .asf .avi .divx .m2v .m3u .m3u8 .m4v .mkv .mov .mp4 .mpeg .ogv .qvt .ram .rm .vob .webm .wmv .xap |
Struktur URL | Pertimbangkan URL yang disusun secara logis dan dapat dipahami oleh pengguna. contoh : https://en.wikipedia.org/wiki/Aviation |
Sitemap | Memberi tahu Googlebot tentang halaman di situs Anda yang baru atau diperbarui. Contoh : https://example.com/sitemap.xml |
robots.txt | File robots.txt memberi tahu crawler mesin telusur halaman atau file mana yang dapat atau tidak dapat diminta oleh crawler dari situs. |
Canonical | Pelajari apa itu kanonikalisasi URL dan cara memberi tahu Google tentang halaman duplikat di situs Anda untuk menghindari crawling yang berlebihan. Pelajari cara Google mendeteksi otomatis konten duplikat, menangani konten duplikat, dan menetapkan URL kanonis ke grup halaman duplikat yang ditemukan. |
Metadata Halaman dan Konten | 1. Menggunakan HTML yang valid untuk menentukan metadata halaman 2. Semua tag meta yang dipahami oleh Google 3. Spesifikasi tag meta Robots, data-nosnippet, dan X-Robots-Tag 4. Memblokir pengindeksan dengan tag meta noindex 5. SafeSearch dan situs Anda 6. Menjadikan link dapat di-crawl 7. Mengualifikasi link keluar ke Google dengan atribut rel |
Pengahpusan | 1. Mengontrol informasi yang dibagikan dengan Google 2. Menghapus halaman yang dihosting di situs Anda dari Google 3. Menghapus gambar yang dihosting di halaman Anda agar tidak muncul di hasil penelusuran 4. Cara agar informasi yang disamarkan tidak masuk ke Google Penelusuran |
Pemindahan dan perubahan situs | 1. Pengalihan dan Google Penelusuran 2. Pemindahan situs 3. Meminimalkan dampak pengujian A/B di Google Penelusuran 4. Menjeda atau menonaktifkan situs untuk sementara |