Dalam konteks Internet,
mesin pencari biasanya merujuk kepada WWW dan bukan protokol ataupun
area lainnya. Selain itu, mesin pencari mengumpulkan data yang tersedia
di newsgroup, database besar, atau direktori terbuka seperti DMOZ.org. Karena pengumpulan datanya dilakukan secara otomatis, mesin pencari berbeda dengan direktori Web yang dikerjakan manusia.
Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang
menggunakan algoritma kepemilikan dan database tertutup - yang paling
populer adalah Google MSN Search dan Yahoo! tertinggal sedikit di belakang). Telah ada beberapa upaya menciptakan mesin pencari dengan sumber-terbuka (open-source), contohnya adalah Htdig, Nutch, Egothor dan OpenFTS.
Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler —
browser
web otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap
halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya,
kata-kata diambil dari judul, subjudul, atau
field khusus yang disebut meta tag).
Data tentang halaman web disimpan dalam sebuah database indeks untuk
digunakan dalam pencarian selanjutnya. Sebagian mesin pencari, seperti Google, menyimpan seluruh atau sebagian halaman sumber (yang disebut cache) maupun informasi tentang halaman web itu sendiri.
Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan
query, biasanya dengan memasukkan kata kunci,
mesin mencari indeks dan memberikan daftar halaman web yang paling
sesuai dengan kriterianya, biasanya disertai ringkasan singkat mengenai
judul dokumen dan terkadang sebagian teksnya.
Ada jenis mesin pencari lain: mesin pencari
real-time, seperti Orase.
Mesin seperti ini tidak menggunakan indeks. Informasi yang diperlukan
mesin tersebut hanya dikumpulkan jika ada pencarian baru. Jika
dibandingkan dengan sistem berbasis indeks yang digunakan mesin-mesin
seperti Google, sistem
real-time ini unggul dalam beberapa hal:
informasi selalu mutakhir, (hampir) tak ada pranala mati, dan lebih
sedikit sumberdaya sistem yang diperlukan. (Google menggunakan hampir
100.000 komputer, Orase hanya satu.) Tetapi, ada juga kelemahannya:
pencarian lebih lama rampungnya.
Manfaat mesin pencari bergantung pada relevansi
hasil-hasil yang diberikannya. Meskipun mungkin ada jutaan halaman web
yang mengandung suatu kata atau frase, sebagian halaman mungkin lebih
relevan, populer, atau autoritatif daripada yang lain. Kebanyakan mesin
pencari menggunakan berbagai metode untuk menentukan peringkat
hasil pencarian agar mampu memberikan hasil "terbaik" lebih dahulu.
Cara mesin menentukan halaman mana yang paling sesuai, dan urutan
halaman-halaman itu diperlihatkan, sangat bervariasi. Metode-metodenya
juga berubah seiring waktu dengan berubahnya penggunaan internet dan
berevolusinya teknik-teknik baru.
Sebagian besar mesin pencari web adalah usaha komersial yang didukung pemasukan iklan
dan karenanya sebagian menjalankan praktik kontroversial, yaitu
membolehkan pengiklan membayar agar halaman mereka diberi peringkat
lebih tinggi dalam hasil pencarian.
Sejarah mesin pencari
Mesin pencari pertama adalah "Wandex",
yang sekarang index yang tidak berfungsi dari World Wide Web Wanderer,
suatu web crawler dibangun oleh Matthew Gray di MIT pada 1993. Mesin
pencari lain yang lama, Aliweb,
juga muncul di 1993 dan masih berjalan hingga saat ini. Salah satu
mesin pencari pertama yang sekarang berkembang menjadi usaha komersial
yang cukup besar adalah Lycos, yang dimulai di Carnegie Mellon
University sebagai proyek riset di tahun 1994.
Segera
sesudah itu, banyak mesin pencari yang bermunculan dan bersaing
memperebutkan popularitas. Termasuk di antaranya adalah WebCrawler,
Hotbot, Excite, Infoseek, Inktomi, dan AltaVista. Mereka bersaing
dengan direktori-direktori populer seperti misalnya Yahoo. Belakangan
direktori-direktori ini menggabungkan atau menambahkan teknologi mesin
pencari agar fungsinya semakin meningkat.
Pada tahun 2002, Yahoo! mengakuisisi Inktomi dan pada 2003, mengakuisisi Overture yang memiliki AlltheWeb dan Altavista.
Tahun 2004, Yahoo! meluncurkan mesin pencarinya sndiri yang didasarkan
pada teknologi gabungan dari mesin-mesin yang telah diakuisisinya dan
memberikan pelayanan yang mengutamakan mesin pencari Web daripada
direktorinya.
Pada Desember 2003, Orase
menerbitkan versi pertama dari teknologi pencari waktu-riilnya. Mesin
ini memiliki banyak fungsi baru dan performancenya meningkat sangat
hebat.
Mesin
pencari juga dikenal sebagai bintang-bintang yang paling
cemerlang dalam perlombaan investasi Internet yang terjadi pada akhir
tahun 1990-an.
Beberapa perusahaan masuk ke dalam pasar dengan hebat, mencatat
keuntungan besar pada penawaran publik pertamanya. Sebagian lagi sama
sekali menyingkirkan mesin pencari publiknya, dan hanya memasarkan
edisi-edisi Enterprise saja, seperti misalnya Northern Light yang
dulunya adalah salah satu dari 8 atau 9 mesin pencari awal setelah
Lycos muncul.
Sebelum
munculnya Web, ada pula mesin-mesin pencari untuk [protokol]] atau
penggunaan lain, seperti misalnya Archie search engine untuk
situs-situs FTP anonim dan Veronica search engine untuk Gopher protocol.
Buku Osmar R. Zaïane From Resource Discovery to Knowledge Discovery on the Internet menjelaskan secara rinci sejarah teknologi mesin pencari sebelum munculnya Google.
Mesin-mesin
pencari lainnya mencakup a9.com, AlltheWeb, Ask Jeeves, Clusty,
Gigablast, Teoma, Wisenut, GoHook, Kartoo, dan Vivisimo.
Macam-macam search engine