Wyszukiwanie informacji: wprowadzenie dla SEO

Czy zastanawiałeś się kiedyś, jak wyszukiwanie informacji działa w Google i jak wpływa na Twoją pracę? Zapoznaj się z podstawami, korzystając z tego przewodnika. Kiedy mówimy o wyszukiwaniu informacji, jako specjaliści SEO skupiamy się głównie na etapie zbierania informacji – indeksowaniu. Podczas tej fazy wyszukiwarka będzie wykrywać i indeksować adresy URL, do których ma dostęp (ilość i szerokość zależą od innych czynników, które potocznie nazywamy budżetem indeksowania ).

 

Faza indeksowania nie jest czymś, na czym będziemy się koncentrować w tym artykule, ani nie będę szczegółowo omawiać, jak działa indeksowanie. Więcej informacji na temat przeszukiwania i indeksowania można znaleźć tutaj. W tym artykule omówię niektóre podstawy wyszukiwania informacji, które, jeśli zostaną zrozumiane, mogą pomóc w lepszej optymalizacji stron internetowych pod kątem wyników w rankingu.

 

Może również pomóc w lepszej analizie zmian algorytmów i aktualizacji strony wyników wyszukiwania (SERP). Aby zrozumieć i docenić sposób, w jaki współczesne wyszukiwarki przetwarzają praktyczne wyszukiwanie informacji, musimy zrozumieć historię wyszukiwania informacji w Internecie – w szczególności jego związek z procesami wyszukiwarek.

 

Jeśli chodzi o cyfrowe wyszukiwanie informacji i podstawowe technologie przyjęte przez wyszukiwarki, możemy cofnąć się do lat 60. XX wieku i Uniwersytetu Cornell, gdzie Gerard Salton kierował zespołem, który opracował system wyszukiwania informacji SMART. Saltonowi przypisuje się opracowanie i wykorzystanie modelowania przestrzeni wektorowej do wyszukiwania informacji.

 

Modele przestrzeni wektorowej

Modele przestrzeni wektorowej są akceptowane w społeczności zajmującej się nauką o danych jako kluczowy mechanizm „wyszukiwania” wyszukiwarek, a platformy takie jak Amazon dostarczają rekomendacji. Ta metoda umożliwia podmiotowi przetwarzającemu, takiemu jak Google, porównywanie różnych dokumentów z zapytaniami, gdy zapytania są reprezentowane jako wektory.

 

Google określa to w swoich dokumentach jako wyszukiwanie podobieństw wektorowych lub „wyszukiwanie najbliższego sąsiada”, zdefiniowane przez Donalda Knutha w 1973 roku. W tradycyjnym wyszukiwaniu słów kluczowych procesor używałby słów kluczowych, znaczników, etykiet itp. w bazie danych, aby znaleźć odpowiednią treść.

 

Jest to dość ograniczone, ponieważ zawęża pole wyszukiwania w bazie danych, ponieważ odpowiedź jest binarna tak lub nie. Ta metoda może być również ograniczona podczas przetwarzania synonimów i encji pokrewnych. Im bliżej są te dwa podmioty pod względem bliskości, tym mniejsza jest odległość między wektorami i tym większe jest ich podobieństwo/dokładność.

wprowadzenie dla SEO

Aby temu zaradzić i zapewnić wyniki dla zapytań z wieloma powszechnymi interpretacjami, Google używa podobieństwa wektorów, aby powiązać ze sobą różne znaczenia, synonimy i jednostki. Dobrym tego przykładem jest wygooglowanie mojego imienia i nazwiska.

 

Dla Google [dan taylor] może być:

  • Ja, osoba zajmująca się SEO.
  • Brytyjski dziennikarz sportowy.
  • Lokalny reporter wiadomości.
  • Porucznik Dan Taylor z Forresta Gumpa.
  •  
  •  

Używając tradycyjnego wyszukiwania słów kluczowych z binarnymi kryteriami tak/nie, nie uzyskasz takiego rozkładu wyników na pierwszej stronie. Dzięki wyszukiwaniu wektorów procesor może utworzyć stronę wyników wyszukiwania w oparciu o podobieństwa i relacje między różnymi podmiotami i wektorami w bazie danych.

Dopasowywanie podobieństw

Porównując dokumenty w ten sposób, wyszukiwarki prawdopodobnie stosują kombinację wagi terminu zapytania (QTW) i współczynnika podobieństwa. QTW stosuje ważenie do określonych terminów w zapytaniu, które jest następnie używane do obliczenia współczynnika podobieństwa przy użyciu modelu przestrzeni wektorowej i obliczonego przy użyciu współczynnika cosinus.

 

Podobieństwo cosinusowe mierzy podobieństwo między dwoma wektorami iw analizie tekstu służy do pomiaru podobieństwa dokumentów. Jest to prawdopodobny mechanizm, w jaki wyszukiwarki określają zduplikowane treści i propozycje wartości w witrynie. Cosinus jest mierzony między -1 a 1. Tradycyjnie na wykresie podobieństwa kosinusowego będzie on mierzony między 0 a 1, gdzie 0 oznacza maksymalną odmienność lub ortogonalność, a 1 oznacza maksymalne podobieństwo.

 

Rola indeksu

W SEO dużo mówimy o indeksie, indeksowaniu i problemach z indeksowaniem – ale nie mówimy aktywnie o roli indeksu w wyszukiwarkach. Celem indeksu jest przechowywanie informacji, które Google wykonuje za pomocą wielopoziomowych systemów indeksowania i fragmentów, aby działać jako rezerwuar danych.

Dzieje się tak dlatego, że zdalny dostęp (przeszukiwanie) stron internetowych, analizowanie ich treści, ocenianie ich, a następnie prezentowanie SERP w czasie rzeczywistym jest nierealne, nieopłacalne i słabe dla użytkownika końcowego. Zazwyczaj współczesny indeks wyszukiwarki nie zawierałby pełnej kopii każdego dokumentu, ale jest raczej bazą danych kluczowych punktów i danych, które zostały tokenizowane. Sam dokument będzie wówczas przechowywany w innej pamięci podręcznej.

 

Chociaż nie znamy dokładnie procesów, przez które przechodzą wyszukiwarki, takie jak Google, w ramach ich systemu wyszukiwania informacji, prawdopodobnie będą one miały następujące etapy:

  • Analiza strukturalna — format i struktura tekstu, listy, tabele, obrazy itp.
  • Stemming – Redukcja odmian słowa do rdzenia. Na przykład „szukano” i „wyszukiwanie” zostałoby zredukowane do „szukaj”.
  • Analiza leksykalna — konwersja dokumentu na listę słów, a następnie analiza w celu zidentyfikowania ważnych czynników, takich jak daty, autorzy i częstotliwość terminów. Należy zauważyć, że nie jest to to samo, co TF*IDF.

Oczekujemy również, że podczas tej fazy zostaną wzięte pod uwagę inne kwestie i punkty danych, takie jak linki zwrotne, typ źródła, to, czy dokument spełnia próg jakości, wewnętrzne linki, główna treść/treść pomocnicza itp.

 

Dokładność i wyszukiwanie po odzyskaniu

W 2016 roku Paul Haahr dał świetny wgląd w to, jak Google mierzy „sukces” swojego procesu, a także jak stosuje korekty po pobraniu. Jego prezentację można obejrzeć tutaj. W większości systemów wyszukiwania informacji istnieją dwie główne miary skuteczności systemu w zwracaniu dobrego zestawu wyników. Są to precyzja i pamięć.

 

Precyzja

Liczba zwróconych dokumentów, które są istotne, w porównaniu z całkowitą liczbą zwróconych dokumentów. Wiele witryn odnotowało spadki całkowitej liczby słów kluczowych, dla których zajmują pozycję w rankingu w ciągu ostatnich miesięcy (takich jak dziwne, skrajne słowa kluczowe, dla których prawdopodobnie nie miały prawa w rankingu). Możemy spekulować, że wyszukiwarki udoskonalają system wyszukiwania informacji, aby uzyskać większą precyzję.

 

Przypomnienie sobie czegoś

Liczba odpowiednich dokumentów w porównaniu z całkowitą liczbą zwróconych odpowiednich dokumentów. Wyszukiwarki bardziej skupiają się na precyzji niż na przypominaniu, ponieważ precyzja prowadzi do lepszych wyników wyszukiwania i większej satysfakcji użytkowników. Zwracanie większej liczby dokumentów i przetwarzanie większej ilości danych niż jest to wymagane jest również mniej obciążające system.

Wniosek

Praktyka wyszukiwania informacji może być złożona ze względu na różne stosowane formuły i mechanizmy. Na przykład:

  • Częstotliwość termiczna/odwrotna częstotliwość dokumentu (TF*IDF).
  • Utajone indeksowanie semantyczne (LSI ) i PLSI.
  • Przybitka.

 

Ponieważ nie do końca wiemy lub rozumiemy, jak ten proces działa w wyszukiwarkach, powinniśmy bardziej skupić się na dostarczonych podstawach i wskazówkach niż na próbach gry w metryki, takie jak TF*IDF, które mogą, ale nie muszą być używane (i różnią się sposobem ważenia w wyniku ogólnym).