Google Patent puede explicar cómo se clasifican los sitios

Bill Slawski escribió sobre una patente de Google que parece explicar lo que sucedió en la actualización de Medic mal nombrada.

Bill dijo que el alcance es más amplio que solo los sitios médicos.

La patente puede mostrar por qué algunos sitios no pueden clasificarse.

Advertencia sobre las patentes

Es importante tener en cuenta que Google no suele confirmar si un algoritmo descrito en una patente está en uso. Esta patente puede o no ser utilizada en el algoritmo de Google.

¿De qué trata Google Patent?

La patente describe una forma de clasificar las consultas de búsqueda y los sitios web por tema.

  • Los sitios web se clasifican por temas.
  • Las consultas de búsqueda se clasifican por temas.

Dominios de conocimiento = Temas

En esta patente, el algoritmo está trabajando con lo que llama dominios de conocimiento que representan temas. Se puede decir que las consultas de búsqueda y las páginas web pertenecen a dominios de conocimiento específicos.

Así es como Bill describe los dominios de conocimiento:

“Las palabras” dominio del conocimiento “representan temas sobre los que puede tratarse una consulta, y no son una referencia a un gráfico de conocimiento”.

Y en su artículo afirma:

“Las consultas de dominios de conocimiento específicos (que cubren temas específicos) pueden arrojar resultados utilizando sitios que se clasifican como del mismo dominio de conocimiento”.

Páginas temáticas

Una forma de simplificar este concepto es pensar en grupos de temas.

En un tema, las páginas sobre información médica van en un paquete, las páginas sobre salud natural entran en otro paquete, las páginas sobre las revisiones de teléfonos celulares en un contenedor diferente y las páginas sobre abogados de lesiones personales en una ciudad específica podrían entrar en otro contenedor y así sucesivamente.

Consultas de tema

Según la patente, las consultas de búsqueda también se pueden reconocer como pertenecientes a sus propios depósitos.

Entonces, cuando alguien busca “qué es la diabetes”, Google entiende que esta consulta de búsqueda es una pregunta médica y no una pregunta de curación natural.

Google Patent describe sitios de clasificación y consultas

Así es como la patente describió este sistema de clasificación:

Clasifica sitios web

“El motor de búsqueda … puede usar datos de un sistema de clasificación de sitios web … para generar resultados de búsqueda.

Por ejemplo, el sistema de clasificación de sitios web … puede generar representaciones para cada uno de los múltiples sitios web … y usar las representaciones para determinar una clasificación para cada uno de los múltiples sitios web … “

Clasifica consultas de búsqueda

“El motor de búsqueda … puede usar una clasificación para una consulta de búsqueda para seleccionar una categoría de sitios web con la misma clasificación o similar.

El motor de búsqueda … puede determinar los resultados de búsqueda de la categoría seleccionada de sitios web”.

Sitios organizados en grupos

La patente describe un proceso que organiza sitios web clasificándolos.

“… los sistemas y métodos descritos en este documento pueden mejorar las páginas de resultados de búsqueda generadas por un sistema de búsqueda al incluir solo la identificación de sitios web con una clasificación particular …”

El sistema de clasificación podría crear grupos basados ​​en la probabilidad de que un sitio web contuviera la respuesta a una consulta:

“El sistema de clasificación de sitios web … puede determinar las clasificaciones en función de una capacidad de respuesta probable para los sitios web en el grupo correspondiente.

Por ejemplo, los sitios web en el primer grupo pueden tener una mayor probabilidad de responder a las consultas en el dominio de conocimiento particular que los sitios web en el segundo grupo”.

Luego, describe escenarios en los que un sitio puede omitirse y no clasificarse.

Lo que me parece interesante es que menciona el análisis de omisión porque el grupo en el que se encuentra un sitio está lejos de los grupos conocidos de sitios sobre un tema.

“En algunas implementaciones, uno o más de los sitios web utilizados durante el entrenamiento pueden no asignarse a una clasificación.

Por ejemplo, cuando la representación de un sitio web está a más de un umbral de distancia de un grupo, o si no está incluida en un grupo, el sistema de clasificación del sitio web …

…puede decidir omitir el uso de la representación del sitio web para crear una representación compuesta, por ejemplo, puede determinar omita más análisis del sitio web durante la capacitación”.

La autoridad es una clasificación

“… cada sitio web en la pluralidad de sitios web puede tener una puntuación.

El puntaje puede indicar una clasificación del sitio web, como una autoridad, una capacidad de respuesta para un dominio de conocimiento particular, otra propiedad del sitio web o una combinación de dos o más de estos”.

La patente es más que sitios médicos

Lo importante es comprender que los procesos descritos en esta patente se aplican a una amplia gama de temas específicos. Este no es un algoritmo médico. Es mucho más que una simple patente médica.

De acuerdo con Bill:

“La patente se centró en más que solo sitios médicos. Se clasificó por industria con la salud como uno de esos. Más tarde se ordenó por puntajes de calidad.

La patente proporcionó un ejemplo específicamente para sitios médicos … Pero dejó en claro que involucra a múltiples industrias.

Las consultas también se clasificaron en función de dominios de conocimiento”.

Para llevar: implicaciones para la clasificación

La parte sobre la agrupación es intrigante porque menciona características como la autoridad y las distancias de otros grupos de sitios.

Una medida de autoridad son los enlaces. Y resulta que hay mucha investigación sobre algoritmos que clasifican los sitios web según los temas.

Los algoritmos eligen sitios semilla que representan el sitio más autorizado en una clasificación de tema particular. Luego se puntúan otros sitios de acuerdo con la distancia a la que están de los sitios de semillas.

Este algoritmo emplea un sistema similar en el que un sitio que está lejos de otros grupos esencialmente se descartará y no se considerará para su clasificación.

No se mencionan los enlaces en el contexto de su uso como medida de autoridad.

Pero las similitudes entre los algoritmos de clasificación de distancia de enlace que clasifican los sitios de acuerdo con los temas y crean grupos de sitios basados ​​en temas es una especie de reflejo de cómo este algoritmo hace una agrupación similar con temas de contenido.

Puede que no sea irracional especular que esto refuerza la creencia común (y lo hace más urgente) de que los enlaces de páginas relevantes pueden mejorar la clasificación.

Para llevar: Google Update Recovery

Estas ideas sobre el algoritmo de Google validan mis sugerencias sobre la recuperación de actualizaciones de Google en general y la recuperación de la llamada Actualización Médica en particular.

“La llamada actualización” Medic “parecía estar claramente relacionada con cuestiones de relevancia, no con biografías de los autores o “experiencia”.

Quizás una de las ideas clave de esta patente es que puede ser útil analizar los problemas de clasificación desde la perspectiva de la relevancia.

En mi experiencia, consultar sitios que han perdido clasificaciones, si las clasificaciones de su sitio han sufrido un colapso catastrófico, eso puede estar parcialmente relacionado con algo similar a lo que se describe en esta patente.

Fuente y foto: https://www.searchenginejournal.com/google-algorithm-patent/351146/