Historia de Google: del PageRank a su modelo de negocio

Por Juan González Villa

El pasado 4 de septiembre de 2018 Google cumplió oficialmente 20 años. En este post he reunido una serie de claves y anécdotas de los inicios de Google, para explicar cómo se convirtió en el buscador más importante del mundo y de dónde viene su modelo de negocio. Espero que sea de interés tanto para profesionales del SEO como para un público más general.

¿Cómo y dónde se ideó Google?

1996. Larry Page se está doctorando en Computer Science en Stanford y busca tema para su tesis mientras surfea por internet. La web es una masa de páginas enlazadas entre sí, pero sin ninguna jerarquía. Page idea un sistema para ponerlas en orden, inspirándose en el concepto de citación, usado en el mundo académico.

El análisis de citaciones se usa en el sistema académico desde los años 60, para calcular la importancia o influencia de un paper o ensayo científico. Cuanto más lo citan otros trabajos, más importante. Y en eso se basa el PageRank, el algoritmo original de Google para rankear documentos.

Terry Winograd, supervisor de Page en Stanford, le dijo al conocer la idea que era un gran tema para su tesis, pero le advirtió de un problema técnico: ¿cómo rastrear e indexar toda la web? Larry contestó que lo haría, pensando que tardaría una semana en hacerlo. En realidad, tardó varios meses.

Page no trabajó solo. El primero en unirse fue su amigo y compañero en Stanford Sergey Brin, que estaba trabajando en sistemas de data mining, y que era otro genio precoz de las matemáticas. Al saber la idea de Larry, lo dejó todo y aportó sus conocimientos de cálculo al proyecto.

¿Cómo funcionaba Google en sus inicios?

Page escribió un primer programa en Java para rastrear la web. Pero estaba lleno de bugs y Java se bloqueaba. Recurrieron a Scott Hassan, profesor en Stanford, que tras mucho pelear con el código, decidió reescribirlo totalmente en Python, consiguiendo un código mucho más estable.

El programa, un crawler o bot tal y como lo conocemos hoy, visitaba una página, apuntaba todos los links que había en esa página y los añadía a una cola para visitar luego. Si en la cola había páginas ya visitadas, las saltaba y seguía repitiendo el proceso una y otra vez.

Marzo de 1996. El primer test. La primera página rastreada fue la página de inicio del departamento de Computer Science en Stanford. El programa se llamaba Backrub, porque trataba de descubrir los backlinks de una página (todas las páginas de internet que enlazan a esta).

El primer rastreo consiguió indexar 15 millones de páginas. Sólo guardaban los títulos, no el documento entero, ya que no tenían espacio suficiente. Los primeros resultados dejaban claro que Backrub podía ser un buscador muy superior al líder del momento: Altavista. La razón estaba en el PageRank.

¿Qué es el PageRank?

PageRank es un algoritmo engañosamente simple que rankea los documentos no sólo según el número de enlaces que recibe, sino según la importancia de las páginas que la enlazan. Para ser efectivo, este cálculo necesita «conocer» la práctica totalidad de la web.

Y eso es lo que hicieron Page y Brin, convertir la web en una ecuación gigantesca con cientos de millones de variables (el PageRank de cada documento) y miles de millones de términos (los enlaces entre documentos).

El PR de una página concreta es una función que añade el PR de cada una de las páginas que la enlazan, dividido entre el número de enlaces salientes que tiene cada una de esas páginas, y sustrayendo en cada caso un porcentaje de PR que se diluye (el damping factor).

Esta ecuación simula el comportamiento de una persona que navega por la web, haciendo clic de manera aleatoria en los enlaces que se va encontrando. El PR de una página es la posibilidad de que esta persona «aterrice» en esa página siguiendo enlaces al azar. Por eso el modelo propuesto por PageRank se denomina también random surfer.

El damping factor representa la posibilidad de que esa persona se canse de seguir enlaces y simplemente escriba una nueva url en el navegador para ir a un lugar de la web no enlazado desde la página actual.

En el algoritmo original el damping factor valía 0.85. Es decir, el PR que pasa cada página a las que enlaza, se multiplica por 0.85, con lo cual se «está perdiendo» por el camino un 15% del PR (siempre según la fórmula original del PR).

Aquí puedes leer el ensayo original donde Page y Brin daban a conocer el PageRank, y por tanto su buscador, al mundo académico. Titulado «The Anatomy of a Web Search Engine», se le suele conocer como Backrub, que era como Page y Brin llamaban a su buscador por entonces.

¿Fue el PageRank una idea totalmente original?

La verdad es que no. Existen otros algoritmos basados en enlaces para calcular la importancia de una página, y desarrollados más o menos al mismo tiempo que el PageRank. Son el HITS de Jon Kleinberg y RankDex, de Robin Li, que incluso fue patentado en 1997 por Dow Jones, la empresa donde trabajaba Li.

Una anécdota: Robin Li volvió a China y en el año 2000 creó Baidu, el buscador número 1 de China, donde Google nunca ha conseguido penetrar, debido a sus problemas con la censura china y a la posición dominante de Baidu.

Más polémico aun, y claramente anterior a HITS y PageRank, es el papel de un proyecto de buscador llamado HyperSearch, ideado por Massimo Marchiori. Parece innegable que Larry Page conocía este trabajo, porque lo cita en la patente de PageRank de 1998. Pero HyperSearch no tuvo ninguna aplicación en el mundo real, ya que Marchiori no consiguió fondos para elaborar su idea.

El hecho esencial es que ni HITS, ni RankDex ni la idea de Marcheri pasaron nunca de teorías o experimentos iniciales, mientras que PageRank tuvo una aplicación casi inmediata.

De idea a negocio: primeros años de Google

David Cheriton, prestigioso profesor de Stanford, bien conectado en el mundo de las start ups de Silicon Valley, animó desde el principio a Page y Brin a convertir su buscador en un negocio.

Lo primero que intentaron fue vender su tecnología a otros buscadores. Tuvieron reuniones con Yahoo, Altavista y Excite. Esta última estuvo a punto de dar el sí, hasta que el CEO de Excite se dio cuenta de que Backrub era «demasiado bueno» encontrando resultados… La explicación de esta paradoja era que los ingresos de Excite dependían del tiempo que los usuarios pasaban buscando resultados en sus páginas. Si los encontraban demasiado rápido, como hacía Backrub, eso era «malo» para el negocio. Excite acababa de perder una de las mayores oportunidades de todos los tiempos.

Excite y Altavista se hundieron porque ponían por delante su capacidad de generar ingresos, incluso si esto significaba perjudicar al usuario. Google siempre puso por delante al usuario. Cuanto antes encuentre lo que busque, mejor para el usuario y para Google. Y así se convirtió en el buscador número uno.

Al final, como nadie quería comprar, Page y Brin decidieron montar el negocio por su cuenta.

¿Qué significa Google?

Había que poner un nombre al buscador. Alguien en Stanford sugirió «Googol», que significa un 1 seguido de cien ceros. Page escribió «Google» por error, pero fue una suerte, porque el dominio google.com estaba libre.

Brin creó el logo y la página de inicio con GIMP, un software libre que todavía se usa hoy. Como no sabía de diseño y no quería complicarse, dejó la página casi en blanco. Esto lo diferenció de la competencia desde el principio, y además ayudaba a que Google cargase más rápido.

Ahora faltaban inversores. David Cheriton puso en contacto a Page y Brin con Andy Bechtolsheim, pez gordo de Silicon Valley. Bechtolsheim vio una demo de Google y 10 minutos después ya había firmado un cheque de 100.000 dólares a nombre de Google, Inc. Page y Brin, que ni siquiera tenían una cuenta bancaria en la que ingresar el cheque, lo celebraron desayunando en un Burger King.

Antes de marcharse en su descapotable, Bechtolsheim les dio una pequeña sugerencia: «Deberíais poner publicidad en el buscador». A partir de ahora se debían a sus inversores. El problema de la publicidad no se resolvería completamente hasta 2002.

Primeros empleados, sedes e inversores

Larry y Sergey hicieron el papeleo para convertirse en una Inc (más o menos equivalente a nuestra SA) y sacaron sus ordenadores de Stanford. Su primera oficina, un garaje en casa de Susan Wojcicki, amiga de Brin y poco después empleada clave de Google (ha sido head de AdWords y hoy es CEO de YouTube)

La primera adquisición de Page fueron más ordenadores, para albergar su índice, que no paraba de crecer. Los compró a precio de saldo, una constante que presidiría su estrategia de data centers e infraestructura low cost para poder escalar su bestial expansión.

No gastaron ni un céntimo en marketing para dar a conocer su producto. Preferían gastar en servidores y fichar ingenieros. Sabían que el boca a oreja estaba funcionando, y Google empezaba a salir de los círculos de Stanford y Silicon Valley…

Más gente quería invertir. En 1998 entraron Cheriton, Ram Shriram y Jeff Bezos, el fundador de Amazon, aumentando el capital de Google hasta 1 millón de dólares. Y sólo un año después, en una ronda de 25 millones de dólares entraron los principales inversores de Silicon Valley.

Volvemos a 1998. El mundo empezaba a conocer a Google. Usarlo por primera vez y convertirlo en tu buscador favorito era todo uno. Hasta los ingenieros de AltaVista reconocían que era 10 veces mejor que su producto, y todos querían desertar para irse a Google (muchos lo hicieron).

Algunos de los fichajes estrella de esta etapa y que serían nombres clave en el ascenso y evolución de Google: Urs Holzle, Jeff Dean, Krishna Bharat (creador del hilltop algorithm), Ben Gomes, Amit Singhal… Google estaba construyendo un Dream Team de especialistas en Information Retrieval y la tecnología necesaria para rastrear e indexar la web. Machacar a la competencia era cuestión de tiempo.

El crecimiento no fue fácil. El index sólo podía actualizarse si tenían espacio disponible en sus servidores. Y la web crecía tan rápido que cada vez era más difícil pretender indexarlo todo. Peor: si un rastreo fallaba antes de completarse, había que empezar toda la indexación de nuevo. En el año 2000, el índice de Google pasó varios meses sin actualizarse.

Jeff Dean ideó la solución: un nuevo sistema de rastreo e indexación que permitió superar la crisis. Guardaba el index «en partes» de forma paralela, para que un error no afectase a todo el sistema. Siempre había copias de seguridad.

Google no sólo mejoró el rastreo e indexado en estos primeros años de actividad. Amit Singhal reescribió en 2001 el código que evaluaba la relevancia de una página. Se probó con usuarios reales y vieron que aumentaba la satisfacción con los resultados. Habían nacido los updates del algoritmo para mejorar la calidad y relevancia de los resultados de Google.

Matt Cutts fue el primer líder del departamento anti-spam de Google. Cutts empezó trabajando en un filtro llamado SafeSearch, para que los usuarios pudieran bloquear la aparición de páginas porno entre los resultados de sus búsquedas.

Buscando páginas porno que bloquear, se dio cuenta de que ciertos sitios habían descubierto cómo manipular o «engañar» al algoritmo de Google, rankeando alto para búsquedas donde no merecían estar. El SEO empezaba a asomar la cabeza y Cutts convenció a sus jefes de que debía existir un nexo entre Google y la comunidad de webmasters. Matt Cutts fue durante años la cabeza visible de esa comunicación, que hoy está en manos de Danny Sullivan, John Müller y Gary Illyes.

¿Cuál es el modelo de negocio de Google?

¿Y qué hay de la publicidad? Page y Brin eran reacios a incluir publicidad de cualquier manera, algo de lo que Altavista y otros abusaban. Pero si pudieran dar con un sistema para mostrar resultados de publicidad relevantes para la búsqueda del usuario… ¡Eso sería la gallina de los huevos de oro!

El primer embrión de este sistema fue obra de Jeff Dean y Marissa Mayer (luego CEO de Yahoo). Escrapearon Amazon, y cada vez que alguien buscaba un libro que estaba a la venta en Amazon, aparecía un resultado de pago con un enlace de afiliado hacia Amazon. Luego el sistema se abrió a otros anunciantes.

La clave fue un sistema de puja, basado en la cantidad que el anunciante estaba dispuesto a pagar y la calidad que un algoritmo asignaba a cada anuncio. Fue idea de Eric Veach (un ingeniero que decía odiar los anuncios) y Salar Kamangar, autor del primer plan de negocio de Google.

Así nació Google AdWords (hoy Google Ads), plataforma pensada inicialmente para pequeños anunciantes. Cualquiera podía meter su tarjeta de crédito y pujar por clics en las palabras clave elegidas. Su novedad era que no pagabas el 100% de tu puja, sino sólo un céntimo más de lo que ofrecía el siguiente anunciante. AdWords daba anuncios relevantes para las búsquedas, que no molestaban a los usuarios, y los anunciantes se apuntaban en masa a probarlo.

Gracias a AdWords, 2002 fue el primer año con beneficios para los inversores de Google. Page y Brin habían encontrado su gallina de los huevos de oro. Aún hoy, la publicidad en Google sigue significando entre el 85% y el 90% de los ingresos de Alphabet, empresa matriz de Google. Es una especie de círculo virtuoso. Adwords no habría sido posible sin la gran calidad de los resultados orgánicos (no de pago) de Google, que es el prinicpal reclamo para los usuarios. Y el negocio millonario de Google no habría sido posible sin Adwords.

Luego se unió Google Adsense, un sistema que proporcionaba un sistema de monetización para bloggers y magazines online. Adsense creó otro nuevo flywheel o círculo virtuoso para Google, ya que miles de personas y pequeñas organizaciones en todo el mundo se ven incentivados a crear y publicar contenido que responde a las búsquedas de los usuarios de Google, multiplicando al mismo tiempo el inventario para publicar anuncios que Google ofrece a sus anunciantes.

Así es como Google se convirtió en el primer buscador del mundo, con una cuota de mercado que en la mayoría de países del mundo supera el 90% (con Rusia y China como principales excepciones). El Imperio Google no ha hecho más que comenzar.

————————-

Referencias:

In The Plex. How Google Thinks, Works, and Shapes Our Lives (Stephen Levy)

Los innovadores: Los genios que inventaron el futuro (Walter Isaacson)

Suscríbete a 10 Links Azules, la newsletter semanal de USEO







Información legal porque así lo quiere el RGPD

El responsable de recoger y guardar estos datos que me das voluntariamente es un servidor, Juan González Villa, con la única finalidad de informarte con nuevos posts en mi blog, eventos profesionales y enviarte mi newsletter.

Tienes derecho a cancelar tu suscripción en cualquier momento y puedes ejercer tu derecho a rectificar o solicitar eliminación de tus datos, tal y como se recoge en la Política de Privacidad.

Utilizamos Acumbamail como nuestra plataforma de marketing. Al hacer clic a continuación para suscribirse, reconoces que tu información será transferida a Acumbamail para su procesamiento. Obtenga más información sobre las prácticas de privacidad de Acumbamail aquí.

4 comentarios en «Historia de Google: del PageRank a su modelo de negocio»

  1. Genial post Juan, como siempre =).
    Me apunto las referencias que dejas y añado el primer libro que leí sobre la historia de Google, por si le interesa a alguien:

    «Desnudando a Google: La inquietante realidad que no quieren que conozcas» de Alejandro Suárez Sánchez-Ocaña.

    Abrazo!

  2. debo decir que he quedado con ganas de seguir leyendo sobre Google.. a pesar de que mundo (en una línea de texto) está escrito *mudno, es una lectura inspiradora!! jeje gracias crack!

Los comentarios están cerrados.