Implementar el algoritmo TextRank en TypeScript
El algoritmo TextRank fue introducido por Rada Mihalcea y Paul Tarau en el artículo “TextRank: Bringing Order into Texts” en 2004. Aplica el mismo principio que usa el PageRank de Google para descubrir páginas web relevantes.
La idea es dividir un texto en frases, y calcular la relevancia de cada frase en función de su similitud con las demás.
TextRank trata las palabras comunes entre dos frases como un enlace entre ellas, en una analogía con los hiperenlaces entre páginas web. Después calcula el peso de cada enlace en función del número de palabras comunes entre las dos. Esta similitud se puede calcular de diferentes formas, en ts-textrank se usa la similitud de Sorensen-Dice.
Las frases con un peso mayor serán por tanto las que compartan más palabras con el resto, y puede interpretarse que resumen mejor el contenido del texto completo.
ts-textrank es una implementación en TypeScript de este algoritmo.
También existe una extensión para Chrome que utiliza ts-textrank para subrayar automáticamente el texto de la página web que se está visitando.