2. Web Scraping de la página ESPN
- En este capítulo del curso de programación en c# con visual studio 2017 continuamos con la técnica conocida como web scraping. A grandes rasgos podemos decir que se trata de una técnica para extraer información de sitios web, se trata de un proceso para recopilar información de forma automática de páginas que encontremos publicadas en la red.
- En esta entrada comenzaremos ha obtener los datos referentes a las estadísticas de los jugadores. Para ello, utilizando la herramienta para desarrolladores que traen integrada los diferentes navegadores vemos como se llaman los componentes html de la paginas que queremos descargarnos a nuestra máquina. En nuestro caso las páginas que tienen una estructura de url similar a: http://www.espn.com/nba/player/_/id/1/ tienen un div con un class que se llama 'player-bio': div[@class='player-bio'] . Basándonos en esto podemos empezar nuestro bot.
- Os dejo el vídeo donde podemos ver lo que acabo de contar:
- Os dejo el código visto en el vídeo:
static void Main(string[] args)
{
WebClient client = new WebClient();
HtmlDocument doc = new HtmlDocument();
HtmlNode.ElementsFlags["br"] = HtmlElementFlag.Empty;
doc.OptionWriteEmptyNodes = true;
var web = HttpWebRequest.Create("http://www.espn.com/nba/player/_/id/1/");
Stream stream = web.GetResponse().GetResponseStream();
doc.Load(stream);
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//div[@class='player-bio']"))
{
Console.WriteLine(node.InnerHtml);
}
Console.ReadLine();
}
}