Selenium como herramienta de Web Scraping

  • Published on
    29-Aug-2014

  • View
    3.744

  • Download
    0

DESCRIPTION

Charla en el grupo de Python Zaragoza

Transcript

Selenium como herramienta de Web Scraping @dani_latorre - 26/08/2013 - Zaragoza Python Days Web Scraping ... es una tcnica utilizada mediante programas de software para extraer informacin de sitios web. Ingeniera inversa Controvertido Selenium Selenium is a suite of tools to automate web browsers across many platforms. Testing de aceptacin web Automatizacin de acciones de usuario Web scraping Bindings Python Java C# Ruby Javascript - Node PHP, Perl (mantenidos por terceros) Otras libreras urllib Mechanize BeautifulSoup/lxml Scrapy (crawling) Viene bien XPath Selectores CSS Expresiones Regulares Mucha paciencia Por qu selenium? Caso ShuttleCloud Migracin entre proveedores de email Necesidad de escalabilidad Homogeneizar scrapers Herramienta madura Infraestructura (EC2) 1 Selenium Hub 3 Selenium Grid (15 refox) 1 BrowserMob Proxy 3 BigCouch 1 Rabbit MQ 1 Scrapers Selenium with Python nd_element_by... _id / _name _tag_name _link_text / _partial_link_text _class_name _css_selector _xpath Navegacin get("http://dlabs.co/") anchor_element.click() switch_to_window("name") switch_to_frame("name") add_cookie({"key": "value"}) get_cookies() Interaccin input.send_keys("some text") input.clear() option.click() submit.click() execute_script(alert(foo)) https://gist.github.com/danilat/ 6341150 Gracias