<div dir="ltr"><br><div class="gmail_extra"><br><br><div class="gmail_quote">El 28 de abril de 2014, 8:27, David Francos <span dir="ltr"><<a href="mailto:me@davidfrancos.net" target="_blank">me@davidfrancos.net</a>></span> escribió:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><p dir="ltr"><a href="http://ubuntuincident.wordpress.com/2011/09/20/scraping-ajax-web-pages-part-2/?relatedposts_hit=1&relatedposts_origin=1520&relatedposts_position=0" target="_blank">http://ubuntuincident.wordpress.com/2011/09/20/scraping-ajax-web-pages-part-2/?relatedposts_hit=1&relatedposts_origin=1520&relatedposts_position=0</a></p>


<p dir="ltr">Así, en Python.</p>
<p dir="ltr">Por otro lado, hay unas cuantas formas mas, con un par de comandos, de scrapear páginas Ajax sin ningún problema...<br>
Creo que hasta el wayback lo hace bien.</p>
<p dir="ltr">Que el querer mantener un archivo no debería ser motivo para poner vallas al monte...</p>
<div class="gmail_quote">El 28/04/2014 07:44, "Yamila Moreno Suárez" <<a href="mailto:yamila.ms@gmail.com" target="_blank">yamila.ms@gmail.com</a>> escribió:<div><div class="h5"><br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<p dir="ltr">Jesús ya tienes la web (no sé por qué tardaste tanto en hacer el wget). Avisa cuándo puedo tirar el servicio en mi lado.</p>
<p dir="ltr">yami</p>
<div class="gmail_quote">El 27/04/2014 18:04, "Jesus Cea" <<a href="mailto:jcea@jcea.es" target="_blank">jcea@jcea.es</a>> escribió:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


On 27/04/14 17:35, Jesus Cea wrote:<br>
> Pero bueno, es un buen ejemplo de a lo que me refiero cuando hablo de<br>
> "pasar a estático".<br>
<br>
Ejemplo de un paso a estático, desde Linux. Para que veas que es trivial<br>
en mi lado, si la web está montada siguiendo unas normas mínimas muy<br>
sencillas:<br>
<br>
"""<br>
jcea@ubuntu:/tmp$ time wget -m <a href="http://2013.es.pycon.org/" target="_blank">http://2013.es.pycon.org/</a><br>
[...]<br>
2014-04-27 17:48:37 (868 KB/s) -<br>
`<a href="http://2013.es.pycon.org/static/web/img/landscape2.jpg" target="_blank">2013.es.pycon.org/static/web/img/landscape2.jpg</a>' saved [201119/201119]<br>
<br>
FINISHED --2014-04-27 17:48:37--<br>
Downloaded: 78 files, 212M in 3m 58s (910 KB/s)<br>
<br>
real    4m4.310s<br>
user    0m1.560s<br>
sys     0m6.870s<br>
"""<br>
<br>
Hala, archivada la web de 212 megabytes en 4 minutos. Sin ponerla<br>
siguiera online, la puedo ver perfectamente en local con un "firefox<br>
/tmp/<a href="http://2013.es.pycon.org/index.html" target="_blank">2013.es.pycon.org/index.html</a>".<br>
<br>
Por cierto, haciéndolo veo que faltan las reglas de estilo porque los<br>
enlaces son a la reglas de estilo son absolutos. Esto no pasaría si las<br>
web estuviese disponible online, pero se arregla en mi disco duro<br>
añadiendo un "base" al HTML. Basta añadir "<base<br>
href="<a href="http://2013.es.pycon.org/" target="_blank">http://2013.es.pycon.org/</a>" />" en el HTML. Aunque, como digo, si<br>
esta captura estuviese en <a href="http://2013.es.pycon.org" target="_blank">http://2013.es.pycon.org</a>, que es mi idea, no<br>
tendría que tocar NADA a lo que me captura el "wget".<br>
<br>
fíjate que el proceso no ha requerido que la gente de la web actual<br>
toque nada y que en mi lado han sido 4 minutos. Literalmente. Podría<br>
hacer la sustitución de web estática ya.<br>
<br>
Las webs hechas contraviniendo lo que propongo en el borrador que<br>
estamos discutiendo NO SE PUEDEN ARCHIVAR tampoco por "<a href="http://archive.org" target="_blank">archive.org</a>". Por<br>
ejemplo, todo lo que vaya por AJAX. Es decir, aunque tires de<br>
"<a href="http://archive.org" target="_blank">archive.org</a>", si la web no cumple lo mínimo, no se verá nada. Y si se<br>
ve bien en "<a href="http://archive.org" target="_blank">archive.org</a>", se verá exactamente igual de bien al hacer la<br>
copia estática con "wget".<br>
<br>
--<br>
Jesús Cea Avión                         _/_/      _/_/_/        _/_/_/<br>
<a href="mailto:jcea@jcea.es" target="_blank">jcea@jcea.es</a> - <a href="http://www.jcea.es/" target="_blank">http://www.jcea.es/</a>     _/_/    _/_/  _/_/    _/_/  _/_/<br>
Twitter: @jcea                        _/_/    _/_/          _/_/_/_/_/<br>
jabber / <a href="mailto:xmpp%3Ajcea@jabber.org" target="_blank">xmpp:jcea@jabber.org</a>  _/_/  _/_/    _/_/          _/_/  _/_/<br>
"Things are not so easy"      _/_/  _/_/    _/_/  _/_/    _/_/  _/_/<br>
"My name is Dump, Core Dump"   _/_/_/        _/_/_/      _/_/  _/_/<br>
"El amor es poner tu felicidad en la felicidad de otro" - Leibniz<br>
<br>
<br>_______________________________________________<br>
general mailing list<br>
<a href="mailto:general@lists.es.python.org" target="_blank">general@lists.es.python.org</a><br>
<a href="https://lists.es.python.org/listinfo/general" target="_blank">https://lists.es.python.org/listinfo/general</a><br>
<br></blockquote></div>
<br>_______________________________________________<br>
general mailing list<br>
<a href="mailto:general@lists.es.python.org" target="_blank">general@lists.es.python.org</a><br>
<a href="https://lists.es.python.org/listinfo/general" target="_blank">https://lists.es.python.org/listinfo/general</a><br>
<br></blockquote></div></div></div>
<br>_______________________________________________<br>
general mailing list<br>
<a href="mailto:general@lists.es.python.org">general@lists.es.python.org</a><br>
<a href="https://lists.es.python.org/listinfo/general" target="_blank">https://lists.es.python.org/listinfo/general</a><br>
<br></blockquote></div><br></div><div class="gmail_extra">Y usar el postmortem para ello??</div><div class="gmail_extra"><br></div><div class="gmail_extra">De lo visible de la web, lo único que, creo, interesa archivar son 4 cosas:</div>
<div class="gmail_extra">-Patrocinadores (ya metido en el postmortem</div><div class="gmail_extra">-Ponentes</div><div class="gmail_extra">-Charlas</div><div class="gmail_extra">-Vídeos (o enlaces a vídeos o torrents)</div>
<div class="gmail_extra">-Presentaciones</div><div class="gmail_extra">-Actividades</div><div class="gmail_extra"><br></div><div class="gmail_extra">Es decir, meter la agenda con enlaces a los vídeos en un servicio de un tercero y todas las charlas en el repo del postmortem con enlaces al mismo repo?</div>
<div class="gmail_extra"><br></div><div class="gmail_extra">Todo lo que vaya vía ajax se podría sacar de la BD en un rato ya que no se genera tanta información como para que lleve mucho más tiempo e incluirlo en la sección de charlas del postmortem.</div>
<div class="gmail_extra"><br></div></div>