[Py-ES] Petición de comentarios: Criterios generales de la web PyConES

David Francos me at davidfrancos.net
Mon Apr 28 08:27:40 CEST 2014


http://ubuntuincident.wordpress.com/2011/09/20/scraping-ajax-web-pages-part-2/?relatedposts_hit=1&relatedposts_origin=1520&relatedposts_position=0

Así, en Python.

Por otro lado, hay unas cuantas formas mas, con un par de comandos, de
scrapear páginas Ajax sin ningún problema...
Creo que hasta el wayback lo hace bien.

Que el querer mantener un archivo no debería ser motivo para poner vallas
al monte...
El 28/04/2014 07:44, "Yamila Moreno Suárez" <yamila.ms at gmail.com> escribió:

> Jesús ya tienes la web (no sé por qué tardaste tanto en hacer el wget).
> Avisa cuándo puedo tirar el servicio en mi lado.
>
> yami
> El 27/04/2014 18:04, "Jesus Cea" <jcea at jcea.es> escribió:
>
>> On 27/04/14 17:35, Jesus Cea wrote:
>> > Pero bueno, es un buen ejemplo de a lo que me refiero cuando hablo de
>> > "pasar a estático".
>>
>> Ejemplo de un paso a estático, desde Linux. Para que veas que es trivial
>> en mi lado, si la web está montada siguiendo unas normas mínimas muy
>> sencillas:
>>
>> """
>> jcea at ubuntu:/tmp$ time wget -m http://2013.es.pycon.org/
>> [...]
>> 2014-04-27 17:48:37 (868 KB/s) -
>> `2013.es.pycon.org/static/web/img/landscape2.jpg' saved [201119/201119]
>>
>> FINISHED --2014-04-27 17:48:37--
>> Downloaded: 78 files, 212M in 3m 58s (910 KB/s)
>>
>> real    4m4.310s
>> user    0m1.560s
>> sys     0m6.870s
>> """
>>
>> Hala, archivada la web de 212 megabytes en 4 minutos. Sin ponerla
>> siguiera online, la puedo ver perfectamente en local con un "firefox
>> /tmp/2013.es.pycon.org/index.html".
>>
>> Por cierto, haciéndolo veo que faltan las reglas de estilo porque los
>> enlaces son a la reglas de estilo son absolutos. Esto no pasaría si las
>> web estuviese disponible online, pero se arregla en mi disco duro
>> añadiendo un "base" al HTML. Basta añadir "<base
>> href="http://2013.es.pycon.org/" />" en el HTML. Aunque, como digo, si
>> esta captura estuviese en http://2013.es.pycon.org, que es mi idea, no
>> tendría que tocar NADA a lo que me captura el "wget".
>>
>> fíjate que el proceso no ha requerido que la gente de la web actual
>> toque nada y que en mi lado han sido 4 minutos. Literalmente. Podría
>> hacer la sustitución de web estática ya.
>>
>> Las webs hechas contraviniendo lo que propongo en el borrador que
>> estamos discutiendo NO SE PUEDEN ARCHIVAR tampoco por "archive.org". Por
>> ejemplo, todo lo que vaya por AJAX. Es decir, aunque tires de
>> "archive.org", si la web no cumple lo mínimo, no se verá nada. Y si se
>> ve bien en "archive.org", se verá exactamente igual de bien al hacer la
>> copia estática con "wget".
>>
>> --
>> Jesús Cea Avión                         _/_/      _/_/_/        _/_/_/
>> jcea at jcea.es - http://www.jcea.es/     _/_/    _/_/  _/_/    _/_/  _/_/
>> Twitter: @jcea                        _/_/    _/_/          _/_/_/_/_/
>> jabber / xmpp:jcea at jabber.org  _/_/  _/_/    _/_/          _/_/  _/_/
>> "Things are not so easy"      _/_/  _/_/    _/_/  _/_/    _/_/  _/_/
>> "My name is Dump, Core Dump"   _/_/_/        _/_/_/      _/_/  _/_/
>> "El amor es poner tu felicidad en la felicidad de otro" - Leibniz
>>
>>
>> _______________________________________________
>> general mailing list
>> general at lists.es.python.org
>> https://lists.es.python.org/listinfo/general
>>
>>
> _______________________________________________
> general mailing list
> general at lists.es.python.org
> https://lists.es.python.org/listinfo/general
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <https://lists.es.python.org/pipermail/general/attachments/20140428/395ac052/attachment-0001.html>


More information about the general mailing list