[Py-ES] Petición de comentarios: Criterios generales de la web PyConES

Kiko kikocorreoso at gmail.com
Mon Apr 28 08:38:44 CEST 2014


El 28 de abril de 2014, 8:27, David Francos <me at davidfrancos.net> escribió:

>
> http://ubuntuincident.wordpress.com/2011/09/20/scraping-ajax-web-pages-part-2/?relatedposts_hit=1&relatedposts_origin=1520&relatedposts_position=0
>
> Así, en Python.
>
> Por otro lado, hay unas cuantas formas mas, con un par de comandos, de
> scrapear páginas Ajax sin ningún problema...
> Creo que hasta el wayback lo hace bien.
>
> Que el querer mantener un archivo no debería ser motivo para poner vallas
> al monte...
> El 28/04/2014 07:44, "Yamila Moreno Suárez" <yamila.ms at gmail.com>
> escribió:
>
> Jesús ya tienes la web (no sé por qué tardaste tanto en hacer el wget).
>> Avisa cuándo puedo tirar el servicio en mi lado.
>>
>> yami
>> El 27/04/2014 18:04, "Jesus Cea" <jcea at jcea.es> escribió:
>>
>>> On 27/04/14 17:35, Jesus Cea wrote:
>>> > Pero bueno, es un buen ejemplo de a lo que me refiero cuando hablo de
>>> > "pasar a estático".
>>>
>>> Ejemplo de un paso a estático, desde Linux. Para que veas que es trivial
>>> en mi lado, si la web está montada siguiendo unas normas mínimas muy
>>> sencillas:
>>>
>>> """
>>> jcea at ubuntu:/tmp$ time wget -m http://2013.es.pycon.org/
>>> [...]
>>> 2014-04-27 17:48:37 (868 KB/s) -
>>> `2013.es.pycon.org/static/web/img/landscape2.jpg' saved [201119/201119]
>>>
>>> FINISHED --2014-04-27 17:48:37--
>>> Downloaded: 78 files, 212M in 3m 58s (910 KB/s)
>>>
>>> real    4m4.310s
>>> user    0m1.560s
>>> sys     0m6.870s
>>> """
>>>
>>> Hala, archivada la web de 212 megabytes en 4 minutos. Sin ponerla
>>> siguiera online, la puedo ver perfectamente en local con un "firefox
>>> /tmp/2013.es.pycon.org/index.html".
>>>
>>> Por cierto, haciéndolo veo que faltan las reglas de estilo porque los
>>> enlaces son a la reglas de estilo son absolutos. Esto no pasaría si las
>>> web estuviese disponible online, pero se arregla en mi disco duro
>>> añadiendo un "base" al HTML. Basta añadir "<base
>>> href="http://2013.es.pycon.org/" />" en el HTML. Aunque, como digo, si
>>> esta captura estuviese en http://2013.es.pycon.org, que es mi idea, no
>>> tendría que tocar NADA a lo que me captura el "wget".
>>>
>>> fíjate que el proceso no ha requerido que la gente de la web actual
>>> toque nada y que en mi lado han sido 4 minutos. Literalmente. Podría
>>> hacer la sustitución de web estática ya.
>>>
>>> Las webs hechas contraviniendo lo que propongo en el borrador que
>>> estamos discutiendo NO SE PUEDEN ARCHIVAR tampoco por "archive.org". Por
>>> ejemplo, todo lo que vaya por AJAX. Es decir, aunque tires de
>>> "archive.org", si la web no cumple lo mínimo, no se verá nada. Y si se
>>> ve bien en "archive.org", se verá exactamente igual de bien al hacer la
>>> copia estática con "wget".
>>>
>>> --
>>> Jesús Cea Avión                         _/_/      _/_/_/        _/_/_/
>>> jcea at jcea.es - http://www.jcea.es/     _/_/    _/_/  _/_/    _/_/  _/_/
>>> Twitter: @jcea                        _/_/    _/_/          _/_/_/_/_/
>>> jabber / xmpp:jcea at jabber.org  _/_/  _/_/    _/_/          _/_/  _/_/
>>> "Things are not so easy"      _/_/  _/_/    _/_/  _/_/    _/_/  _/_/
>>> "My name is Dump, Core Dump"   _/_/_/        _/_/_/      _/_/  _/_/
>>> "El amor es poner tu felicidad en la felicidad de otro" - Leibniz
>>>
>>>
>>> _______________________________________________
>>> general mailing list
>>> general at lists.es.python.org
>>> https://lists.es.python.org/listinfo/general
>>>
>>>
>> _______________________________________________
>> general mailing list
>> general at lists.es.python.org
>> https://lists.es.python.org/listinfo/general
>>
>>
> _______________________________________________
> general mailing list
> general at lists.es.python.org
> https://lists.es.python.org/listinfo/general
>
>
Y usar el postmortem para ello??

De lo visible de la web, lo único que, creo, interesa archivar son 4 cosas:
-Patrocinadores (ya metido en el postmortem
-Ponentes
-Charlas
-Vídeos (o enlaces a vídeos o torrents)
-Presentaciones
-Actividades

Es decir, meter la agenda con enlaces a los vídeos en un servicio de un
tercero y todas las charlas en el repo del postmortem con enlaces al mismo
repo?

Todo lo que vaya vía ajax se podría sacar de la BD en un rato ya que no se
genera tanta información como para que lleve mucho más tiempo e incluirlo
en la sección de charlas del postmortem.
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <https://lists.es.python.org/pipermail/general/attachments/20140428/bb0de0bd/attachment.html>


More information about the general mailing list