[Py-ES] Petición de comentarios: Criterios generales de la web PyConES

David Francos me at davidfrancos.net
Mon Apr 28 09:11:44 CEST 2014


El 28/04/2014 09:09, "Kiko" <kikocorreoso at gmail.com> escribió:
>
>
>
>
> El 28 de abril de 2014, 8:27, David Francos <me at davidfrancos.net>
escribió:
>
>>
http://ubuntuincident.wordpress.com/2011/09/20/scraping-ajax-web-pages-part-2/?relatedposts_hit=1&relatedposts_origin=1520&relatedposts_position=0
>>
>> Así, en Python.
>>
>> Por otro lado, hay unas cuantas formas mas, con un par de comandos, de
scrapear páginas Ajax sin ningún problema...
>> Creo que hasta el wayback lo hace bien.
>>
>> Que el querer mantener un archivo no debería ser motivo para poner
vallas al monte...
>>
>> El 28/04/2014 07:44, "Yamila Moreno Suárez" <yamila.ms at gmail.com>
escribió:
>>
>>> Jesús ya tienes la web (no sé por qué tardaste tanto en hacer el wget).
Avisa cuándo puedo tirar el servicio en mi lado.
>>>
>>> yami
>>>
>>> El 27/04/2014 18:04, "Jesus Cea" <jcea at jcea.es> escribió:
>>>>
>>>> On 27/04/14 17:35, Jesus Cea wrote:
>>>> > Pero bueno, es un buen ejemplo de a lo que me refiero cuando hablo de
>>>> > "pasar a estático".
>>>>
>>>> Ejemplo de un paso a estático, desde Linux. Para que veas que es
trivial
>>>> en mi lado, si la web está montada siguiendo unas normas mínimas muy
>>>> sencillas:
>>>>
>>>> """
>>>> jcea at ubuntu:/tmp$ time wget -m http://2013.es.pycon.org/
>>>> [...]
>>>> 2014-04-27 17:48:37 (868 KB/s) -
>>>> `2013.es.pycon.org/static/web/img/landscape2.jpg' saved [201119/201119]
>>>>
>>>> FINISHED --2014-04-27 17:48:37--
>>>> Downloaded: 78 files, 212M in 3m 58s (910 KB/s)
>>>>
>>>> real    4m4.310s
>>>> user    0m1.560s
>>>> sys     0m6.870s
>>>> """
>>>>
>>>> Hala, archivada la web de 212 megabytes en 4 minutos. Sin ponerla
>>>> siguiera online, la puedo ver perfectamente en local con un "firefox
>>>> /tmp/2013.es.pycon.org/index.html".
>>>>
>>>> Por cierto, haciéndolo veo que faltan las reglas de estilo porque los
>>>> enlaces son a la reglas de estilo son absolutos. Esto no pasaría si las
>>>> web estuviese disponible online, pero se arregla en mi disco duro
>>>> añadiendo un "base" al HTML. Basta añadir "<base
>>>> href="http://2013.es.pycon.org/" />" en el HTML. Aunque, como digo, si
>>>> esta captura estuviese en http://2013.es.pycon.org, que es mi idea, no
>>>> tendría que tocar NADA a lo que me captura el "wget".
>>>>
>>>> fíjate que el proceso no ha requerido que la gente de la web actual
>>>> toque nada y que en mi lado han sido 4 minutos. Literalmente. Podría
>>>> hacer la sustitución de web estática ya.
>>>>
>>>> Las webs hechas contraviniendo lo que propongo en el borrador que
>>>> estamos discutiendo NO SE PUEDEN ARCHIVAR tampoco por "archive.org".
Por
>>>> ejemplo, todo lo que vaya por AJAX. Es decir, aunque tires de
>>>> "archive.org", si la web no cumple lo mínimo, no se verá nada. Y si se
>>>> ve bien en "archive.org", se verá exactamente igual de bien al hacer la
>>>> copia estática con "wget".
>>>>
>>>> --
>>>> Jesús Cea Avión                         _/_/      _/_/_/        _/_/_/
>>>> jcea at jcea.es - http://www.jcea.es/     _/_/    _/_/  _/_/    _/_/  _/_/
>>>> Twitter: @jcea                        _/_/    _/_/          _/_/_/_/_/
>>>> jabber / xmpp:jcea at jabber.org  _/_/  _/_/    _/_/          _/_/  _/_/
>>>> "Things are not so easy"      _/_/  _/_/    _/_/  _/_/    _/_/  _/_/
>>>> "My name is Dump, Core Dump"   _/_/_/        _/_/_/      _/_/  _/_/
>>>> "El amor es poner tu felicidad en la felicidad de otro" - Leibniz
>>>>
>>>>
>>>> _______________________________________________
>>>> general mailing list
>>>> general at lists.es.python.org
>>>> https://lists.es.python.org/listinfo/general
>>>>
>>>
>>> _______________________________________________
>>> general mailing list
>>> general at lists.es.python.org
>>> https://lists.es.python.org/listinfo/general
>>>
>>
>> _______________________________________________
>> general mailing list
>> general at lists.es.python.org
>> https://lists.es.python.org/listinfo/general
>>
>
> Y usar el postmortem para ello??
>
> De lo visible de la web, lo único que, creo, interesa archivar son 4
cosas:
> -Patrocinadores (ya metido en el postmortem
> -Ponentes
> -Charlas
> -Vídeos (o enlaces a vídeos o torrents)
> -Presentaciones
> -Actividades
>
> Es decir, meter la agenda con enlaces a los vídeos en un servicio de un
tercero y todas las charlas en el repo del postmortem con enlaces al mismo
repo?
>
> Todo lo que vaya vía ajax se podría sacar de la BD en un rato ya que no
se genera tanta información como para que lleve mucho más tiempo e
incluirlo en la sección de charlas del postmortem.

Eso entra en la dinámica de liberar las bbdd :-)
_______________________________________________
> general mailing list
> general at lists.es.python.org
> https://lists.es.python.org/listinfo/general
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <https://lists.es.python.org/pipermail/general/attachments/20140428/d18a97cf/attachment-0001.html>


More information about the general mailing list