rst2pdf 0.90 is out

2012-03-04 17:40

Yes, after many moons, it's out. Here is the (as usual) incomplete changelog:

Added raw HTML support, by Dimitri Christodoulou
Fixed Issue 422: Having no .afm files made font lookup slow.
Fixed Issue 411: Sometimes the windows registry has the font's abspath.
Fixed Issue 430: Using --config option caused other options to be ignored (by charles at cstanhope dot com)
Fixed Issue 436: Add pdf_style_path to sphinx (by tyler@datastax.com)
Fixed Issue 428: page numbers logged as errors
Added support for many pygments options in code-block (by Joaquin Sorianello)
Implemented Issue 404: plantuml support
Issue 399: support sphinx's template path option
Fixed Issue 406: calls to the wrong logging function
Implemented Issue 391: New --section-header-depth option.
Fixed Issue 390: the --config option was ignored.
Added support for many pygments options in code-block (by Joaquin Sorianello)
Fixed Issue 379: Wrong style applied to paragraphs in definitions.
Fixed Issue 378: Multiline :address: were shown collapsed.
Implemented Issue 11: FrameBreak (and conditional FrameBreak)
The description of frames in page templates was just wrong.
Fixed Issue 374: in some cases, literal blocks were split inside a page, or the pagebreak came too early.
Fixed Issue 370: warning about sphinx.addnodes.highlightlang not being handled removed.
Fixed Issue 369: crash in hyphenator when specifying "en" as a language.
Compatibility fix to Sphinx 0.6.x (For python 2.7 docs)

This release did not focus on Sphinx bugs, so those are probably still there. Hopefully the next round is attacking those.

Raspar no duele

2012-02-17 20:34

Así que veamos el sitio de las Ted Talks. Tienen una linda tabla con información de las charlas, por si querés hacer algo con ellas.

¿Y cómo sacás esa info? Haciendo "scraping" de la página. ¿Y cómo hacemos eso de forma indolora? Con Python y BeautifulSoup.

from BeautifulSoup import BeautifulSoup
import urllib

# Leemos toda la página
data = urllib.urlopen('http://www.ted.com/talks/quick-list').read()
# La parseamos
soup = BeautifulSoup(data)

# Busco la tabla con la data
table = soup.findAll('table', attrs= {"class": "downloads notranslate"})[0]
# Tomo las filas, salteando la primera
rows = table.findAll('tr')[1:]

items = []
# Para cada fila saco los datos
# Y la guardo en algún lado
for row in rows:
    cells = row.findAll('td')
    item = {}
    item['date'] = cells[0].text
    item['event'] = cells[1].text
    item['title'] = cells[2].text
    item['duration'] = cells[3].text
    item['links'] = [a['href'] for a in cells[4].findAll('a')]
    items.append(item)

¡Y ya está! Sorprendentemente indoloro.

Escribir, y qué escribir.

2012-02-17 03:18

Por otro lado, escribí una serie muy popular de posts, llamada "PyQt en Ejemplos", que (adivinen) lleva mucho tiempo estancada.

El problema con el libro es que traté de cubrir demasiado terreno. Terminado sería un libro de 500 páginas, y eso incluye escribir media docena de apps de ejemplo, algunas de ellas en áreas en las que no soy experto.

El problema principal con los posts es que el ejemplo es pedorro (¡app de TODOs!) y expandirla es aburrido.

¡Qué mejor manera de resolver el problema que mezclar las dos cosas!

Voy a dejar Python No Muerde como está, y voy a hacer un libro nuevo, que se llame PyQt No Muerde. Va a mantener el tono y el lenguaje del anterior, y va a compartir varios capítulos, pero se va a enfocar en desarrollar apps PyQt, en vez de apuntar a metas demasiado ambiciosas. Espero que sea de unas 200 páginas.

Tengo permiso de la superioridad (mi señora) para trabajar en esto un par de horas al día temprano a la mañana. Tal vez avance, tal vez no. Como siempre, yo no prometo, experimento.

Sacar la basura trae sus problemas

2012-01-31 18:08

Esto no debería sorprenderte:

>>> a = [1,2]
>>> b = [3,4]
>>> a is b
False
>>> a == b
False
>>> id(a) == id(b)
False

Después de todo, a y b son cosas distintas. Sin embargo:

>>> [1,2] is [3,4]
False
>>> [1,2] == [3,4]
False
>>> id([1,2]) == id([3,4])
True

Resulta que si uno usa literales, una de esas cosas no es como las demás.

Primero la explicación. Cuando uno no tiene más referencias a un dato, va a ser "garbage collected", la memoria se libera para que se pueda usar para otra cosa.

En el primer caso, las variables a y b guardan referencia a las listas. Es decir que tienen que existir todo el tiempo, ya que yo podría decir print a y python tiene que poder responderme con el valor de a.

En el segundo caso, uso literales, lo que quiere decir que no hay referencias a las listas después de que se usan. Cuando python evalúa id([1,2]) == id([3,4]) evalúa primero el lado izquierdo del ==. Después de que termina con eso, no hace falta mantener el [1,2] a mano, así que se borra. Entonces, al evaluar el lado derecho, crea [3,4].

Por pura casualidad, lo pone en exactamente el mismo lugar en que estaba el [1,2], asi que id devuelve el mismo valor. Esto sirve para recordar dos cosas:

a is b es usualmente (pero no siempre) equivalente a id(a) == id(b)
La recolección de basura tiene efectos secundarios que en una de esas no esperabas.

The problem is is. Is it not?

2012-01-28 18:14

Algunos, por alguna razón, hacen esto:

>>> a = 2
>>> b = 2
>>> a == b
True
>>> a is b
True

Y después, cuando ven esto, se sorprenden:

>>> a = 1000
>>> b = 1000
>>> a == b
True
>>> a is b
False

Se sorprenden porque "2 es 2" es más intuitivo que "1000 no es 1000". Podría atribuirlo a una tendencia innata al platonismo, pero en realidad es porque is no es eso.

El operador is es (en CPython) apenas una comparación de direcciones de memoria. Si los objetos a y b son el mismo cacho de memoria, entonces "son" el otro. Como python crea de antemano una cantidad de enteros pequeños, cada 2 que creás no es un nuevo 2, sino otra vez el 2 de la última vez.

Esto funciona por dos motivos:

Los enteros son solo lectura. Podés tener muchas variables que "contienen" el mismo 2, porque no lo pueden romper.
En python, la asignación es tan sólo crear aliases. No se hace una copia de 2 cuando se hace a = 2, solamente se dice "a es otro nombre para este 2 que tengo acá".

Esto sorprende a la gente que viene de otros lenguajes, por ejemplo C o C++. En esos lenguajes, una variable int a nunca usaría la misma memoria que int b porque justamente, una variable es un pedazo de memoria, y se puede cambiar el contenido. En C y C++, los enteros son mutables. Este 2 no es ese 2, a menos que lo hagas intencionalmente con punteros.

De hecho, la forma en que la asignación funciona en python lleva a otras sorpresas que son más interesantes en la vida real. Por ejemplo:

>>> def f(s=""):
...     s+='x'
...     return s
...
>>> f()
'x'
>>> f()
'x'
>>> f()
'x'

Eso no sorprende nada. Ahora, hagamos un pequeño cambio:

>>> def f(l=[]):
...     l.append('x')
...     return l
...
>>> f()
['x']
>>> f()
['x', 'x']
>>> f()
['x', 'x', 'x']

Y eso sí es sorprendente, si no lo esperabas. Sucede porque las listas son mutables. El argumento por default se define cuando la función se define, y cada vez que llamás f() estás usando y devolviendo la misma l. Antes, también usábamos siempre la misma s pero como los strings son inmutables, nunca cambiaba, y devolvíamos una nueva cada vez.

Podés comprobar que no te miento, obviamente que usando is. Y ya que estamos, eso no es un problema para listas. Es un problema para los objetos de cualquier clase que vos definas, a menos que los hagas inmutables. Así que seamos cuidadosos con los argumentos por defecto, ¿ok?

Volviendo al problema original de que 1000 is not 1000, lo sorprendente es que en realidad, no es interesante. Los enteros son fungibles. No te importa que sea el mismo entero, solo que sean iguales.

Comprobar identidad de enteros es como si me prestaras $1 y cuando te lo devuelvo, en vez de ver si es una moneda de $1, te fijaras si es la misma moneda. Simplemente no importa. Lo que queres es un 2, un 1000 o una moneda de $1.

Además, el reultado de 2 is 2 depende de la implementación de python. No hay motivo, en realidad, mas allá de una optimización, para que sea True.

Esperando que esto aclare el tema, les dejo un último fragmento de código:

.. code-block:: pycon

>>> a = float('NaN')
>>> a is a
True
>>> a == a
False

UPDATE: Muchos comentarios iteresantes en reddit y una continuación chiquita acá

Ralsina.Me — El sitio web de Roberto Alsina

Publicaciones sobre programming (publicaciones antiguas, página 71)

rst2pdf 0.90 is out

Raspar no duele

Escribir, y qué escribir.

Sacar la basura trae sus problemas

The problem is is. Is it not?