genshi/mirror: markup/core.py annotate

annotate markup/core.py @ 1:5479aae32f5a trunk

Initial import.

author	cmlenz
date	Sat, 03 Jun 2006 07:16:01 +0000
parents
children	dbb08edbc615

rev	line source
1 5479aae32f5a Initial import. cmlenz parents: diff changeset	1 # -- coding: utf-8 --
5479aae32f5a Initial import. cmlenz parents: diff changeset	2 #
5479aae32f5a Initial import. cmlenz parents: diff changeset	3 # Copyright (C) 2006 Christopher Lenz
5479aae32f5a Initial import. cmlenz parents: diff changeset	4 # All rights reserved.
5479aae32f5a Initial import. cmlenz parents: diff changeset	5 #
5479aae32f5a Initial import. cmlenz parents: diff changeset	6 # This software is licensed as described in the file COPYING, which
5479aae32f5a Initial import. cmlenz parents: diff changeset	7 # you should have received as part of this distribution. The terms
5479aae32f5a Initial import. cmlenz parents: diff changeset	8 # are also available at http://trac.edgewall.com/license.html.
5479aae32f5a Initial import. cmlenz parents: diff changeset	9 #
5479aae32f5a Initial import. cmlenz parents: diff changeset	10 # This software consists of voluntary contributions made by many
5479aae32f5a Initial import. cmlenz parents: diff changeset	11 # individuals. For the exact contribution history, see the revision
5479aae32f5a Initial import. cmlenz parents: diff changeset	12 # history and logs, available at http://projects.edgewall.com/trac/.
5479aae32f5a Initial import. cmlenz parents: diff changeset	13
5479aae32f5a Initial import. cmlenz parents: diff changeset	14 """Core classes for markup processing."""
5479aae32f5a Initial import. cmlenz parents: diff changeset	15
5479aae32f5a Initial import. cmlenz parents: diff changeset	16 import htmlentitydefs
5479aae32f5a Initial import. cmlenz parents: diff changeset	17 import re
5479aae32f5a Initial import. cmlenz parents: diff changeset	18 from StringIO import StringIO
5479aae32f5a Initial import. cmlenz parents: diff changeset	19
5479aae32f5a Initial import. cmlenz parents: diff changeset	20 __all__ = ['Stream', 'Markup', 'escape', 'unescape', 'Namespace', 'QName']
5479aae32f5a Initial import. cmlenz parents: diff changeset	21
5479aae32f5a Initial import. cmlenz parents: diff changeset	22
5479aae32f5a Initial import. cmlenz parents: diff changeset	23 class StreamEventKind(object):
5479aae32f5a Initial import. cmlenz parents: diff changeset	24 """A kind of event on an XML stream."""
5479aae32f5a Initial import. cmlenz parents: diff changeset	25
5479aae32f5a Initial import. cmlenz parents: diff changeset	26 __slots__ = ['name']
5479aae32f5a Initial import. cmlenz parents: diff changeset	27
5479aae32f5a Initial import. cmlenz parents: diff changeset	28 def __init__(self, name):
5479aae32f5a Initial import. cmlenz parents: diff changeset	29 self.name = name
5479aae32f5a Initial import. cmlenz parents: diff changeset	30
5479aae32f5a Initial import. cmlenz parents: diff changeset	31 def __repr__(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	32 return self.name
5479aae32f5a Initial import. cmlenz parents: diff changeset	33
5479aae32f5a Initial import. cmlenz parents: diff changeset	34
5479aae32f5a Initial import. cmlenz parents: diff changeset	35 class Stream(object):
5479aae32f5a Initial import. cmlenz parents: diff changeset	36 """Represents a stream of markup events.
5479aae32f5a Initial import. cmlenz parents: diff changeset	37
5479aae32f5a Initial import. cmlenz parents: diff changeset	38 This class is basically an iterator over the events.
5479aae32f5a Initial import. cmlenz parents: diff changeset	39
5479aae32f5a Initial import. cmlenz parents: diff changeset	40 Also provided are ways to serialize the stream to text. The `serialize()`
5479aae32f5a Initial import. cmlenz parents: diff changeset	41 method will return an iterator over generated strings, while `render()`
5479aae32f5a Initial import. cmlenz parents: diff changeset	42 returns the complete generated text at once. Both accept various parameters
5479aae32f5a Initial import. cmlenz parents: diff changeset	43 that impact the way the stream is serialized.
5479aae32f5a Initial import. cmlenz parents: diff changeset	44
5479aae32f5a Initial import. cmlenz parents: diff changeset	45 Stream events are tuples of the form:
5479aae32f5a Initial import. cmlenz parents: diff changeset	46
5479aae32f5a Initial import. cmlenz parents: diff changeset	47 (kind, data, position)
5479aae32f5a Initial import. cmlenz parents: diff changeset	48
5479aae32f5a Initial import. cmlenz parents: diff changeset	49 where `kind` is the event kind (such as `START`, `END`, `TEXT`, etc), `data`
5479aae32f5a Initial import. cmlenz parents: diff changeset	50 depends on the kind of event, and `position` is a `(line, offset)` tuple
5479aae32f5a Initial import. cmlenz parents: diff changeset	51 that contains the location of the original element or text in the input.
5479aae32f5a Initial import. cmlenz parents: diff changeset	52 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	53 __slots__ = ['events']
5479aae32f5a Initial import. cmlenz parents: diff changeset	54
5479aae32f5a Initial import. cmlenz parents: diff changeset	55 START = StreamEventKind('start') # a start tag
5479aae32f5a Initial import. cmlenz parents: diff changeset	56 END = StreamEventKind('end') # an end tag
5479aae32f5a Initial import. cmlenz parents: diff changeset	57 TEXT = StreamEventKind('text') # literal text
5479aae32f5a Initial import. cmlenz parents: diff changeset	58 EXPR = StreamEventKind('expr') # an expression
5479aae32f5a Initial import. cmlenz parents: diff changeset	59 SUB = StreamEventKind('sub') # a "subprogram"
5479aae32f5a Initial import. cmlenz parents: diff changeset	60 PROLOG = StreamEventKind('prolog') # XML prolog
5479aae32f5a Initial import. cmlenz parents: diff changeset	61 DOCTYPE = StreamEventKind('doctype') # doctype declaration
5479aae32f5a Initial import. cmlenz parents: diff changeset	62 START_NS = StreamEventKind('start-ns') # start namespace mapping
5479aae32f5a Initial import. cmlenz parents: diff changeset	63 END_NS = StreamEventKind('end-ns') # end namespace mapping
5479aae32f5a Initial import. cmlenz parents: diff changeset	64 PI = StreamEventKind('pi') # processing instruction
5479aae32f5a Initial import. cmlenz parents: diff changeset	65 COMMENT = StreamEventKind('comment') # comment
5479aae32f5a Initial import. cmlenz parents: diff changeset	66
5479aae32f5a Initial import. cmlenz parents: diff changeset	67 def __init__(self, events):
5479aae32f5a Initial import. cmlenz parents: diff changeset	68 """Initialize the stream with a sequence of markup events.
5479aae32f5a Initial import. cmlenz parents: diff changeset	69
5479aae32f5a Initial import. cmlenz parents: diff changeset	70 @oaram events: a sequence or iterable providing the events
5479aae32f5a Initial import. cmlenz parents: diff changeset	71 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	72 self.events = events
5479aae32f5a Initial import. cmlenz parents: diff changeset	73
5479aae32f5a Initial import. cmlenz parents: diff changeset	74 def __iter__(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	75 return iter(self.events)
5479aae32f5a Initial import. cmlenz parents: diff changeset	76
5479aae32f5a Initial import. cmlenz parents: diff changeset	77 def render(self, method='xml', encoding='utf-8', **kwargs):
5479aae32f5a Initial import. cmlenz parents: diff changeset	78 """Return a string representation of the stream.
5479aae32f5a Initial import. cmlenz parents: diff changeset	79
5479aae32f5a Initial import. cmlenz parents: diff changeset	80 @param method: determines how the stream is serialized; can be either
5479aae32f5a Initial import. cmlenz parents: diff changeset	81 'xml' or 'html', or a custom `Serializer` subclass
5479aae32f5a Initial import. cmlenz parents: diff changeset	82 @param encoding: how the output string should be encoded; if set to
5479aae32f5a Initial import. cmlenz parents: diff changeset	83 `None`, this method returns a `unicode` object
5479aae32f5a Initial import. cmlenz parents: diff changeset	84
5479aae32f5a Initial import. cmlenz parents: diff changeset	85 Any additional keyword arguments are passed to the serializer, and thus
5479aae32f5a Initial import. cmlenz parents: diff changeset	86 depend on the `method` parameter value.
5479aae32f5a Initial import. cmlenz parents: diff changeset	87 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	88 retval = u''.join(self.serialize(method=method, **kwargs))
5479aae32f5a Initial import. cmlenz parents: diff changeset	89 if encoding is not None:
5479aae32f5a Initial import. cmlenz parents: diff changeset	90 return retval.encode('utf-8')
5479aae32f5a Initial import. cmlenz parents: diff changeset	91 return retval
5479aae32f5a Initial import. cmlenz parents: diff changeset	92
5479aae32f5a Initial import. cmlenz parents: diff changeset	93 def select(self, path):
5479aae32f5a Initial import. cmlenz parents: diff changeset	94 """Return a new stream that contains the events matching the given
5479aae32f5a Initial import. cmlenz parents: diff changeset	95 XPath expression.
5479aae32f5a Initial import. cmlenz parents: diff changeset	96
5479aae32f5a Initial import. cmlenz parents: diff changeset	97 @param path: a string containing the XPath expression
5479aae32f5a Initial import. cmlenz parents: diff changeset	98 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	99 from markup.path import Path
5479aae32f5a Initial import. cmlenz parents: diff changeset	100 path = Path(path)
5479aae32f5a Initial import. cmlenz parents: diff changeset	101 return path.select(self)
5479aae32f5a Initial import. cmlenz parents: diff changeset	102
5479aae32f5a Initial import. cmlenz parents: diff changeset	103 def serialize(self, method='xml', **kwargs):
5479aae32f5a Initial import. cmlenz parents: diff changeset	104 """Generate strings corresponding to a specific serialization of the
5479aae32f5a Initial import. cmlenz parents: diff changeset	105 stream.
5479aae32f5a Initial import. cmlenz parents: diff changeset	106
5479aae32f5a Initial import. cmlenz parents: diff changeset	107 Unlike the `render()` method, this method is a generator this returns
5479aae32f5a Initial import. cmlenz parents: diff changeset	108 the serialized output incrementally, as opposed to returning a single
5479aae32f5a Initial import. cmlenz parents: diff changeset	109 string.
5479aae32f5a Initial import. cmlenz parents: diff changeset	110
5479aae32f5a Initial import. cmlenz parents: diff changeset	111 @param method: determines how the stream is serialized; can be either
5479aae32f5a Initial import. cmlenz parents: diff changeset	112 'xml' or 'html', or a custom `Serializer` subclass
5479aae32f5a Initial import. cmlenz parents: diff changeset	113 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	114 from markup import output
5479aae32f5a Initial import. cmlenz parents: diff changeset	115 cls = method
5479aae32f5a Initial import. cmlenz parents: diff changeset	116 if isinstance(method, basestring):
5479aae32f5a Initial import. cmlenz parents: diff changeset	117 cls = {'xml': output.XMLSerializer,
5479aae32f5a Initial import. cmlenz parents: diff changeset	118 'html': output.HTMLSerializer}[method]
5479aae32f5a Initial import. cmlenz parents: diff changeset	119 else:
5479aae32f5a Initial import. cmlenz parents: diff changeset	120 assert issubclass(cls, serializers.Serializer)
5479aae32f5a Initial import. cmlenz parents: diff changeset	121 serializer = cls(**kwargs)
5479aae32f5a Initial import. cmlenz parents: diff changeset	122 return serializer.serialize(self)
5479aae32f5a Initial import. cmlenz parents: diff changeset	123
5479aae32f5a Initial import. cmlenz parents: diff changeset	124 def __str__(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	125 return self.render()
5479aae32f5a Initial import. cmlenz parents: diff changeset	126
5479aae32f5a Initial import. cmlenz parents: diff changeset	127 def __unicode__(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	128 return self.render(encoding=None)
5479aae32f5a Initial import. cmlenz parents: diff changeset	129
5479aae32f5a Initial import. cmlenz parents: diff changeset	130
5479aae32f5a Initial import. cmlenz parents: diff changeset	131 class Attributes(list):
5479aae32f5a Initial import. cmlenz parents: diff changeset	132
5479aae32f5a Initial import. cmlenz parents: diff changeset	133 def __init__(self, attrib=None):
5479aae32f5a Initial import. cmlenz parents: diff changeset	134 list.__init__(self, map(lambda (k, v): (QName(k), v), attrib or []))
5479aae32f5a Initial import. cmlenz parents: diff changeset	135
5479aae32f5a Initial import. cmlenz parents: diff changeset	136 def __contains__(self, name):
5479aae32f5a Initial import. cmlenz parents: diff changeset	137 return name in [attr for attr, value in self]
5479aae32f5a Initial import. cmlenz parents: diff changeset	138
5479aae32f5a Initial import. cmlenz parents: diff changeset	139 def get(self, name, default=None):
5479aae32f5a Initial import. cmlenz parents: diff changeset	140 for attr, value in self:
5479aae32f5a Initial import. cmlenz parents: diff changeset	141 if attr == name:
5479aae32f5a Initial import. cmlenz parents: diff changeset	142 return value
5479aae32f5a Initial import. cmlenz parents: diff changeset	143 return default
5479aae32f5a Initial import. cmlenz parents: diff changeset	144
5479aae32f5a Initial import. cmlenz parents: diff changeset	145 def set(self, name, value):
5479aae32f5a Initial import. cmlenz parents: diff changeset	146 for idx, (attr, _) in enumerate(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	147 if attr == name:
5479aae32f5a Initial import. cmlenz parents: diff changeset	148 self[idx] = (attr, value)
5479aae32f5a Initial import. cmlenz parents: diff changeset	149 break
5479aae32f5a Initial import. cmlenz parents: diff changeset	150 else:
5479aae32f5a Initial import. cmlenz parents: diff changeset	151 self.append((QName(name), value))
5479aae32f5a Initial import. cmlenz parents: diff changeset	152
5479aae32f5a Initial import. cmlenz parents: diff changeset	153
5479aae32f5a Initial import. cmlenz parents: diff changeset	154 class Markup(unicode):
5479aae32f5a Initial import. cmlenz parents: diff changeset	155 """Marks a string as being safe for inclusion in HTML/XML output without
5479aae32f5a Initial import. cmlenz parents: diff changeset	156 needing to be escaped.
5479aae32f5a Initial import. cmlenz parents: diff changeset	157 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	158 def __new__(self, text='', *args):
5479aae32f5a Initial import. cmlenz parents: diff changeset	159 if args:
5479aae32f5a Initial import. cmlenz parents: diff changeset	160 text %= tuple([escape(arg) for arg in args])
5479aae32f5a Initial import. cmlenz parents: diff changeset	161 return unicode.__new__(self, text)
5479aae32f5a Initial import. cmlenz parents: diff changeset	162
5479aae32f5a Initial import. cmlenz parents: diff changeset	163 def __add__(self, other):
5479aae32f5a Initial import. cmlenz parents: diff changeset	164 return Markup(unicode(self) + Markup.escape(other))
5479aae32f5a Initial import. cmlenz parents: diff changeset	165
5479aae32f5a Initial import. cmlenz parents: diff changeset	166 def __mod__(self, args):
5479aae32f5a Initial import. cmlenz parents: diff changeset	167 if not isinstance(args, (list, tuple)):
5479aae32f5a Initial import. cmlenz parents: diff changeset	168 args = [args]
5479aae32f5a Initial import. cmlenz parents: diff changeset	169 return Markup(unicode.__mod__(self,
5479aae32f5a Initial import. cmlenz parents: diff changeset	170 tuple([escape(arg) for arg in args])))
5479aae32f5a Initial import. cmlenz parents: diff changeset	171
5479aae32f5a Initial import. cmlenz parents: diff changeset	172 def __mul__(self, num):
5479aae32f5a Initial import. cmlenz parents: diff changeset	173 return Markup(unicode(self) * num)
5479aae32f5a Initial import. cmlenz parents: diff changeset	174
5479aae32f5a Initial import. cmlenz parents: diff changeset	175 def join(self, seq):
5479aae32f5a Initial import. cmlenz parents: diff changeset	176 return Markup(unicode(self).join([Markup.escape(item) for item in seq]))
5479aae32f5a Initial import. cmlenz parents: diff changeset	177
5479aae32f5a Initial import. cmlenz parents: diff changeset	178 def stripentities(self, keepxmlentities=False):
5479aae32f5a Initial import. cmlenz parents: diff changeset	179 """Return a copy of the text with any character or numeric entities
5479aae32f5a Initial import. cmlenz parents: diff changeset	180 replaced by the equivalent UTF-8 characters.
5479aae32f5a Initial import. cmlenz parents: diff changeset	181
5479aae32f5a Initial import. cmlenz parents: diff changeset	182 If the `keepxmlentities` parameter is provided and evaluates to `True`,
5479aae32f5a Initial import. cmlenz parents: diff changeset	183 the core XML entities (&, ', >, < and ").
5479aae32f5a Initial import. cmlenz parents: diff changeset	184 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	185 def _replace_entity(match):
5479aae32f5a Initial import. cmlenz parents: diff changeset	186 if match.group(1): # numeric entity
5479aae32f5a Initial import. cmlenz parents: diff changeset	187 ref = match.group(1)
5479aae32f5a Initial import. cmlenz parents: diff changeset	188 if ref.startswith('x'):
5479aae32f5a Initial import. cmlenz parents: diff changeset	189 ref = int(ref[1:], 16)
5479aae32f5a Initial import. cmlenz parents: diff changeset	190 else:
5479aae32f5a Initial import. cmlenz parents: diff changeset	191 ref = int(ref, 10)
5479aae32f5a Initial import. cmlenz parents: diff changeset	192 return unichr(ref)
5479aae32f5a Initial import. cmlenz parents: diff changeset	193 else: # character entity
5479aae32f5a Initial import. cmlenz parents: diff changeset	194 ref = match.group(2)
5479aae32f5a Initial import. cmlenz parents: diff changeset	195 if keepxmlentities and ref in ('amp', 'apos', 'gt', 'lt', 'quot'):
5479aae32f5a Initial import. cmlenz parents: diff changeset	196 return '&%s;' % ref
5479aae32f5a Initial import. cmlenz parents: diff changeset	197 try:
5479aae32f5a Initial import. cmlenz parents: diff changeset	198 codepoint = htmlentitydefs.name2codepoint[ref]
5479aae32f5a Initial import. cmlenz parents: diff changeset	199 return unichr(codepoint)
5479aae32f5a Initial import. cmlenz parents: diff changeset	200 except KeyError:
5479aae32f5a Initial import. cmlenz parents: diff changeset	201 if keepxmlentities:
5479aae32f5a Initial import. cmlenz parents: diff changeset	202 return '&%s;' % ref
5479aae32f5a Initial import. cmlenz parents: diff changeset	203 else:
5479aae32f5a Initial import. cmlenz parents: diff changeset	204 return ref
5479aae32f5a Initial import. cmlenz parents: diff changeset	205 return Markup(re.sub(r'&(?:#((?:\d+)\|(?:[xX][0-9a-fA-F]+));?\|(\w+);)',
5479aae32f5a Initial import. cmlenz parents: diff changeset	206 _replace_entity, self))
5479aae32f5a Initial import. cmlenz parents: diff changeset	207
5479aae32f5a Initial import. cmlenz parents: diff changeset	208 def striptags(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	209 """Return a copy of the text with all XML/HTML tags removed."""
5479aae32f5a Initial import. cmlenz parents: diff changeset	210 return Markup(re.sub(r'<[^>]*?>', '', self))
5479aae32f5a Initial import. cmlenz parents: diff changeset	211
5479aae32f5a Initial import. cmlenz parents: diff changeset	212 def escape(cls, text, quotes=True):
5479aae32f5a Initial import. cmlenz parents: diff changeset	213 """Create a Markup instance from a string and escape special characters
5479aae32f5a Initial import. cmlenz parents: diff changeset	214 it may contain (<, >, & and \").
5479aae32f5a Initial import. cmlenz parents: diff changeset	215
5479aae32f5a Initial import. cmlenz parents: diff changeset	216 If the `quotes` parameter is set to `False`, the \" character is left
5479aae32f5a Initial import. cmlenz parents: diff changeset	217 as is. Escaping quotes is generally only required for strings that are
5479aae32f5a Initial import. cmlenz parents: diff changeset	218 to be used in attribute values.
5479aae32f5a Initial import. cmlenz parents: diff changeset	219 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	220 if isinstance(text, cls):
5479aae32f5a Initial import. cmlenz parents: diff changeset	221 return text
5479aae32f5a Initial import. cmlenz parents: diff changeset	222 text = unicode(text)
5479aae32f5a Initial import. cmlenz parents: diff changeset	223 if not text:
5479aae32f5a Initial import. cmlenz parents: diff changeset	224 return cls()
5479aae32f5a Initial import. cmlenz parents: diff changeset	225 text = text.replace('&', '&') \
5479aae32f5a Initial import. cmlenz parents: diff changeset	226 .replace('<', '<') \
5479aae32f5a Initial import. cmlenz parents: diff changeset	227 .replace('>', '>')
5479aae32f5a Initial import. cmlenz parents: diff changeset	228 if quotes:
5479aae32f5a Initial import. cmlenz parents: diff changeset	229 text = text.replace('"', '"')
5479aae32f5a Initial import. cmlenz parents: diff changeset	230 return cls(text)
5479aae32f5a Initial import. cmlenz parents: diff changeset	231 escape = classmethod(escape)
5479aae32f5a Initial import. cmlenz parents: diff changeset	232
5479aae32f5a Initial import. cmlenz parents: diff changeset	233 def unescape(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	234 """Reverse-escapes &, <, > and \" and returns a `unicode` object."""
5479aae32f5a Initial import. cmlenz parents: diff changeset	235 if not self:
5479aae32f5a Initial import. cmlenz parents: diff changeset	236 return ''
5479aae32f5a Initial import. cmlenz parents: diff changeset	237 return unicode(self).replace('"', '"') \
5479aae32f5a Initial import. cmlenz parents: diff changeset	238 .replace('>', '>') \
5479aae32f5a Initial import. cmlenz parents: diff changeset	239 .replace('<', '<') \
5479aae32f5a Initial import. cmlenz parents: diff changeset	240 .replace('&', '&')
5479aae32f5a Initial import. cmlenz parents: diff changeset	241
5479aae32f5a Initial import. cmlenz parents: diff changeset	242 def plaintext(self, keeplinebreaks=True):
5479aae32f5a Initial import. cmlenz parents: diff changeset	243 """Returns the text as a `unicode`with all entities and tags removed."""
5479aae32f5a Initial import. cmlenz parents: diff changeset	244 text = unicode(self.striptags().stripentities())
5479aae32f5a Initial import. cmlenz parents: diff changeset	245 if not keeplinebreaks:
5479aae32f5a Initial import. cmlenz parents: diff changeset	246 text = text.replace('\n', ' ')
5479aae32f5a Initial import. cmlenz parents: diff changeset	247 return text
5479aae32f5a Initial import. cmlenz parents: diff changeset	248
5479aae32f5a Initial import. cmlenz parents: diff changeset	249 def sanitize(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	250 from markup.filters import HTMLSanitizer
5479aae32f5a Initial import. cmlenz parents: diff changeset	251 from markup.input import HTMLParser
5479aae32f5a Initial import. cmlenz parents: diff changeset	252 sanitize = HTMLSanitizer()
5479aae32f5a Initial import. cmlenz parents: diff changeset	253 text = self.stripentities(keepxmlentities=True)
5479aae32f5a Initial import. cmlenz parents: diff changeset	254 return Stream(sanitize(HTMLParser(StringIO(text)), None))
5479aae32f5a Initial import. cmlenz parents: diff changeset	255
5479aae32f5a Initial import. cmlenz parents: diff changeset	256
5479aae32f5a Initial import. cmlenz parents: diff changeset	257 escape = Markup.escape
5479aae32f5a Initial import. cmlenz parents: diff changeset	258
5479aae32f5a Initial import. cmlenz parents: diff changeset	259 def unescape(text):
5479aae32f5a Initial import. cmlenz parents: diff changeset	260 """Reverse-escapes &, <, > and \" and returns a `unicode` object."""
5479aae32f5a Initial import. cmlenz parents: diff changeset	261 if not isinstance(text, Markup):
5479aae32f5a Initial import. cmlenz parents: diff changeset	262 return text
5479aae32f5a Initial import. cmlenz parents: diff changeset	263 return text.unescape()
5479aae32f5a Initial import. cmlenz parents: diff changeset	264
5479aae32f5a Initial import. cmlenz parents: diff changeset	265
5479aae32f5a Initial import. cmlenz parents: diff changeset	266 class Namespace(object):
5479aae32f5a Initial import. cmlenz parents: diff changeset	267
5479aae32f5a Initial import. cmlenz parents: diff changeset	268 def __init__(self, uri):
5479aae32f5a Initial import. cmlenz parents: diff changeset	269 self.uri = uri
5479aae32f5a Initial import. cmlenz parents: diff changeset	270
5479aae32f5a Initial import. cmlenz parents: diff changeset	271 def __getitem__(self, name):
5479aae32f5a Initial import. cmlenz parents: diff changeset	272 return QName(self.uri + '}' + name)
5479aae32f5a Initial import. cmlenz parents: diff changeset	273
5479aae32f5a Initial import. cmlenz parents: diff changeset	274 __getattr__ = __getitem__
5479aae32f5a Initial import. cmlenz parents: diff changeset	275
5479aae32f5a Initial import. cmlenz parents: diff changeset	276 def __repr__(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	277 return '<Namespace "%s">' % self.uri
5479aae32f5a Initial import. cmlenz parents: diff changeset	278
5479aae32f5a Initial import. cmlenz parents: diff changeset	279 def __str__(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	280 return self.uri
5479aae32f5a Initial import. cmlenz parents: diff changeset	281
5479aae32f5a Initial import. cmlenz parents: diff changeset	282 def __unicode__(self):
5479aae32f5a Initial import. cmlenz parents: diff changeset	283 return unicode(self.uri)
5479aae32f5a Initial import. cmlenz parents: diff changeset	284
5479aae32f5a Initial import. cmlenz parents: diff changeset	285
5479aae32f5a Initial import. cmlenz parents: diff changeset	286 class QName(unicode):
5479aae32f5a Initial import. cmlenz parents: diff changeset	287 """A qualified element or attribute name.
5479aae32f5a Initial import. cmlenz parents: diff changeset	288
5479aae32f5a Initial import. cmlenz parents: diff changeset	289 The unicode value of instances of this class contains the qualified name of
5479aae32f5a Initial import. cmlenz parents: diff changeset	290 the element or attribute, in the form `{namespace}localname`. The namespace
5479aae32f5a Initial import. cmlenz parents: diff changeset	291 URI can be obtained through the additional `namespace` attribute, while the
5479aae32f5a Initial import. cmlenz parents: diff changeset	292 local name can be accessed through the `localname` attribute.
5479aae32f5a Initial import. cmlenz parents: diff changeset	293 """
5479aae32f5a Initial import. cmlenz parents: diff changeset	294 __slots__ = ['namespace', 'localname']
5479aae32f5a Initial import. cmlenz parents: diff changeset	295
5479aae32f5a Initial import. cmlenz parents: diff changeset	296 def __new__(cls, qname):
5479aae32f5a Initial import. cmlenz parents: diff changeset	297 if isinstance(qname, QName):
5479aae32f5a Initial import. cmlenz parents: diff changeset	298 return qname
5479aae32f5a Initial import. cmlenz parents: diff changeset	299
5479aae32f5a Initial import. cmlenz parents: diff changeset	300 parts = qname.split('}', 1)
5479aae32f5a Initial import. cmlenz parents: diff changeset	301 if qname.find('}') > 0:
5479aae32f5a Initial import. cmlenz parents: diff changeset	302 self = unicode.__new__(cls, '{' + qname)
5479aae32f5a Initial import. cmlenz parents: diff changeset	303 self.namespace = parts[0]
5479aae32f5a Initial import. cmlenz parents: diff changeset	304 self.localname = parts[1]
5479aae32f5a Initial import. cmlenz parents: diff changeset	305 else:
5479aae32f5a Initial import. cmlenz parents: diff changeset	306 self = unicode.__new__(cls, qname)
5479aae32f5a Initial import. cmlenz parents: diff changeset	307 self.namespace = None
5479aae32f5a Initial import. cmlenz parents: diff changeset	308 self.localname = qname
5479aae32f5a Initial import. cmlenz parents: diff changeset	309 return self

Mercurial > genshi > mirror

annotate markup/core.py @ 1:5479aae32f5a trunk