RegEx ταιριάζει με ανοιχτές ετικέτες εκτός από τις αυτοτελείς ετικέτες XHTML

Question

Περισσότερα

Ερώτηση

RegEx ταιριάζει με ανοιχτές ετικέτες εκτός από τις αυτοτελείς ετικέτες XHTML

Πρέπει να ταιριάξω όλες αυτές τις ετικέτες ανοίγματος:

<p>
<a href="foo">

Αλλά όχι αυτά:

<br />
<hr class="foo" />

Σκέφτηκα αυτό και ήθελα να βεβαιωθώ ότι το έχω καταλάβει σωστά. Καταγράφω μόνο το "α-ζ".

<([a-z]+) *[^/]*?>

Νομίζω ότι λέει:

Βρείτε ένα μικρότερο από, τότε
Βρείτε (και συλλάβετε) a-z μία ή περισσότερες φορές, στη συνέχεια
Εύρεση μηδέν ή περισσότερων διαστημάτων, στη συνέχεια
Εύρεση οποιουδήποτε χαρακτήρα μηδέν ή περισσότερες φορές, άπληστα, εκτός από το /, τότε
Εύρεση ενός μεγαλύτερου από

Το έχω καταλάβει αυτό σωστά; Και το πιο σημαντικό, τι νομίζετε;

richarbernal

Επεξεργασμένη ερώτηση Κάνε Μάιος 2012 в 8:37

Προγραμματισμός

regex

xhtml

html

Λύση / Απάντηση

Do you have a question? Add it on the site and get an answer instantly en.kzen.dev Kobi Κάνε Νοέμβριος 2009 в 10:50 2009-11-13T22:50:48+00:00 Περισσότερα Πηγή Επεξεργασία #9694464 Δοκιμάστε: <([^\s]+)(\s[^>]*?)?(?<!/)> Είναι παρόμοιο με το δικό σας, αλλά το τελευταίο > δεν πρέπει να είναι μετά από μια κάθετο, και δέχεται επίσης h1. Peter Mortensen Επεξεργασμένη απάντηση Κάνε Νοέμβριος 2009 в 9:12 181 0 Do you have a question? Add it on the site and get an answer instantly en.kzen.dev Jherico Κάνε Νοέμβριος 2009 в 10:47 2009-11-13T22:47:17+00:00 Περισσότερα Πηγή Επεξεργασία #9694463 Θέλετε το πρώτο > να μην προηγείται από ένα /. Κοιτάξτε εδώ για λεπτομέρειες σχετικά με το πώς να το κάνετε αυτό. Αναφέρεται ως αρνητικό lookbehind. Ωστόσο, μια naïve εφαρμογή αυτού θα καταλήξει να ταιριάζει με το <bar/></foo> σε αυτό το έγγραφο του παραδείγματος <foo><bar/></foo> Μπορείτε να δώσετε λίγες περισσότερες πληροφορίες σχετικά με το πρόβλημα που προσπαθείτε να λύσετε; Επαναλαμβάνετε τις ετικέτες προγραμματιστικά; Ry- Επεξεργασμένη απάντηση Κάνε Μάρτιος 2012 в 3:04 136 0

Προσθήκη ερώτησης Κατηγορίες Όλα Τεχνολογία Πολιτισμός / Αναψυχή Ζωή / Τέχνες Επιστήμη Επαγγελματικό Επιχείρηση Χρήστες Όλα Νέα Δημοφιλές 1 Ксения Комарова Εγγεγραμμένη πριν 2 εβδομάδες 2 Артур «Апер» Εγγεγραμμένη πριν 1 μήνας 3 Viktor Malyutin Εγγεγραμμένη πριν 2 μήνες 4 Viktor Malyutin Εγγεγραμμένη πριν 2 μήνες 5 Syahputra Zhedenk Εγγεγραμμένη πριν 2 μήνες Do you have a question? Add it on the site and get an answer instantly en.kzen.dev

bobince · Accepted Answer · 2009-11-13T23:04:30+00:00

Δεν μπορείτε να αναλύσετε την [X]HTML με regex. Επειδή η HTML δεν μπορεί να αναλυθεί με regex. Η Regex δεν είναι ένα εργαλείο που μπορεί να χρησιμοποιηθεί για τη σωστή ανάλυση της HTML. Όπως έχω απαντήσει σε ερωτήσεις HTML και regex εδώ τόσες φορές στο παρελθόν, η χρήση της regex δεν θα σας επιτρέψει να καταναλώσετε HTML. Οι κανονικές εκφράσεις είναι ένα εργαλείο που δεν είναι επαρκώς εξελιγμένο για την κατανόηση των δομών που χρησιμοποιεί η HTML. Η HTML δεν είναι μια κανονική γλώσσα και ως εκ τούτου δεν μπορεί να αναλυθεί με κανονικές εκφράσεις. Τα ερωτήματα Regex δεν είναι εξοπλισμένα για να αναλύσουν την HTML στα ουσιαστικά της μέρη. τόσες φορές αλλά δεν μου βγαίνει. Ακόμη και οι βελτιωμένες ακανόνιστες κανονικές εκφράσεις όπως χρησιμοποιούνται από την Perl δεν είναι ικανές να αναλύσουν την HTML. Ποτέ δεν θα με κάνετε να σπάσω. Η HTML είναι μια γλώσσα επαρκούς πολυπλοκότητας που δεν μπορεί να αναλυθεί με κανονικές εκφράσεις. Ακόμα και ο Jon Skeet δεν μπορεί να αναλύσει την HTML χρησιμοποιώντας κανονικές εκφράσεις. Κάθε φορά που προσπαθείτε να αναλύσετε την HTML με κανονικές εκφράσεις, το ανίερο παιδί κλαίει το αίμα των παρθένων και οι Ρώσοι χάκερς κάνουν pwn την εφαρμογή σας. Η ανάλυση της HTML με regex καλεί μολυσμένες ψυχές στο βασίλειο των ζωντανών. Η HTML και η regex πάνε μαζί όπως ο έρωτας, ο γάμος και η τελετουργική παιδοκτονία. Το

δεν μπορεί να κρατήσει είναι πολύ αργά. Η δύναμη της regex και της HTML μαζί στον ίδιο εννοιολογικό χώρο θα καταστρέψει το μυαλό σας σαν τόσο υδαρής στόκος. Αν αναλύετε την HTML με regex υποκύπτετε σε Αυτούς και τους βλάσφημους τρόπους τους που μας καταδικάζουν όλους σε απάνθρωπο μόχθο για τον Ένα του οποίου το Όνομα δεν μπορεί να εκφραστεί στο Βασικό Πολυγλωσσικό Επίπεδο, αυτός έρχεται. Η HTML-plus-regexp θα ρευστοποιήσει τα νεύρα των αισθητών ενώ εσείς θα παρατηρείτε, με τον ψυχισμό σας να μαραίνεται στην επίθεση του τρόμου. Οι βασισμένοι σε rege̿̔̉x HTML parsers είναι ο καρκίνος που σκοτώνει το StackOverflow είναι πολύ αργά είναι πολύ αργά δεν μπορούμε να σωθούμε</i&gt- η μετάβαση ενός chi͡ld εξασφαλίζει ότι το regex θα καταναλώσει όλους τους ζωντανούς ιστούς (εκτός από την HTML που δεν μπορεί, όπως είχε προφητευτεί προηγουμένως) αγαπητέ Θεέ μου βοήθησέ μας πώς μπορεί κανείς να επιβιώσει από αυτή τη μάστιγα&lt,/i> η χρήση της regex για την ανάλυση της HTML έχει καταδικάσει την ανθρωπότητα σε μια αιωνιότητα φοβερών βασανιστηρίων και κενών ασφαλείας η χρήση της regex ως εργαλείο για την επεξεργασία της HTML εγκαθιδρύει ένα διάκενο μεταξύ αυτού του κόσμου και του φοβερού βασιλείου των c͒ͪo͛ͫrrupt entities (όπως οι οντότητες SGML, αλλά <i&gt,πιο διεφθαρμένες) μια απλή ματιάse του κόσμου των regex parsers για την HTML θα μεταφέρει instantly έναν programmer&#39,s consciousness into a world of ceaseless screaming, he comes~~, the pestilent sl~~ithy regex-infection wil&lt,b>l καταβροχθίσει τον HTML parser, την εφαρμογή και την ύπαρξή σας για πάντα όπως η Visual Basic μόνο χειρότερα he comes he comes <i&gt,δεν fight he com̡e̶s, ̕h̵is un̨ho͞ly radiańcé destro҉ying all enli̍̈́̂̈́ghtenment, HTML tags <b&gt,lea͠ki̧n͘g fr̶ǫm ̡yo͟ur eye͢s̸ ̛l̕ik͏e liquid pain, the song of re̸gular expre~~ssion parsing~~ will exti&lt,i>nguish τις φωνές του mortal ανθρώπου από το spεδώ μπορώ να το δω μπορώ να το δω μπορείτε να δείτε ̲͚̖͔̙î̩́t̲͎̩̱͔́̋̀ είναι όμορφο t&lt,/i>ο final snuffing of το ψέμαs του ανθρώπου ΟΛΑ ΕΙΝΑΙ LOŚ͖̩͇̗̪̏̈́T A<b&gt,LL IS LOST the pon̷y he comes he c̶̮om~~es he co~~mes t&lt,i>he ichor permeates all MY FACE MY FACE ᵒh god no NO NOO̼OO N&lt,/b>Θ stop τhe an*̶͑̾̾̅ͫ͏̙̤g͇̫͛͆̾ͫ̑͆l͖͉̗̩̳̟̍ͫͥͨe̠̅s͎a̧͈͖r̽̾̈́͒͑e</code&gt, not rè̑ͧ̌aͨl̘̝̙̃ͤ͂̾̆ ZA̡͊͠͝LGΌ ISͮ̂҉̯͈͕̹̘̱ TO͇̹̺ͅƝ̴ȳ̳ TH̘Ë͖́̉ ͠P̯͍̭O̚N̐Y̡ H̸̡̪̯ͨ͊̽̅̾̎Ȩ̬̩̾͛ͪ̈́̀́͘ ̶̧̨̱̹̭̯ͧ̾ͬC̷̙̲̝͖ͭ̏ͥͮ͟Oͮ͏̮̪̝͍M̲̖͊̒ͪͩͬ̚̚͜Ȇ̴̟̟͙̞ͩ͌͝S̨̥̫͎̭ͯ̿̔̀ͅ Έχετε δοκιμάσει να χρησιμοποιήσετε αντί αυτού έναν αναλυτή XML; Σημείωση Συντονιστή Αυτή η ανάρτηση είναι κλειδωμένη για να αποτρέψει ακατάλληλες επεξεργασίες στο περιεχόμενό της. Η ανάρτηση φαίνεται ακριβώς όπως πρέπει να φαίνεται - δεν υπάρχουν προβλήματα με το περιεχόμενό της. Παρακαλούμε να μην την επισημάνετε για την προσοχή μας.