Если вы в поисках надежного способа парсить HTML-код, то регулярные выражения не являются универсальным решением из-за хрупкости HTML-страниц в Интернете сегодня. Такие распространенные ошибки, как отсутствующие закрывающие теги, незакрытые скобки с кавычками, несоответствующие друг другу теги и т.д., смогут легко сломать даже самое хорошее регулярное выражение. Вместо этого вы можете использовать библиотеки Beautiful Soup (Python), html5lib (Python) или phpQuery (PHP) для парсинга HTML-кода.
Используя знания, полученные на предыдущих уроках, попробуйте написать шаблон, который будет соответствовать HTML-тегам в следующих строках.
Задание | Текст | Результат | |
Захватить | <a>This is a link</a> | a | ![]() |
Захватить | <a href=’https://regexone.com’>Link</a> | a | ![]() |
Захватить | <div class=’test_style’>Test</div> | div | ![]() |
Захватить | <div>Hello <span>world</span></div> | div | ![]() |
Решение | Для парсинга HTML-кода рекомендуется использовать одну из библиотек, указанных выше, но для соответствия простым HTML-тегам вы можете использовать выражение <(\w+).
Вы также можете захватить содержимое тегов с помощью шаблона >([\w\s]*)<. |