Лучший способ преобразования строки в байты в Python 3?

Question

Дополнительно

Вопрос

Лучший способ преобразования строки в байты в Python 3?

По-видимому, существует два различных способа преобразования строки в байты, как видно из ответов на сайте https://stackoverflow.com/questions/5471158/typeerror-str-does-not-support-the-buffer-interface.

Какой из этих способов будет лучше или более Pythonic? Или это просто вопрос личных предпочтений?

b = bytes(mystring, 'utf-8')

b = mystring.encode('utf-8')

Community

Редактировал вопрос 23-го мая 2017 в 11:54

Решение / Ответ

6-го июля 2013 в 7:09

Дополнительно

Это проще, чем кажется:

my_str = "hello world"
my_str_as_bytes = str.encode(my_str)
type(my_str_as_bytes) # ensure it is byte representation
my_decoded_str = my_str_as_bytes.decode()
type(my_decoded_str) # ensure it is string representation

vinzee

Редактировал ответ 14-го июня 2019 в 12:27

277

0

Antti Haapala

23-го июля 2017 в 8:35

Дополнительно

Абсолютно лучшим способом является ни один из двух, а третий. Начиная с версии Python 3.0 первый параметр encode по умолчанию* принимает значение 'utf-8'. Таким образом, наилучшим вариантом является

b = mystring.encode()

Это также будет быстрее, так как аргумент по умолчанию приводит в коде на Си не к строке "utf-8", а к NULL, что гораздо быстрее проверить!

Вот некоторые тайминги:

In [1]: %timeit -r 10 'abc'.encode('utf-8')
The slowest run took 38.07 times longer than the fastest. 
This could mean that an intermediate result is being cached.
10000000 loops, best of 10: 183 ns per loop

In [2]: %timeit -r 10 'abc'.encode()
The slowest run took 27.34 times longer than the fastest. 
This could mean that an intermediate result is being cached.
10000000 loops, best of 10: 137 ns per loop

Несмотря на предупреждение, времена оказались очень стабильными после многократных запусков - отклонение составило всего ~2%.

Использование encode() без аргумента несовместимо с Python 2, поскольку в Python 2 кодировка символов по умолчанию ASCII.

>>> 'äöä'.encode()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

Antti Haapala

Редактировал ответ 23-го июня 2018 в 7:21

Built-in Types — Python 3.10.7 documentation

docs.python.org

105

0

Похожие сообщества 30

Python beginners

14 568 пользователей

Вопросы про Python для чайников. Cпам и троллинг неприемлем. Частозадаваемые вопросы: https://github.com/ru-python-beginners/faq/blob/master/README.md Правила группы: https://t.me/ru_python_beginners/2752736

Открыть telegram

Python

13 656 пользователей

Уютный чат для профессионалов, занимающихся поиском питоньих мудростей. Как не получить бан: https://t.me/ru_python/1961404

Открыть telegram

🐍 Python Stepik Chat

11 621 пользователей

Этот уютный чат создан для помощи в решение задач на прекрасном курсе "Поколение Python: курс для начинающих" и не только. Правила: https://t.me/pythonstepikchat/619142 Чат для оффтопа - t.me/+fqNb78zlQY81NGUy Наш канал - @kimport_this

Открыть telegram

Вакансии для Python-разработчиков / Python Jobs

6 970 пользователей

Как разместить вакансию? — https://t.me/ru_pythonjobs/21926 Размещение вакансий бесплатно. Только Python. Рекламы нет.

Открыть telegram

Python — вакансии и аналитика

6 933 пользователей

Публикуем вакансии и запросы на поиск работы по направлению Python, Flask и т.д. Здесь всё: full-time, part-time, remote и разовые подработки. См. также: @golang_jobs, @qa_jobs, @devops_jobs, @javascript_jobs, @nodejs_jobs, @uiux_jobs, @products_jobs

Открыть telegram

Сообщество Python Программистов

5 722 пользователей

Канал: @pip_install Наши сайты: https://python-scripts.com https://selenium-python.com https://itfy.org Мы в ВК: https://vk.com/open_sourcecode Вакансии: https://t.me/python_scripts_hr

Открыть telegram

Добавить вопрос

Категории

Все

Технологий

Культура / Отдых

Жизнь / Искусство

Наука

Профессии

Бизнес

Пользователи

1

Зарегистрирован 3 недели назад

2

Артур «Апер»

Зарегистрирован 2 месяца назад

3

Viktor Malyutin

Зарегистрирован 2 месяца назад

4

Viktor Malyutin

Зарегистрирован 2 месяца назад

5

Syahputra Zhedenk

Зарегистрирован 2 месяца назад

Хотите что-то узнать? Задавайте Ваш вопрос на нашем сайте

ru.kzen.dev

agf · Accepted Answer · 2011-09-28T15:27:58+00:00

Если посмотреть документацию по bytes, то она указывает на bytearray:

bytearray([source[, encoding[, errors]])

Возвращает новый массив байтов. Тип bytearray представляет собой изменяемую последовательность целых чисел в диапазоне 0<= x<256. Он имеет большинство обычных методов мутабельных последовательностей, описанных в разделе Мутабельные типы последовательностей, а также большинство методов, которыми обладает тип bytes, см. раздел Методы байтов и байтовых массивов.

Необязательный параметр source может быть использован для инициализации массива несколькими различными способами:

Если это строка, то необходимо также указать параметры кодировки (и, опционально, ошибки); тогда bytearray() преобразует строку в байты с помощью str.encode()..

Если это целое число, то массив будет иметь этот размер и инициализируется нулевыми байтами..

Если это итерируемый массив, то он должен быть итерируемым массивом целых чисел в диапазоне 0 <= x <256, которые используются в качестве начального содержимого массива. >__Если это объект, соответствующий интерфейсу буфера, то для инициализации массива байт будет использоваться буфер чтения объекта.

Без аргумента создается массив размера 0..

Таким образом, bytes может делать гораздо больше, чем просто кодировать строку. По Питону, это позволяет вызывать конструктор с любым типом исходного параметра, который имеет смысл.

Для кодирования строки я считаю, что some_string.encode(encoding) более питоничен, чем использование конструктора, поскольку он наиболее самодокументирован - "взять эту строку и закодировать ее в этой кодировке" понятнее, чем bytes(some_string, encoding) - при использовании конструктора нет явного глагола.

Правка: Я проверил исходный текст на Python. Если передать строку в юникоде в bytes с помощью CPython, то вызывается PyUnicode_AsEncodedString, который является реализацией encode; так что вы просто пропускаете уровень косвенности, если вызываете encode самостоятельно.

Кроме того, см. комментарий Serdalis' -- unicode_string.encode(encoding) также более питоничен, поскольку его обратным показателем является byte_string.decode(encoding), а симметрия - это хорошо.