Я'м возникли проблемы с чтением из файла, обрабатывать ее строку и сохраняете файл в UTF-8.
Вот код:
try:
filehandle = open(filename,"r")
except:
print("Could not open file " + filename)
quit()
text = filehandle.read()
filehandle.close()
Потом я делаю какую-то обработку текстовой переменной.
А потом
try:
writer = open(output,"w")
except:
print("Could not open file " + output)
quit()
#data = text.decode("iso 8859-15")
#writer.write(data.encode("UTF-8"))
writer.write(text)
writer.close()
Этот вывод прекрасно файл, но он делает это в ISO 8859-15 по моим редактором. Так же редактор распознает входной файл (в переменную именем) как UTF-8 я не'т знаю, почему это произошло. Насколько мои исследования показали закомментированные строки должны решить проблему. Однако, когда я использую эти строки результирующего файла-абракадабра в специальный знак, в основном, слова с Тильдой как текст на испанском языке. Я бы очень признателен за любую помощь, как я в тупик....
Текст процесса и из Unicode в системе ввода-вывода границы вашей программы с помощью модуля кодеки
:
import codecs
with codecs.open(filename, 'r', encoding='utf8') as f:
text = f.read()
# process Unicode text
with codecs.open(filename, 'w', encoding='utf8') as f:
f.write(text)
Редактировать: модуль ввода-вывода вместо него рекомендуется использовать кодеки и совместим с Python 3'ы открыть
синтаксис:
import io
with io.open(filename, 'r', encoding='utf8') as f:
text = f.read()
# process Unicode text
with io.open(filename, 'w', encoding='utf8') as f:
f.write(text)
Вы также можете пройти через это с ниже код:
file=open(completefilepath,'r',encoding='utf8',errors="ignore")
file.read()
Вы можете'т сделать это, используя открытые. используют кодеки.
когда вы открываете файл в Python с использованием открытой встроенной функции вы сможете всегда прочитать/записать файл в ASCII. Писать в UTF-8, Попробуйте это:
import codecs
file = codecs.open('data.txt','w','utf-8')