Перемешивание строк таблицы данных

Question

Дополнительно

Вопрос

Перемешивание строк таблицы данных

У меня есть следующие таблицы данных:

    Col1  Col2  Col3  Type
0      1     2     3     1
1      4     5     6     1
...
20     7     8     9     2
21    10    11    12     2
...
45    13    14    15     3
46    16    17    18     3
...

Таблицы данных считывается из файла CSV. Все строки, которые имеют " тип " 1 находятся на верхней, а затем строки с Тип 2, затем строки с Тип 3, и т. д.

Я хотел бы, чтобы перетасовать порядок таблицы данных's строк, так что все тип's являются смешанными. Возможным результатом может быть:

    Col1  Col2  Col3  Type
0      7     8     9     2
1     13    14    15     3
...
20     1     2     3     1
21    10    11    12     2
...
45     4     5     6     1
46    16    17    18     3
...

Как я могу добиться этого?

smci

Редактировал вопрос 8-го марта 2019 в 9:36

shuffle

pandas

Решение / Ответ

24-го сентября 2016 в 7:17

Дополнительно

Вы можете просто использовать sklearn для этого

from sklearn.utils import shuffle
df = shuffle(df)

ekad

Редактировал ответ 24-го сентября 2016 в 7:42

183

0

joris

11-го апреля 2015 в 10:26

Дополнительно

Вы можете тасовать строки таблицы данных путем индексирования с перетасованную индекса. Для этого, например, можно использовать НП.случайные.перестановка(ноНП.случайные.выбор-это также возможность):

In [12]: df = pd.read_csv(StringIO(s), sep="\s+")

In [13]: df
Out[13]: 
    Col1  Col2  Col3  Type
0      1     2     3     1
1      4     5     6     1
20     7     8     9     2
21    10    11    12     2
45    13    14    15     3
46    16    17    18     3

In [14]: df.iloc[np.random.permutation(len(df))]
Out[14]: 
    Col1  Col2  Col3  Type
46    16    17    18     3
45    13    14    15     3
20     7     8     9     2
0      1     2     3     1
1      4     5     6     1
21    10    11    12     2

Если вы хотите сохранить индекс, пронумерованных от 1, 2, .., n, как в вашем примере, вы можете просто сбросить индекс: df_shuffled.reset_index(капля=истина)

52

0

haku

23-го марта 2018 в 1:40

Дополнительно

Сюжет: `НП.случайные.перетасовать(ndarray) может сделать работу. Таким образом, в вашем случае

np.random.shuffle(DataFrame.values)

Таблицы данных, под капотом, использует библиотеки numpy ndarray как держатель данных. (Вы можете проверить с исходный код таблицы данных)

Так что если вы используете np.random.shuffle()он бы перемешивает массив вдоль первой оси многомерного массива. Но индекс в таблице данных остается unshuffled.

Хотя, есть некоторые моменты, которые следует учитывать.

функция возвращает никто. В случае, если вы хотите сохранить копию исходного объекта, вы должны сделать это прежде, чем вы передадите в функцию.
sklearn.utils.shuffle()как пользователь tj89 предложил, может назначить random_state наряду с другой вариант для выходного контроля. Вы можете, что для цели разработки.
sklearn.utils.shuffle() быстрее. Но будут тасовать оси информация(индекс столбца) из таблицы данныхнаряду сndarray` содержит.

Тест ## результат между sklearn.utils.shuffle() и np.random.shuffle().

ndarray

nd = sklearn.utils.shuffle(nd)

0.10793248389381915 сек. В 8 раз быстрее

np.random.shuffle(nd)

0.8897626010002568 сек

Таблицы данных

df = sklearn.utils.shuffle(df)

0.3183923360193148 сек. В 3 раза быстрее

np.random.shuffle(df.values)

0.9357550159329548 сек

вывод: если это нормально, чтобы ось инфо(индекс столбца), чтобы быть перетасованы вместе с ndarray, использовать sklearn.utils.shuffle(). В противном случае, используйте np.random.shuffle()

использован # код#

import timeit
setup = '''
import numpy as np
import pandas as pd
import sklearn
nd = np.random.random((1000, 100))
df = pd.DataFrame(nd)
'''

timeit.timeit('nd = sklearn.utils.shuffle(nd)', setup=setup, number=1000)
timeit.timeit('np.random.shuffle(nd)', setup=setup, number=1000)
timeit.timeit('df = sklearn.utils.shuffle(df)', setup=setup, number=1000)
timeit.timeit('np.random.shuffle(df.values)', setup=setup, number=1000)

[теги:питон][тегу:бенчмаркинг]

haku

Редактировал ответ 12-го декабря 2018 в 12:17

34

0

NotANumber

11-го июля 2018 в 4:31

Дополнительно

(Я не'т иметь достаточно репутации, чтобы оставлять на высший пост, поэтому я надеюсь, что кто-то может сделать это для меня.) Была выражена озабоченность, что первый метод:

df.sample(frac=1)

сделал глубокую копию или просто изменены таблицы данных. Я побежал следующий код:

print(hex(id(df)))
print(hex(id(df.sample(frac=1))))
print(hex(id(df.sample(frac=1).reset_index(drop=True))))

и мои результаты были:

0x1f8a784d400
0x1f8b9d65e10
0x1f8b9d65b70

что означает метод ** не возвращался один и тот же объект, как было предложено в последнем комментарии. Поэтому этот метод действительно делает тасуется копия**.

11

0

Ido Cohn

27-го июня 2018 в 1:09

Дополнительно

Насколько мне известно, самое простое решение:

df_shuffled = df.reindex(np.random.permutation(df.index))

4

0

Abhilash Reddy Yammanuru

13-го июня 2018 в 11:28

Дополнительно

перетасовать панды фрейма данных путем отбора пробы массива в этом случае индекс и перемешайте его, чтобы потом установить время как индекс фрейма данных. Теперь вроде фрейма данных по индексу. Вот идет ваш тасуется таблицы данных

import random
df = pd.DataFrame({"a":[1,2,3,4],"b":[5,6,7,8]})
index = [i for i in range(df.shape[0])]
random.shuffle(index)
df.set_index([index]).sort_index()

результат _

Вставить фрейм данных в места, где я в приведенном выше коде .

2

0

Похожие сообщества 30

Python beginners

14 568 пользователей

Вопросы про Python для чайников. Cпам и троллинг неприемлем. Частозадаваемые вопросы: https://github.com/ru-python-beginners/faq/blob/master/README.md Правила группы: https://t.me/ru_python_beginners/2752736

Открыть telegram

Python

13 656 пользователей

Уютный чат для профессионалов, занимающихся поиском питоньих мудростей. Как не получить бан: https://t.me/ru_python/1961404

Открыть telegram

🐍 Python Stepik Chat

11 621 пользователей

Этот уютный чат создан для помощи в решение задач на прекрасном курсе "Поколение Python: курс для начинающих" и не только. Правила: https://t.me/pythonstepikchat/619142 Чат для оффтопа - t.me/+fqNb78zlQY81NGUy Наш канал - @kimport_this

Открыть telegram

Вакансии для Python-разработчиков / Python Jobs

6 970 пользователей

Как разместить вакансию? — https://t.me/ru_pythonjobs/21926 Размещение вакансий бесплатно. Только Python. Рекламы нет.

Открыть telegram

Python — вакансии и аналитика

6 933 пользователей

Публикуем вакансии и запросы на поиск работы по направлению Python, Flask и т.д. Здесь всё: full-time, part-time, remote и разовые подработки. См. также: @golang_jobs, @qa_jobs, @devops_jobs, @javascript_jobs, @nodejs_jobs, @uiux_jobs, @products_jobs

Открыть telegram

Сообщество Python Программистов

5 722 пользователей

Канал: @pip_install Наши сайты: https://python-scripts.com https://selenium-python.com https://itfy.org Мы в ВК: https://vk.com/open_sourcecode Вакансии: https://t.me/python_scripts_hr

Открыть telegram

Добавить вопрос

Категории

Все

Технологий

Культура / Отдых

Жизнь / Искусство

Наука

Профессии

Бизнес

Пользователи

Все

Новые

Линия # память инкремент содержимого строки

5 68.5 68.5 МИБ МИБ @профилю 6 деф перемешать(): 7 847.8 779.3 МИБ МИБ ДФ = др.Таблицы данных(НП.случайные.randn(100, 1000000)) 8 847.9 МИБ 0.1 Мб ДФ = ДФ.образец(ГРП=1).reset_index(капля=истина)

``