Merge pull request #61 from awslabs/fix-cast

igorborgest · web-flow · commit 46486b5a5ea5 · 2019-11-10T15:28:11.000-03:00
Fixing cast issues
diff --git a/README.md b/README.md
@@ -2,11 +2,11 @@
 
 > Utility belt to handle data on AWS.
 
-[![Release](https://img.shields.io/badge/release-0.0.17-brightgreen.svg)](https://pypi.org/project/awswrangler/)
+[![Release](https://img.shields.io/badge/release-0.0.18-brightgreen.svg)](https://pypi.org/project/awswrangler/)
 [![Downloads](https://img.shields.io/pypi/dm/awswrangler.svg)](https://pypi.org/project/awswrangler/)
 [![Python Version](https://img.shields.io/badge/python-3.6%20%7C%203.7-brightgreen.svg)](https://pypi.org/project/awswrangler/)
 [![Documentation Status](https://readthedocs.org/projects/aws-data-wrangler/badge/?version=latest)](https://aws-data-wrangler.readthedocs.io/en/latest/?badge=latest)
-[![Coverage](https://img.shields.io/badge/coverage-88%25-brightgreen.svg)](https://pypi.org/project/awswrangler/)
+[![Coverage](https://img.shields.io/badge/coverage-89%25-brightgreen.svg)](https://pypi.org/project/awswrangler/)
 [![Average time to resolve an issue](http://isitmaintained.com/badge/resolution/awslabs/aws-data-wrangler.svg)](http://isitmaintained.com/project/awslabs/aws-data-wrangler "Average time to resolve an issue")
 [![License](https://img.shields.io/badge/License-Apache%202.0-blue.svg)](https://opensource.org/licenses/Apache-2.0)
 
diff --git a/awswrangler/__version__.py b/awswrangler/__version__.py
@@ -1,4 +1,4 @@
 __title__ = "awswrangler"
 __description__ = "Utility belt to handle data on AWS."
-__version__ = "0.0.17"
+__version__ = "0.0.18"
 __license__ = "Apache License 2.0"
diff --git a/awswrangler/pandas.py b/awswrangler/pandas.py
@@ -758,6 +758,9 @@ def _data_to_s3_dataset_writer(dataframe,
                                                            isolated_dataframe=isolated_dataframe)
             objects_paths.append(object_path)
         else:
+            dataframe = Pandas._cast_pandas(dataframe=dataframe, cast_columns=cast_columns)
+            cast_columns_materialized = {c: t for c, t in cast_columns.items() if c not in partition_cols}
+            dataframe = Pandas._cast_pandas(dataframe=dataframe, cast_columns=cast_columns)
             for keys, subgroup in dataframe.groupby(partition_cols):
                 subgroup = subgroup.drop(partition_cols, axis="columns")
                 if not isinstance(keys, tuple):
@@ -770,12 +773,24 @@ def _data_to_s3_dataset_writer(dataframe,
                                                                compression=compression,
                                                                session_primitives=session_primitives,
                                                                file_format=file_format,
-                                                               cast_columns=cast_columns,
+                                                               cast_columns=cast_columns_materialized,
                                                                extra_args=extra_args,
                                                                isolated_dataframe=True)
                 objects_paths.append(object_path)
         return objects_paths
 
+    @staticmethod
+    def _cast_pandas(dataframe: pd.DataFrame, cast_columns: Dict[str, str]) -> pd.DataFrame:
+        for col, athena_type in cast_columns.items():
+            pandas_type: str = data_types.athena2pandas(dtype=athena_type)
+            if pandas_type == "datetime64":
+                dataframe[col] = pd.to_datetime(dataframe[col])
+            elif pandas_type == "date":
+                dataframe[col] = pd.to_datetime(dataframe[col]).dt.date
+            else:
+                dataframe[col] = dataframe[col].astype(pandas_type)
+        return dataframe
+
     @staticmethod
     def _data_to_s3_dataset_writer_remote(send_pipe,
                                           dataframe,
diff --git a/testing/test_awswrangler/test_pandas.py b/testing/test_awswrangler/test_pandas.py
@@ -949,3 +949,153 @@ def test_read_sql_athena_with_nulls(session, bucket, database):
     assert df2.dtypes[1] == "bool"
     assert df2.dtypes[2] == "object"
     session.s3.delete_objects(path=path)
+
+
+def test_partition_date(session, bucket, database):
+    df = pd.DataFrame({
+        "col1": ["val1", "val2"],
+        "datecol": ["2019-11-09", "2019-11-08"],
+        'partcol': ["2019-11-09", "2019-11-08"]
+    })
+    df["datecol"] = pd.to_datetime(df.datecol).dt.date
+    df["partcol"] = pd.to_datetime(df.partcol).dt.date
+    print(df)
+    print(df.dtypes)
+    path = f"s3://{bucket}/test/"
+    session.pandas.to_parquet(dataframe=df,
+                              database=database,
+                              path=path,
+                              partition_cols=["datecol"],
+                              preserve_index=False,
+                              mode="overwrite")
+    df2 = None
+    for counter in range(10):
+        df2 = session.pandas.read_sql_athena(sql="select * from test", database=database)
+        assert len(list(df.columns)) == len(list(df2.columns))
+        if len(df.index) == len(df2.index):
+            break
+        sleep(1)
+    assert len(df.index) == len(df2.index)
+    print(df2)
+    print(df2.dtypes)
+    assert df2.dtypes[0] == "object"
+    assert df2.dtypes[1] == "object"
+    assert df2.dtypes[2] == "object"
+    session.s3.delete_objects(path=path)
+
+
+def test_partition_cast_date(session, bucket, database):
+    df = pd.DataFrame({
+        "col1": ["val1", "val2"],
+        "datecol": ["2019-11-09", "2019-11-08"],
+        "partcol": ["2019-11-09", "2019-11-08"]
+    })
+    print(df)
+    print(df.dtypes)
+    path = f"s3://{bucket}/test/"
+    schema = {
+        "col1": "string",
+        "datecol": "date",
+        "partcol": "date",
+    }
+    session.pandas.to_parquet(dataframe=df,
+                              database=database,
+                              path=path,
+                              partition_cols=["partcol"],
+                              preserve_index=False,
+                              cast_columns=schema,
+                              mode="overwrite")
+    df2 = None
+    for counter in range(10):
+        df2 = session.pandas.read_sql_athena(sql="select * from test", database=database)
+        assert len(list(df.columns)) == len(list(df2.columns))
+        if len(df.index) == len(df2.index):
+            break
+        sleep(1)
+    assert len(df.index) == len(df2.index)
+    print(df2)
+    print(df2.dtypes)
+    assert df2.dtypes[0] == "object"
+    assert df2.dtypes[1] == "object"
+    assert df2.dtypes[2] == "object"
+    session.s3.delete_objects(path=path)
+
+
+def test_partition_cast_timestamp(session, bucket, database):
+    df = pd.DataFrame({
+        "col1": ["val1", "val2"],
+        "datecol": ["2019-11-09", "2019-11-08"],
+        "partcol": ["2019-11-09", "2019-11-08"]
+    })
+    print(df)
+    print(df.dtypes)
+    path = f"s3://{bucket}/test/"
+    schema = {
+        "col1": "string",
+        "datecol": "timestamp",
+        "partcol": "timestamp",
+    }
+    session.pandas.to_parquet(dataframe=df,
+                              database=database,
+                              path=path,
+                              partition_cols=["partcol"],
+                              preserve_index=False,
+                              cast_columns=schema,
+                              mode="overwrite")
+    df2 = None
+    for counter in range(10):
+        df2 = session.pandas.read_sql_athena(sql="select * from test", database=database)
+        assert len(list(df.columns)) == len(list(df2.columns))
+        if len(df.index) == len(df2.index):
+            break
+        sleep(1)
+    assert len(df.index) == len(df2.index)
+    print(df2)
+    print(df2.dtypes)
+    assert str(df2.dtypes[0]) == "object"
+    assert str(df2.dtypes[1]).startswith("datetime64")
+    assert str(df2.dtypes[2]).startswith("datetime64")
+    session.s3.delete_objects(path=path)
+
+
+def test_partition_cast(session, bucket, database):
+    df = pd.DataFrame({
+        "col1": ["val1", "val2"],
+        "datecol": ["2019-11-09", "2019-11-08"],
+        "partcol": ["2019-11-09", "2019-11-08"],
+        "col_double": ["1.0", "1.1"],
+        "col_bool": ["True", "False"],
+    })
+    print(df)
+    print(df.dtypes)
+    path = f"s3://{bucket}/test/"
+    schema = {
+        "col1": "string",
+        "datecol": "timestamp",
+        "partcol": "timestamp",
+        "col_double": "double",
+        "col_bool": "boolean",
+    }
+    session.pandas.to_parquet(dataframe=df,
+                              database=database,
+                              path=path,
+                              partition_cols=["partcol"],
+                              preserve_index=False,
+                              cast_columns=schema,
+                              mode="overwrite")
+    df2 = None
+    for counter in range(10):
+        df2 = session.pandas.read_sql_athena(sql="select * from test", database=database)
+        assert len(list(df.columns)) == len(list(df2.columns))
+        if len(df.index) == len(df2.index):
+            break
+        sleep(1)
+    assert len(df.index) == len(df2.index)
+    print(df2)
+    print(df2.dtypes)
+    assert df2.dtypes[0] == "object"
+    assert str(df2.dtypes[1]).startswith("datetime")
+    assert str(df2.dtypes[2]).startswith("float")
+    assert str(df2.dtypes[3]).startswith("bool")
+    assert str(df2.dtypes[4]).startswith("datetime")
+    session.s3.delete_objects(path=path)