Improves Redshift and Aurora load

igorborgest · igorborgest · commit eb06a51af238 · 2020-01-14T13:24:27.000-06:00
diff --git a/awswrangler/aurora.py b/awswrangler/aurora.py
@@ -218,35 +218,35 @@ def load_table_postgres(dataframe: pd.DataFrame,
                 connection.commit()
                 logger.debug("CREATE TABLE committed.")
         for path in load_paths:
-            Aurora._load_object_postgres_with_retry(connection=connection,
-                                                    schema_name=schema_name,
-                                                    table_name=table_name,
-                                                    path=path,
-                                                    region=region)
+            sql = Aurora._get_load_sql(path=path,
+                                       schema_name=schema_name,
+                                       table_name=table_name,
+                                       engine="postgres",
+                                       region=region)
+            Aurora._load_object_postgres_with_retry(connection=connection, sql=sql)
+            logger.debug(f"Load committed for: {path}.")
 
     @staticmethod
     @tenacity.retry(retry=tenacity.retry_if_exception_type(exception_types=ProgrammingError),
                     wait=tenacity.wait_random_exponential(multiplier=0.5),
                     stop=tenacity.stop_after_attempt(max_attempt_number=5),
                     reraise=True,
                     after=tenacity.after_log(logger, INFO))
-    def _load_object_postgres_with_retry(connection: Any, schema_name: str, table_name: str, path: str,
-                                         region: str) -> None:
+    def _load_object_postgres_with_retry(connection: Any, sql: str) -> None:
+        logger.debug(sql)
         with connection.cursor() as cursor:
-            sql = Aurora._get_load_sql(path=path,
-                                       schema_name=schema_name,
-                                       table_name=table_name,
-                                       engine="postgres",
-                                       region=region)
-            logger.debug(sql)
             try:
                 cursor.execute(sql)
             except ProgrammingError as ex:
+                logger.debug(f"Exception: {ex}")
+                connection.rollback()
                 if "The file has been modified" in str(ex):
-                    connection.rollback()
                     raise ex
-            connection.commit()
-            logger.debug(f"Load committed for: {path}.")
+                elif "0 rows were copied successfully" in str(ex):
+                    raise ex
+                else:
+                    raise AuroraLoadError(str(ex))
+        connection.commit()
 
     @staticmethod
     def load_table_mysql(dataframe: pd.DataFrame,
diff --git a/awswrangler/pandas.py b/awswrangler/pandas.py
@@ -664,12 +664,14 @@ def _read_sql_athena_regular(self,
             dtype, parse_timestamps, parse_dates, converters = self._get_query_dtype(
                 query_execution_id=query_execution_id)
             path = f"{s3_output}{query_execution_id}.csv"
+            logger.debug("Start reading...")
             ret = self.read_csv(path=path,
                                 dtype=dtype,
                                 parse_dates=parse_timestamps,
                                 converters=converters,
                                 quoting=csv.QUOTE_ALL,
                                 max_result_size=max_result_size)
+            logger.debug("Start type casting...")
             if max_result_size is None:
                 if len(ret.index) > 0:
                     for col in parse_dates:
@@ -1129,7 +1131,6 @@ def write_csv_dataframe(dataframe, path, preserve_index, compression, fs, extra_
             elif serde == "LazySimpleSerDe":
                 csv_extra_args["quoting"] = csv.QUOTE_NONE
                 csv_extra_args["escapechar"] = "\\"
-        logger.debug(f"csv_extra_args: {csv_extra_args}")
         csv_buffer: bytes = bytes(
             dataframe.to_csv(None, header=False, index=preserve_index, compression=compression, **csv_extra_args),
             "utf-8")
@@ -1360,19 +1361,19 @@ def read_parquet(self,
         """
         procs_cpu_bound = procs_cpu_bound if procs_cpu_bound is not None else self._session.procs_cpu_bound if self._session.procs_cpu_bound is not None else 1
         logger.debug(f"procs_cpu_bound: {procs_cpu_bound}")
-        df: Optional[pd.DataFrame] = None
+        dfs: List[pd.DataFrame] = []
         session_primitives = self._session.primitives
         path = [path] if type(path) == str else path  # type: ignore
         bounders = calculate_bounders(len(path), procs_cpu_bound)
         logger.debug(f"len(bounders): {len(bounders)}")
         if len(bounders) == 1:
-            df = Pandas._read_parquet_paths(session_primitives=session_primitives,
-                                            path=path,
-                                            columns=columns,
-                                            filters=filters,
-                                            procs_cpu_bound=procs_cpu_bound,
-                                            wait_objects=wait_objects,
-                                            wait_objects_timeout=wait_objects_timeout)
+            dfs = Pandas._read_parquet_paths(session_primitives=session_primitives,
+                                             path=path,
+                                             columns=columns,
+                                             filters=filters,
+                                             procs_cpu_bound=procs_cpu_bound,
+                                             wait_objects=wait_objects,
+                                             wait_objects_timeout=wait_objects_timeout)
         else:
             procs = []
             receive_pipes = []
@@ -1398,15 +1399,16 @@ def read_parquet(self,
             logger.debug(f"len(procs): {len(bounders)}")
             for i in range(len(procs)):
                 logger.debug(f"Waiting pipe number: {i}")
-                df_received = receive_pipes[i].recv()
-                if df is None:
-                    df = df_received
-                else:
-                    df = pd.concat(objs=[df, df_received], ignore_index=True)
+                dfs_received: List[pd.DataFrame] = receive_pipes[i].recv()
+                dfs = dfs_received + dfs
                 logger.debug(f"Waiting proc number: {i}")
                 procs[i].join()
                 logger.debug(f"Closing proc number: {i}")
                 receive_pipes[i].close()
+        if len(dfs) == 1:
+            df: pd.DataFrame = dfs[0]
+        else:
+            df = pd.concat(objs=dfs, ignore_index=True)
         return df
 
     @staticmethod
@@ -1418,14 +1420,14 @@ def _read_parquet_paths_remote(send_pipe: mp.connection.Connection,
                                    procs_cpu_bound: Optional[int] = None,
                                    wait_objects: bool = False,
                                    wait_objects_timeout: Optional[float] = 10.0):
-        df: pd.DataFrame = Pandas._read_parquet_paths(session_primitives=session_primitives,
-                                                      path=path,
-                                                      columns=columns,
-                                                      filters=filters,
-                                                      procs_cpu_bound=procs_cpu_bound,
-                                                      wait_objects=wait_objects,
-                                                      wait_objects_timeout=wait_objects_timeout)
-        send_pipe.send(df)
+        dfs: List[pd.DataFrame] = Pandas._read_parquet_paths(session_primitives=session_primitives,
+                                                             path=path,
+                                                             columns=columns,
+                                                             filters=filters,
+                                                             procs_cpu_bound=procs_cpu_bound,
+                                                             wait_objects=wait_objects,
+                                                             wait_objects_timeout=wait_objects_timeout)
+        send_pipe.send(dfs)
         send_pipe.close()
 
     @staticmethod
@@ -1435,7 +1437,7 @@ def _read_parquet_paths(session_primitives: "SessionPrimitives",
                             filters: Optional[Union[List[Tuple[Any]], List[List[Tuple[Any]]]]] = None,
                             procs_cpu_bound: Optional[int] = None,
                             wait_objects: bool = False,
-                            wait_objects_timeout: Optional[float] = 10.0) -> pd.DataFrame:
+                            wait_objects_timeout: Optional[float] = 10.0) -> List[pd.DataFrame]:
         """
         Read parquet data from S3
 
@@ -1459,24 +1461,19 @@ def _read_parquet_paths(session_primitives: "SessionPrimitives",
                 procs_cpu_bound=procs_cpu_bound,
                 wait_objects=wait_objects,
                 wait_objects_timeout=wait_objects_timeout)
+            return [df]
         else:
-            df = Pandas._read_parquet_path(session_primitives=session_primitives,
-                                           path=path[0],
-                                           columns=columns,
-                                           filters=filters,
-                                           procs_cpu_bound=procs_cpu_bound,
-                                           wait_objects=wait_objects,
-                                           wait_objects_timeout=wait_objects_timeout)
-            for p in path[1:]:
-                df_aux = Pandas._read_parquet_path(session_primitives=session_primitives,
-                                                   path=p,
-                                                   columns=columns,
-                                                   filters=filters,
-                                                   procs_cpu_bound=procs_cpu_bound,
-                                                   wait_objects=wait_objects,
-                                                   wait_objects_timeout=wait_objects_timeout)
-                df = pd.concat(objs=[df, df_aux], ignore_index=True)
-        return df
+            dfs: List[pd.DataFrame] = []
+            for p in path:
+                df = Pandas._read_parquet_path(session_primitives=session_primitives,
+                                               path=p,
+                                               columns=columns,
+                                               filters=filters,
+                                               procs_cpu_bound=procs_cpu_bound,
+                                               wait_objects=wait_objects,
+                                               wait_objects_timeout=wait_objects_timeout)
+                dfs.append(df)
+            return dfs
 
     @staticmethod
     def _read_parquet_path(session_primitives: "SessionPrimitives",
@@ -1851,17 +1848,17 @@ def read_csv_list(
                     procs.append(proc)
                     receive_pipes.append(receive_pipe)
                     utils.wait_process_release(processes=procs, target_number=procs_cpu_bound)
+                dfs: List[pd.DataFrame] = []
                 for i in range(len(procs)):
                     logger.debug(f"Waiting pipe number: {i}")
                     df_received = receive_pipes[i].recv()
-                    if df is None:
-                        df = df_received
-                    else:
-                        df = pd.concat(objs=[df, df_received], ignore_index=True)
+                    dfs.append(df_received)
                     logger.debug(f"Waiting proc number: {i}")
                     procs[i].join()
                     logger.debug(f"Closing proc number: {i}")
                     receive_pipes[i].close()
+                logger.debug(f"Concatenating all {len(paths)} DataFrames...")
+                df = pd.concat(objs=dfs, ignore_index=True)
             return df
 
     def _read_csv_list_iterator(
diff --git a/awswrangler/redshift.py b/awswrangler/redshift.py
@@ -226,7 +226,10 @@ def load_table(dataframe,
             cursor.execute("-- AWS DATA WRANGLER\n SELECT pg_last_copy_id() AS query_id")
             query_id = cursor.fetchall()[0][0]
             sql = ("-- AWS DATA WRANGLER\n"
-                   f"SELECT COUNT(*) as num_files_loaded FROM STL_LOAD_COMMITS WHERE query = {query_id}")
+                   f"SELECT COUNT(DISTINCT filename) as num_files_loaded "
+                   f"FROM STL_LOAD_COMMITS "
+                   f"WHERE query = {query_id}")
+            logger.debug(sql)
             cursor.execute(sql)
             num_files_loaded = cursor.fetchall()[0][0]
             if num_files_loaded != num_files:
diff --git a/testing/test_awswrangler/test_redshift.py b/testing/test_awswrangler/test_redshift.py
@@ -129,7 +129,7 @@ def test_to_redshift_pandas(session, bucket, redshift_parameters, sample_name, m
     ],
 )
 def test_to_redshift_pandas_glue(session, bucket, redshift_parameters, sample_name, mode, factor, diststyle, distkey,
-                            sortstyle, sortkey):
+                                 sortstyle, sortkey):
 
     if sample_name == "micro":
         dates = ["date"]

Original file line number	Diff line number	Diff line change
`@@ -129,7 +129,7 @@ def test_to_redshift_pandas(session, bucket, redshift_parameters, sample_name, m`
`129`	`129`	`],`
`130`	`130`	`)`
`131`	`131`	`def test_to_redshift_pandas_glue(session, bucket, redshift_parameters, sample_name, mode, factor, diststyle, distkey,`
`132`		`- sortstyle, sortkey):`
	`132`	`+ sortstyle, sortkey):`
`133`	`133`
`134`	`134`	`if sample_name == "micro":`
`135`	`135`	`dates = ["date"]`