feat: GenAI Client(evals) - Add agent data to EvaluationRun show in Vertex AI GenAI SDK evals

vertex-sdk-bot · copybara-github · commit c24199aad188 · 2025-10-21T14:28:45.000-07:00
PiperOrigin-RevId: 822275512
diff --git a/vertexai/_genai/_evals_common.py b/vertexai/_genai/_evals_common.py
@@ -1435,6 +1435,7 @@ def _convert_request_to_dataset_row(
     dict_row["reference"] = request.golden_response
     for candidate in request.candidate_responses:
         dict_row[candidate.candidate] = candidate.text if candidate.text else None
+        dict_row["intermediate_events"] = candidate.events if candidate.events else None
     return dict_row
 
 
@@ -1499,6 +1500,7 @@ def _get_eval_cases_eval_dfs_from_eval_items(
 def _get_eval_result_from_eval_items(
     results: types.EvaluationRunResults,
     eval_items: list[types.EvaluationItem],
+    agent_info: Optional[types.AgentInfo] = None,
 ) -> types.EvaluationResult:
     """Retrieves an EvaluationResult from the EvaluationRunResults.
 
@@ -1522,13 +1524,15 @@ def _get_eval_result_from_eval_items(
         metadata=types.EvaluationRunMetadata(
             candidate_names=candidate_names,
         ),
+        agent_info=agent_info,
     )
     return eval_result
 
 
 def _convert_evaluation_run_results(
     api_client: BaseApiClient,
     evaluation_run_results: types.EvaluationRunResults,
+    agent_info: Optional[types.AgentInfo] = None,
 ) -> list[types.EvaluationItem]:
     """Retrieves an EvaluationItem from the EvaluationRunResults."""
     if not evaluation_run_results or not evaluation_run_results.evaluation_set:
@@ -1545,12 +1549,15 @@ def _convert_evaluation_run_results(
             evals_module.get_evaluation_item(name=item_name)
             for item_name in eval_set.evaluation_items
         ]
-    return _get_eval_result_from_eval_items(evaluation_run_results, eval_items)
+    return _get_eval_result_from_eval_items(
+        evaluation_run_results, eval_items, agent_info
+    )
 
 
 async def _convert_evaluation_run_results_async(
     api_client: BaseApiClient,
     evaluation_run_results: types.EvaluationRunResults,
+    agent_info: Optional[types.AgentInfo] = None,
 ) -> list[types.EvaluationItem]:
     """Retrieves an EvaluationItem from the EvaluationRunResults."""
     if not evaluation_run_results or not evaluation_run_results.evaluation_set:
@@ -1568,7 +1575,9 @@ async def _convert_evaluation_run_results_async(
             for eval_item in eval_set.evaluation_items
         ]
         eval_items = await asyncio.gather(*tasks)
-    return _get_eval_result_from_eval_items(evaluation_run_results, eval_items)
+    return _get_eval_result_from_eval_items(
+        evaluation_run_results, eval_items, agent_info
+    )
 
 
 def _object_to_dict(obj) -> dict[str, Any]:
diff --git a/vertexai/_genai/evals.py b/vertexai/_genai/evals.py
@@ -1293,10 +1293,11 @@ def get_evaluation_run(
         if name.startswith("projects/"):
             name = name.split("/")[-1]
         result = self._get_evaluation_run(name=name, config=config)
+        agent_info = result.agent_info if result.agent_info else None
         if include_evaluation_items:
             result.evaluation_item_results = (
                 _evals_common._convert_evaluation_run_results(
-                    self._api_client, result.evaluation_run_results
+                    self._api_client, result.evaluation_run_results, agent_info
                 )
             )
         return result
@@ -2097,10 +2098,11 @@ async def get_evaluation_run(
         if name.startswith("projects/"):
             name = name.split("/")[-1]
         result = await self._get_evaluation_run(name=name, config=config)
+        agent_info = result.agent_info if result.agent_info else None
         if include_evaluation_items:
             result.evaluation_item_results = (
                 await _evals_common._convert_evaluation_run_results_async(
-                    self._api_client, result.evaluation_run_results
+                    self._api_client, result.evaluation_run_results, agent_info
                 )
             )
 

Original file line number	Diff line number	Diff line change
`@@ -1293,10 +1293,11 @@ def get_evaluation_run(`
`1293`	`1293`	`if name.startswith("projects/"):`
`1294`	`1294`	`name = name.split("/")[-1]`
`1295`	`1295`	`result = self._get_evaluation_run(name=name, config=config)`
	`1296`	`+ agent_info = result.agent_info if result.agent_info else None`
`1296`	`1297`	`if include_evaluation_items:`
`1297`	`1298`	`result.evaluation_item_results = (`
`1298`	`1299`	`_evals_common._convert_evaluation_run_results(`
`1299`		`- self._api_client, result.evaluation_run_results`
	`1300`	`+ self._api_client, result.evaluation_run_results, agent_info`
`1300`	`1301`	`)`
`1301`	`1302`	`)`
`1302`	`1303`	`return result`
`@@ -2097,10 +2098,11 @@ async def get_evaluation_run(`
`2097`	`2098`	`if name.startswith("projects/"):`
`2098`	`2099`	`name = name.split("/")[-1]`
`2099`	`2100`	`result = await self._get_evaluation_run(name=name, config=config)`
	`2101`	`+ agent_info = result.agent_info if result.agent_info else None`
`2100`	`2102`	`if include_evaluation_items:`
`2101`	`2103`	`result.evaluation_item_results = (`
`2102`	`2104`	`await _evals_common._convert_evaluation_run_results_async(`
`2103`		`- self._api_client, result.evaluation_run_results`
	`2105`	`+ self._api_client, result.evaluation_run_results, agent_info`
`2104`	`2106`	`)`
`2105`	`2107`	`)`
`2106`	`2108`