Productos ›  Machine learning  › AWS HealthOmics  › Precios de AWS HealthOmics

 

 

Información general

AWS HealthOmics ayuda a los clientes a acelerar los avances científicos con una infraestructura de computación y de descubrimiento de fármacos completamente administrada, diseñada para gestionar los flujos de trabajo y el almacenamiento a gran escala. Con HealthOmics, solo paga por lo que usa y no hay costos por usar la licencia de HealthOmics.

HealthOmics ofrece dos tipos de flujos de trabajo. Los flujos de trabajo privados son flujos de trabajo personalizados definidos por el usuario que le permiten usar sus propios scripts de biocomputación escritos en los lenguajes de flujo de trabajo más utilizados. Los precios de los flujos de trabajo privados se basan en los recursos de computación y del sistema de archivos solicitados para cada ejecución. Los flujos de trabajo Ready2Run son canalizaciones de computación prediseñadas que se basan en análisis comunes del sector. Se paga un costo fijo por ejecución.

HealthOmics ofrece dos tipos de almacenamiento. Los almacenes de referencias y secuencias son almacenes de datos para objetos que utilizan la clasificación por niveles, la compresión y la catalogación de metadatos para almacenar y organizar de forma rentable los datos de biocomputación. Los precios se basan en el tamaño del objeto almacenado y en el nivel de los datos. El almacenamiento de variantes y anotaciones consiste en almacenes sin ETL que extraen datos clave de datos de biocomputación para crear un lago de datos optimizado para la búsqueda y la creación de cohortes. Los precios se basan en el tamaño de almacenamiento de la información extraída.

Puede usar los flujos de trabajo y los almacenes de datos juntos o por separado, según sea necesario. Puede contactar con nosotros para obtener precios con descuento si quiere contratar el servicio durante un periodo de tres o cinco años.

Nivel gratuito

Como parte del nivel gratuito de AWS, puede comenzar a utilizar AWS HealthOmics sin cargo alguno. Al registrarse, los nuevos clientes de AWS reciben hasta 275 horas de instancias omics.m.xlarge (o equivalente) y 49 000 gigabytes por hora de almacenamiento de ejecuciones para poner en marcha flujos de trabajo privados, 1500 gigabases por mes de almacenamiento activo y de archivos en el almacén de secuencias y 200 gigabytes por mes de almacenamiento en el almacén de variantes. El uso del nivel gratuito se calcula cada mes en todas las regiones, excepto en la región AWS GovCloud (EE. UU.), y se aplica a su factura de manera automática; no se acumulará el uso mensual no consumido. Se aplican restricciones; consulte las condiciones para obtener más detalles.

 

Uso del nivel gratuito al mes durante los dos primeros meses

Flujos de trabajo de HealthOmics

Flujos de trabajo privados: 275 horas de uso de instancias omics.m.xlarge o instancias de computación equivalentes y 49 000 GB por hora de almacenamiento de ejecuciones

Almacenes de datos de HealthOmics Almacén de secuencias: 1500 gigabytes por mes en la clase de almacenamiento activo y 1500 gigabases por mes en la clase de almacenamiento de archivo

Almacén de variantes: 200 gigabytes por mes

Los clientes de AWS reciben 100 GB de transferencia de datos a Internet cada mes sin cargo, agregados en todos los servicios y regiones de AWS (excepto China y GovCloud).

Precios de flujos de trabajo privados

Los flujos de trabajo privados son flujos de trabajo personalizados que tiene que definir en función del lenguaje de flujo de trabajo que elija para poner en marcha canalizaciones de biocomputación o descubrimiento de fármacos. El costo se debe a dos componentes: las instancias de tareas del flujo de trabajo y el almacenamiento de ejecuciones.

Se le cobra por la instancia ómica utilizada para cada tarea de su flujo de trabajo. Cada tarea del flujo de trabajo se asigna a la instancia ómica más pequeña disponible que satisface las necesidades de vCPU, memoria o GPU solicitadas para la tarea. Por ejemplo, una tarea definida para utilizar 8 CPU y 60 GB de RAM se asignará al tipo de instancia omics.r.2xlarge para su ejecución. HealthOmics siempre aprovisiona exactamente los recursos solicitados. En este ejemplo, se ofrecerán 8 CPU y 60 GiB de RAM para la tarea. Las tareas se facturan en incrementos de 1 segundo; sin embargo, hay un límite mínimo de facturación de 60 segundos por tarea. En caso de que no especifique el valor de vCPU o memoria de una tarea, HealthOmics aprovisionará automáticamente el tipo de instancia más pequeño disponible, omics.c.large, para estas tareas. Tampoco se le cobrará por la computación asociada al almacenamiento provisional de datos (es decir, las importaciones y exportaciones) y no se le cobrarán cargos entre zonas de disponibilidad.

Para el almacenamiento de ejecuciones, puede elegir un sistema de archivos aprovisionado estadísticamente con un mayor rendimiento del sistema de archivos o un sistema de archivos que se escale de forma dinámica. El almacenamiento de ejecuciones estático está disponible en los siguientes tamaños: 1200 GiB, 2400 GiB y, luego, en incrementos de 2400 GiB, con un tamaño mínimo aprovisionado de 1200 GiB. El almacenamiento de ejecuciones dinámico se amplía con el uso y no tiene un requisito mínimo de aprovisionamiento de almacenamiento.

Solo se le cobrarán los recursos mientras la ejecución se esté llevando a cabo. No se cobran las ejecuciones pendientes, iniciadas o interrumpidas. En el caso de las ejecuciones que se cancelan o fallan, se le facturan los recursos que se hayan utilizado hasta el momento de la cancelación o el error.

Puede ver los costos totales de cada ejecución en su factura de AWS, lo que le permite determinar sus costos de manera rápida y sencilla. HealthOmics también proporciona la herramienta Analizador de ejecución de código abierto para que pueda optimizar los recursos, los costos y el rendimiento de las ejecuciones. Si planea poner en marcha flujos de trabajo de producción a escala y si quiere contratar el servicio durante un periodo de tres o cinco años, puede contactar con nosotros para obtener precios con descuento.

 

Precios de flujos de trabajo Ready2Run

Los flujos de trabajo Ready2Run son flujos de trabajo preconfigurados y diseñados por empresas de software de terceros líderes del sector, como NVIDIA, Sentieon, Element Biosciences y Ultima, junto con canalizaciones de código abierto comunes, como los flujos de trabajo de GATK de Broad Institute y AlphaFold para la predicción de la estructura de las proteínas. Simplemente puede utilizar los flujos de trabajo Ready2Run para procesar sus datos sin necesidad de administrar las herramientas de software o los scripts de flujo de trabajo. Los flujos de trabajo Ready2Run se pagan por ejecución y se le cobra la misma tarifa fija cuando estos se completan correctamente, independientemente del tiempo de ejecución. Si la ejecución se cancela o no se puede completar correctamente en la primera hora, la tarifa de costo por ejecución se prorratea en función de la primera hora de uso. Las ejecuciones que duran más de 1 hora se facturan por el precio total de la ejecución. Los flujos de trabajo Ready2Run de Sentieon requieren una suscripción independiente que puede comprar en Sentieon. Sentieon proporciona automáticamente una suscripción de evaluación gratuita de dos semanas sin costo adicional a los usuarios que usen Ready2Run de Sentieon por primera vez. Para obtener más información sobre los flujos de trabajo Ready2Run disponibles, como los parámetros de entrada, los diagramas de flujo de trabajo y los tiempos de ejecución estimados, vaya a la consola de HealthOmics.

Precios de almacenes de datos

Los almacenes de datos de HealthOmics ofrecen un almacenamiento administrado localizable, accesible, interoperable y reutilizable (FAIR) para datos de muestras a gran escala con compresión automática de datos y capacidad optimizada de consulta de variantes y anotaciones.

El almacén de secuencias permite ahorrar costos mediante la compresión y la organización en niveles en función del uso. Los objetos almacenados se agrupan en conjuntos de lectura para organizarlos y encontrarlos. Cuando almacena datos en el almacén de secuencias, paga por gigabase al mes. Una gigabase equivale a mil millones de bases de los archivos de secuencia importados (como FASTQ, BAM y CRAM). Como la facturación se lleva a cabo por gigabase, no tiene que preocuparse por las técnicas de compresión o los formatos de archivo óptimos. AWS HealthOmics se encarga de la optimización. Se puede acceder a los datos del almacén de secuencias de dos maneras: 1/ Mediante la lectura, escritura y actualización de las API de HealthOmics y mediante la lectura a través de las API de S3. Para acceder a través de las API de HealthOmics, pagará por las solicitudes GET realizadas a los objetos del conjunto de lectura. Todos los demás tipos de solicitudes de HealthOmics respecto a los conjuntos de lectura son gratuitos. 2/ Mediante las API LIST y GET de S3. Para el acceso a través de las API de S3, las solicitudes COPY y LIST se facturan por separado de todos los demás tipos de solicitudes. Para ver cómo se comparan los costos del almacén de secuencias de HealthOmics con las opciones de almacenamiento alternativas, consulte nuestro blog: https://aws.amazon.com/blogs/industries/store-omics-data-cost-effectively-at-any-scale-with-aws-healthomics/

Los almacenes de variantes y anotaciones utilizan el método sin ETL para preparar los datos de variantes y anotaciones para consultarlos, agruparlos y analizarlos con los servicios de AWS, como Amazon Athena y Amazon SageMaker. HealthOmics procesa los archivos ingeridos y los convierte en formatos optimizados para consultas. Puede almacenar cualquier cantidad de datos de variantes y anotaciones y solo paga por lo que está almacenado. El tamaño de los datos facturados se define como el tamaño de los datos después de la ingesta y la transformación. Por lo general, se accede a los datos del almacén de variantes y anotaciones a través de otros servicios de AWS. Cuando consulta y analiza los datos en otros servicios, pagará por el uso de dichos servicios.

Los datos almacenados en almacenes de datos de AWS HealthOmics se cobran por una duración mínima de almacenamiento de 30 días. Los datos eliminados antes de 30 días incurren en un cargo prorrateado equivalente al cargo de almacenamiento de los días restantes. 

Ejemplos de precios

  • Una científica de biocomputación desea poner en marcha un flujo de trabajo de Nextflow en los flujos de trabajo de AWS HealthOmics en la región Este de EE. UU. (Norte de Virginia). Tiene tres tareas en el flujo de trabajo. La primera reserva 16 CPU virtuales y 30 GB de memoria y tarda 3 horas en ejecutarse. La segunda requiere 32 CPU virtuales y 160 GB de memoria y tarda 2 horas en ejecutarse. La tercera reserva 4 CPU virtuales y 10 GB de memoria y tarda 10 minutos en ejecutarse. El cliente registra el flujo de trabajo y llama a la API StartRun con el sistema de archivos de 1200 GB predeterminado. Los costos totales son:
    Tarea 1 (omics.c.4xlarge): 0,9180 USD/hora * 3 horas = 2,754 USD
    Tarea 2 (omics.r.8xlarge): 2,7216 USD/hora * 2 horas = 5,4432 USD
    Tarea 3 (omics.m.xlarge): 0,2592 USD/hora * 1/6 horas = 0,0432 USD
    Almacenamiento de ejecuciones estático: 0,0001918 USD/GB-hora * (1200 GB * [3 horas + 2 horas + 1/6 horas]) = 1,18916 USD
    Total: 9,42956 USD

  • Una científica de biocomputación está desarrollando un nuevo flujo de trabajo de WDL en AWS HealthOmics, en la región Este de EE. UU. (Norte de Virginia). Tiene dos tareas en el flujo de trabajo. La primera reserva 16 CPU virtuales y 30 GB de memoria y tarda 3,5 horas en ejecutarse. La segunda requiere 32 CPU virtuales y 160 GB de memoria y tarda 2,25 horas en ejecutarse. El cliente registra el flujo de trabajo y llama a la API StartRun con el sistema de archivos de 1200 GB predeterminado. En el transcurso de la ejecución del flujo de trabajo de 5,75 horas, el sistema de archivos crece linealmente de 0 GB a 1043 GB, con un total de 3000 GB por hora de almacenamiento de archivos. Los costos totales son:
    Tarea 1 (omics.c.4xlarge): 0,9180 USD/hora * 3,5 horas = 3,213 USD
    Tarea 2 (omics.r.8xlarge): 2,7216 USD/hora * 2,25 horas = 6,1236 USD
    Almacenamiento de ejecuciones dinámico: 0,0004110 USD/GB por hora * 3000 GB por hora = 1,233 USD
    Total: 10,5696 USD

  • Un científico computacional quiere poner en marcha el flujo de trabajo Ready2Run de GATK-BP Germline fq2vcf para 30 veces el genoma en la región Este de EE. UU. (Norte de Virginia) para 3 muestras. El cliente introduce sus datos y llama a la API StartRun para cada muestra. El costo de las tres ejecuciones es:
    Flujo de trabajo Ready2Run de GATK-BP Germline fq2vcf para 30 veces el genoma: 10,00 USD por ejecución * 3 = 30,00 USD
    Total: 30,00 USD

  • Una iniciativa de secuenciación de poblaciones comienza a secuenciar individuos de un biobanco que han recopilado. Para ello, optan por la región Europa (Irlanda). Secuencian 100 000 individuos, cada uno con 130 gigabases, 50 gigabytes y almacenan los datos de secuenciación sin procesar en el almacenamiento de AWS HealthOmics. Durante los siguientes cinco años, permanecen en la clase de almacenamiento de archivo después de los 30 días siguientes a la importación y se accede a estos dos veces, en promedio, cuando pasan a la clase de almacenamiento activo durante 30 días. Utilizan las API de S3 para acceder a los archivos. Cada genoma se descarga en 500 partes, lo que genera 500 llamadas a la API GET. El costo total durante cinco años para un solo genoma es:
    Clase de almacenamiento activo: 0,005769 USD gigabase/mes * 130 gigabases * 90 días = 2,22 USD
    Clase de almacenamiento de archivo: 0,001154 USD gigabase/mes * 130 gigabases * (1825 - 90) días = 8,56 USD.
    API GET de S3: 0,0004 USD/1000 llamadas a la API * (2 * 500 llamadas a la API) = 0,0004 USD
    Costo total durante 5 años: 2,22 USD + 8,56 USD + 0,0004 USD = 10,78 USD (o 2,15 USD/año)

  • Un científico de datos tiene 3202 archivos de formato de llamada de variantes (VCF) que desea analizar en Amazon Athena en la región Este de EE. UU. (Norte de Virginia). Crea un almacén de variantes e ingiere estos archivos con las API de AWS HealthOmics. El tamaño de los datos ingeridos es de 1,5 TB. En el transcurso del mes siguiente, ejecuta 1000 consultas en Athena, en las que calcula las frecuencias alélicas de diferentes subpoblaciones, cada una de las cuales consume en promedio 50 GB. Los gastos mensuales totales son:
    Almacén de variantes: 0,035 USD GB/mes * (1024 GB/TB * 1,5 TB) = 53,76 USD
    Amazon Athena: 5 USD/TB * 1000 * 50 / 1024 = 244,14 USD

Precios de las transferencias de datos

Paga por todo el ancho de banda de HealthOmics. Las tarifas de transferencia de datos no se aplican a los datos transferidos a ningún servicio de AWS dentro de la misma región de AWS que el almacén de datos. El precio indicado más abajo se basa en los datos de “entrada” y “salida” transferidos en AWS HealthOmics (a través del Internet público)†††. Más información sobre los precios de AWS Direct Connect. Para transferencias de datos que excedan los 500 TB al mes, póngase en contacto con nosotros.

Los niveles de tarifas contemplan el uso agregado para la transferencia saliente de datos a Internet en todos los servicios de AWS.

††† La transferencia saliente de datos puede ser diferente de los datos recibidos por su aplicación en caso de que termine la conexión antes de tiempo. Por ejemplo, si realiza una solicitud de un objeto de 10 GB y termina la conexión después de recibir los primeros 2 GB de datos. AWS HealthOmics trata de detener la transmisión de datos, pero esto es algo que no sucede de manera instantánea. En este ejemplo, la transferencia saliente de datos puede ser de 3 GB (1 GB más de los 2 GB que recibió). Por consiguiente, se facturarán 3 GB de transferencia saliente de datos.