Matemáticas esenciales para la ciencia de datos

Los temas clave que debe dominar para convertirse en un mejor científico de datos

Las matemáticas son la base de cualquier disciplina científica contemporánea. Casi todas las técnicas de la ciencia de datos moderna, incluido el aprendizaje automático, tienen una base matemática profunda.

No hace falta decir que necesitará absolutamente todas las otras perlas de conocimiento (capacidad de programación, cierta cantidad de perspicacia comercial y su mentalidad analítica e inquisitiva única) sobre los datos para funcionar como un científico de datos superior. 

Pero siempre vale la pena conocer la maquinaria que hay debajo del capó, en lugar de simplemente ser la persona detrás del volante sin conocimiento del automóvil. Por lo tanto, una sólida comprensión de la maquinaria matemática detrás de los algoritmos geniales le dará una ventaja entre sus pares.

Piense en un desarrollador web o analista empresarial. Es posible que estén tratando con una gran cantidad de datos e información a diario, pero es posible que no haya un énfasis en el modelado riguroso de esos datos. 

A menudo, el énfasis está en utilizar los datos para una necesidad inmediata y seguir adelante, en lugar de en una exploración científica profunda. La ciencia de datos, por otro lado, siempre debe estar relacionada con la ciencia (no con los datos). Siguiendo ese hilo, ciertas herramientas y técnicas se vuelven indispensables. La mayoría son las señas de identidad del sólido proceso científico:

  • Modelar un proceso (físico o informativo) investigando la dinámica subyacente
  • Construyendo hipótesis
  • Estimar rigurosamente la calidad de la fuente de datos
  • Cuantificar la incertidumbre en torno a los datos y las predicciones.
  • Identificar el patrón oculto del flujo de información.
  • Comprender la limitación de un modelo
  • Comprender la prueba matemática y la lógica abstracta detrás de ella.

La ciencia de datos, por su propia naturaleza, no está ligada a un área temática en particular y puede abordar fenómenos tan diversos como el diagnóstico de cáncer y el análisis del comportamiento social. 

Esto produce la posibilidad de un despliegue vertiginoso de objetos matemáticos n-dimensionales, distribuciones estadísticas, funciones objetivo de optimización, etc.

Aquí están mis sugerencias sobre los temas a estudiar para estar en la cima del juego en ciencia de datos.

Funciones, variables, ecuaciones y gráficos

Esta área de matemáticas cubre los conceptos básicos, desde la ecuación de una línea hasta el teorema del binomio y todo lo demás:

  • Logaritmo, exponencial, funciones polinomiales, números racionales
  • Teoremas y geometría básica, identidades trigonométricas
  • Números reales y complejos, propiedades básicas
  • Series, sumas, desigualdades
  • Graficar y trazar, coordenadas cartesianas y polares, secciones cónicas

Dónde puede usarlo

Si desea comprender cómo se ejecuta una búsqueda más rápido en una base de datos de un millón de elementos después de haberla ordenado, se encontrará con el concepto de «búsqueda binaria». 

Para comprender su dinámica, debe comprender los logaritmos y las ecuaciones de recurrencia. O, si desea analizar una serie de tiempo, puede encontrar conceptos como «funciones periódicas» y «decaimiento exponencial».

Dónde puedes aprenderlo

Estadísticas

No se puede exagerar la importancia de tener un conocimiento sólido de los conceptos esenciales de estadística y probabilidad. Muchos profesionales en el campo consideran que el aprendizaje automático clásico (sin redes neuronales) no es más que aprendizaje estadístico. El tema es amplio y la planificación enfocada es fundamental para cubrir los conceptos más esenciales:

  • Resúmenes de datos y estadística descriptiva, tendencia central, varianza, covarianza, correlación
  • Probabilidad básica: idea básica, expectativa, cálculo de probabilidad, teorema de Bayes, probabilidad condicional
  • Funciones de distribución de probabilidad: uniforme, normal, binomial, chi-cuadrado, distribución t de Student, teorema del límite central
  • Muestreo, medición, error, generación de números aleatorios
  • Prueba de hipótesis, prueba A / B, intervalos de confianza, valores p
  • ANOVA, prueba t
  • Regresión lineal, regularización

Dónde puede usarlo

En entrevistas. Si puede demostrar que domina estos conceptos, impresionará al otro lado de la mesa rápidamente. Y los usará casi todos los días como científico de datos.

Álgebra lineal

Esta es una rama esencial de las matemáticas para comprender cómo funcionan los algoritmos de aprendizaje automático en un flujo de datos para generar información. 

Todo, desde sugerencias de amigos en Facebook hasta recomendaciones de canciones en Spotify, hasta transferir tu selfie a un retrato al estilo de Salvador Dalí usando el aprendizaje de transferencia profunda, involucra matrices y álgebra matricial. Estos son los temas esenciales para aprender:

  • Propiedades básicas de la matriz y los vectores: multiplicación escalar, transformación lineal, transponer, conjugar, rango, determinante
  • Productos internos y externos, regla de multiplicación de matrices y varios algoritmos, matriz inversa
  • Matrices especiales: matriz cuadrada, matriz de identidad, matriz triangular, idea de matriz dispersa y densa, vectores unitarios, matriz simétrica, matrices hermitianas, sesgadas-hermitianas y unitarias
  • Concepto de factorización matricial / descomposición LU, eliminación Gaussiana / Gauss-Jordan, resolución del sistema de ecuación lineal Ax = b
  • Espacio vectorial, base, lapso, ortogonalidad, ortonormalidad, mínimos cuadrados lineales
  • Autovalores, autovectores, diagonalización, descomposición de valores singulares

Dónde puede usarlo

Si ha utilizado el análisis de componentes principales de la técnica de reducción de dimensionalidad , es probable que haya utilizado la descomposición de valor singular para lograr una representación de dimensión compacta de su conjunto de datos con menos parámetros. 

Todos los algoritmos de redes neuronales utilizan técnicas de álgebra lineal para representar y procesar estructuras de redes y operaciones de aprendizaje.

Cálculo

Esta es una rama esencial de las matemáticas para comprender cómo funcionan los algoritmos de aprendizaje automático en un flujo de datos para generar información. 

Todo, desde sugerencias de amigos en Facebook hasta recomendaciones de canciones en Spotify, hasta transferir tu selfie a un retrato al estilo de Salvador Dalí usando el aprendizaje de transferencia profunda, involucra matrices y álgebra matricial. Estos son los temas esenciales para aprender:

  • Propiedades básicas de la matriz y los vectores: multiplicación escalar, transformación lineal, transponer, conjugar, rango, determinante
  • Productos internos y externos, regla de multiplicación de matrices y varios algoritmos, matriz inversa
  • Matrices especiales: matriz cuadrada, matriz de identidad, matriz triangular, idea de matriz dispersa y densa, vectores unitarios, matriz simétrica, matrices hermitianas, sesgadas-hermitianas y unitarias
  • Concepto de factorización matricial / descomposición LU, eliminación Gaussiana / Gauss-Jordan, resolución del sistema de ecuación lineal Ax = b
  • Espacio vectorial, base, lapso, ortogonalidad, ortonormalidad, mínimos cuadrados lineales
  • Autovalores, autovectores, diagonalización, descomposición de valores singulares

Dónde puede usarlo

Si ha utilizado el análisis de componentes principales de la técnica de reducción de dimensionalidad , es probable que haya utilizado la descomposición de valor singular para lograr una representación de dimensión compacta de su conjunto de datos con menos parámetros. 

Todos los algoritmos de redes neuronales utilizan técnicas de álgebra lineal para representar y procesar estructuras de redes y operaciones de aprendizaje.

Matemáticas discretas

Esta área no se discute con tanta frecuencia en la ciencia de datos, pero toda la ciencia de datos moderna se realiza con la ayuda de sistemas computacionales, y las matemáticas discretas están en el corazón de dichos sistemas. 

Un repaso en matemáticas discretas incluirá conceptos críticos para el uso diario de algoritmos y estructuras de datos en el proyecto de análisis:

  • Conjuntos, subconjuntos, conjuntos de potencias
  • Funciones de conteo, combinatoria, contabilidad
  • Técnicas básicas de prueba: inducción, prueba por contradicción.
  • Conceptos básicos de lógica inductiva, deductiva y proposicional
  • Estructuras de datos básicas: pilas, colas, gráficos, matrices, tablas hash, árboles
  • Propiedades del gráfico: componentes conectados, grados, conceptos de flujo máximo / corte mínimo, coloración del gráfico
  • Relaciones y ecuaciones de recurrencia
  • Crecimiento de funciones y concepto de notación O (n)

Dónde puede usarlo

En cualquier análisis de redes sociales, necesita conocer las propiedades de un gráfico y un algoritmo rápido para buscar y recorrer la red. 

En cualquier elección de algoritmo, debe comprender la complejidad del tiempo y el espacio, es decir, cómo el tiempo de ejecución y los requisitos de espacio aumentan con el tamaño de los datos de entrada, utilizando la notación O (n) (Big-Oh).

Escrito por: Tirthajyoti Sarkar

 

Hola, 👋 encantados de conocerte.

Regístrate para recibir contenido interesante en tu bandeja de entrada, cada mes.

¡No hacemos spam! Lee nuestra [link]política de privacidad[/link] para obtener más información.

Publicaciones Similares